要教會電腦理解常識，微軟發表內含540萬種概念的大型「知識概念圖」|數位時代 BusinessNext

要教會電腦理解常識，微軟發表內含540萬種概念的大型「知識概念圖」

微軟發布了內含540萬個概念的知識資料庫「Microsoft Concept Graph」，且每個概念下會有許多實體和子概念，以及單字關聯模型「Microsoft Concept Tagging Model」，可讓電腦根據上下文，計算出單字對應到特定概念的機率為何。

「蘋果是什麼？」是一種水果還是一家公司？只要再給出多點線索，例如「蘋果是甜的」，人類便能快速且正確判斷出蘋果在不同情境代表的意義。然而對電腦而言，儘管人工智慧看似無所不能，但要讓機器完全聽懂人類語言，至今仍是難以突破的瓶頸。

對此，微軟亞洲研究院推出大型知識概念圖，內包含各種單字背後對應的概念，幫電腦補足人類的常識性知識，並讓電腦可以根據上下文判斷單字意思，更了解人類語言。

打造知識概念圖教電腦「常識」

為了彌補機器和人類理解語言的落差，微軟指出，其中的關鍵便是教導電腦不同字詞所代表的「概念」，而第一步是將人類的常識建立成概念資料庫，第二步則是讓電腦可以正確找到單字在特定情境的概念。因此微軟也發表了目前最大的知識資料庫「Microsoft Concept Graph」和單字關聯模型「Microsoft Concept Tagging Model」。

「Microsoft Concept Graph」是一套知識概念圖，在爬梳數十億個網頁和搜尋結果後，整理出540萬個概念，且每個概念下會有許多實體和子概念，例如「太陽系」的概念下，可能包含著「水星」、「地球」等。

相較於既有知識資料庫，Microsoft Concept Graph除了簡單的單字，也包含較長的複合型單字，相較其他知識資料庫如Freebase的2千條或Cyc的12萬條，資料量要大上許多。

另外，Google也有自家知識圖譜，並將其用於搜尋功能及虛擬助手Google Assistant。例如，當搜尋「達文西」時，不僅出現網頁，還會直接列出相關資料，如最常被搜尋的達文西作品圖片，提供一系列而非單一的搜尋結果。Google執行長皮采（Sundar Pichai）於今年10月時，宣布Google知識圖譜包含的「事實（fact）」已超過700億則，不過無法確定Google所指的「事實(fact)」和微軟指的「概念(concept)」定義是否相同。

未來可根據上下文判斷單字代表概念

有了概念資料庫，還須讓電腦學習將單字自動對應到正確的意思。微軟舉例，看見「蘋果是甜的」這句話，人類幾乎可在瞬間確定這裡的「蘋果」代表的是某種水果，而非生產iPhone的蘋果公司。而微軟推出的Microsoft Concept Tagging model ，便可讓電腦根據上下文，計算出單字對應到特定概念的機率為何。

目前，微軟推出的版本已可列出所有概念和單字的關聯性高低，例如「微軟」對應到「軟體公司」的關聯性，會較「公司」還要高。未來，微軟希望讓電腦可根據上下文判斷單字和短文本代表的意思，完全理解人類語言，應用於搜尋引擎、廣告、聊天機器人和人工智慧等領域。

資料來源：Microsoft 1,2、TechCrunch