[AI洞見]AI真的能了解人類語言嗎？|數位時代 BusinessNext

2017年除了虛擬貨幣以外，科技業最熱門的話題應該就是AI。對於一般大眾而言，AI就好像是味精一樣，是種「謎」一樣的白粉末，甚麼東西只要撒在一點AI就可以揚味。故此，大家對於AI的想像也催化了Pepper和Sophia這種仿人類的產品。

而這種幻想在某種程度上已經造就過度的異想，甚至恐慌。許多人在看到Sophia這類實體機器人或是Alexa這類語音助理做出「仿人類的行為」，便開始相信這些機器擁有相當於人類的智慧，但事實上，光是能重複同樣的行為，並不代表機器代表有同樣的認知能力。

今天，先以自然語言為例，讓我們來討論一下目前的聊天機器人和對話式AI（Conversational AI）是否能了解人類的自然語言？

自然語言與對話AI短介

敝人過去曾發表過兩篇關於AI的相關文章，一篇是AI產業的部分歷史，另一篇則是針對AI觀念上做一些闢謠。在此關於整體AI的觀念就不冗述，讓我們將重點放在對話型AI上。

由於AI與其說是個產業領域，不如說是社會大眾對於系統功能一種非常模糊的期許，因此其實所謂AI產業的相關技術包山包海，從非常簡單的規則式系統，到資料搜尋彙整，到機器學習都有。事實上，做AI真的是隔行如隔山。

而自然語言身為AI的分支，其實自己就很複雜了。自然語言技術從詞性（Morphology）、句法（Syntax）、語義（Semantics）、主題（Topic）、對話（Dialog）、論述（Discourse）等不同層面，其實涉及的技術層面非常的廣。

而對話式AI，嚴格上來說是自然語言的應用面。要讓一台機器能夠了解人類的語言並且與其對話，通常至少會牽涉到至少上述三個以上的自然語言領域。

對話AI系統基本架構

大家在學習語言的時候應該都記得學習文法時的痛苦。由於語言還是有相當的規則性，最早的自然語言技術和對話AI幾乎都是以規則式系統（Rule-based Systems）或是文法式分析器（Grammar-based Parser）的概念去設計的。

然而，人類在使用語言的時候常常會用一些俚語、縮寫，也常常會犯些文法上的錯誤，因此完全使用規則式的理念去設計出的系統，常常在現實產業環境中會碰上瓶頸。

因此過去二十年來，有越來越多的對話系統在某種部分會採用機器學習的統計學方法去設計系統，這樣才能夠有效處理更多的雜音和錯誤。

也因為如此，句法（Syntax）技術在過去十年在對話AI中的使用頻率逐漸下降，而新的技術多半將語義（Semantics）跟句法混合，並且結合機器學習和規則式系統來設計。

舉例說明，十年以前的對話和自然語言系統，都還相當注重名詞、動詞等的辨識，其後才是針對句中詞彙的語義進行分析（比如說大象有四隻腳、阿姨是父親或母親的姊妹之類的）。前者仰賴規則式系統，後者除了規則還需要知識庫。

但是今天的對話系統，因為大家發現分析句法並沒有甚麼太明顯的幫助，現在都是直接用機器學習去對句子進行分類，然後再用規則去擷取詞彙。而用機器學習對句子做分類和辨識，現在都粗略地稱為「意向辨識」（Intent Classification）。

舉例說明，如果你的對話系統是客服系統，你可能會有很多像是「我的聯絡資料是09xx-xxx-xxx」之類的資料，而這類意向語句可能會被分類為「提供連絡電話」，而這意向語句中的「09xx-xxx-xxx」則可能被標記為知識欄位。而經過機器學習訓練出統計模型後，這對話系統每當碰到類似的語句就可以很快地辨別出使用者在提供聯絡電話，並且從中萃取出電話號碼，之後再執行相關的對話模型。

所以，現代很多的對話系統的基本架構就是：

其實相當簡單，接下來讓我們討論一下對話模型是什麼？

對話模型（Dialog Model）是什麼？

你可以想像如果你今天打客服申訴電話，流程大致上是：

「您好，請問我該如何協助您？」
我買的ＸＸＸ壞掉了。
「請問是碰到甚麼樣的問題呢？」
ＸＸＸ連不上網路。
「那我請我們工程師跟您聯絡，方便提供一下您的聯絡電話嗎？」
我的連絡電話是09xx-xxx-xxx
「好，那我會請我們下一位工程師打電話幫您除錯，真的很抱歉！您有甚麼其他問題需要解答的嗎？」

而用來管理這整個流程的模型就統稱為對話模型。

以上面的對話為例，一開始系統還沒有載入任何對話模型，但是發現使用者說「產品有問題」，此意向就開啟了類似「問題回報」的對話模型。而以上對話模型很簡單，回報問題就是紀錄問題，並且索取使用者的聯絡方式。而當系統問到「您有甚麼其他問題需要解答的嗎？」時，基本上已經結束了先前的對話模型，並且在尋找新的意向。

其實現在對話系統中所使用的對話模型都沒有很複雜，基本上可分為幾大類：

查詢對話模型（Query Dialog），其實Siri大部分的功能都是查詢對話。基本上就是將幾個不同的資料來源（如維基百科、Google）的資訊整合成答案，然後提供給使用者。比如說「現在幾點？」、「離我最近的日式餐廳在哪裡？」都是查詢對話。
圖形導向對話模型（Graph-based Dialog），圖形一詞是數學上圖論中的圖，這種對話模型其實粗略而言就是資訊科學中的ＦＡ（Finite Automata）。這類對話基本上就是一大樹狀圖，而每個路徑都只有有限的互動選項。比如說我們電話上常常碰到的那種「國語請選一、For English Please dial 2」那類基本上就是這類對話模型。
表單導向對話模型（Form-based Dialog），顧名思義，就是目的將一表單填完的對話。上面提到的對話模型案例其實可以算是表單對話模型，基本上就是將問卷從頭到尾做完、儲存資料後就自動退出。
計畫導向對話模型（Plan-based Dialog），其實這類對話模型算是表單和圖形對話模型的一個改進版。計畫導向對話模型中的計畫通常都有一些邏輯性的規則，比如說我需要使用者的電話、我需要使用者的姓名、使用者需要完成轉帳之類的，而這些規則不一定需要照順序來，甚至可以將多個意向合一（比如說將「我的名字叫做王大明，電話是09xx-xxx-xxx」自動拆成「提供姓名」、「提供連絡電話」兩個意向，並滿足計畫的兩個規則）。這種對話模型雖然比較彈性，但是工程上的複雜度卻高出許多。

目前來講不管是Siri、Google Assistant、Alexa還是Cortana，大部分的對話模型還是採用前三者，偶而會碰上最後一種。原因並不是技術上做不出更複雜更有彈性的對話模型，而是因為工程成本太高，不符合商業效益。市面上很多只會報一些最新消息的那種超級陽春聊天機器人就更不用說了。

所以基本上而言，許多語音助理和聊天機器人背後的對話系統基本上就是不斷地在尋找意向來開啟對話模型。一旦開啟對話模型，使用者可以透過特定的語句開關（如很多系統會使用「從頭開始」作為開關）終結對話模型，不然就是會繼續跟這對話模型互動，直到對話完成為止。

自然語言和對話AI的技術仍卡在幾個環節

其實沒有技術背景的朋友我相信看懂了以上的解釋，應該也可以看出目前自然語言科技和對話系統的諸多限制。這些其實不能光說是工程上的技術限制而已，而是我們對於人類語言、人類心理學乃至腦神經科學的認知仍然相當有限，並不是再丟一些經費做研發馬上就能夠在幾年內突飛猛進。

而整體而言，自然語言和對話AI的技術仍卡在幾個環節，這都需要幾十年的科學研究和科技發展才能夠看到新一代的技術出爐。

最根本的問題就是不同知識領域的歧異性。光是了解金融、醫療領域的術語和對話方式就已經夠折騰人的了。目前為止，我們還沒有辦法去有效地將不同領域的知識和語言模型化、標準化，因此目前任何跨領域的對話系統都是不實用的。

更有趣的是，不管是在認知心理學還是教育心理學，我們都還沒有辦法去完整地形容人類的分類能力和學習能力。

而另一個很重要的環節就是我們所有的科學和工程上的研究都是將資訊和資料作為模型的基礎。

但事實上人類的認知和語言應用深深地受到情感（Affect）影響，而目前對於情感對人類認知能力的影響的研究也不過是最近十幾、二十年的事情。連科學都還沒走到，工程上當然更不可能有一可靠的解決方案。

短結

身為一位在AI相關產業從業人士，其實很多現在產業新聞中提到甚麼「AI讀心術可了解人類在想什麼」或是「機器人獲得沙國公民」從產業人士的角度看來，都是一些很莫名其妙的江湖玩藝。

其實很多很多AI上的技術都只是用統計學和一些規則去將重複性高的工作標準化罷了，事實上根本和取代人類的智慧有一大段距離，甚至八竿子打不著關係。

而敝人以為，AI最後發展會趨緩，因為很多技術的商用價值不夠高，在高失業率低薪資的壓力下，AI技術和低階人力工作會達到一個平衡點，AI不可能會無止盡地發展。

而科學上的AI研究，多數都是沒有甚麼商業價值的，有待過學術界的朋友都知道這部分的進步需要很長很長的一段時間。大家在講的甚麼強AI，基本上在幾十年甚至百年內都還是天方夜譚。

《數位時代》長期徵稿，針對時事科技議題，需要您的獨特觀點，歡迎各類專業人士來稿一起交流。投稿請寄edit@bnext.com.tw，文長至少800字，請附上個人100字內簡介，文章若採用將經編輯潤飾，如需改標會與您討論。

（觀點文章呈現多元意見，不代表《數位時代》的立場。）

在 AI 與高科技製造加速革新的當下，「精準」成為創新的關鍵基礎。對德國百年光學品牌蔡司（ZEISS）而言，精準不只是企業核心，更是一種跨時代的技術信仰；從半導體晶圓製程的光學檢測，到醫療、顯微技術及太空探索，蔡司始終以精密科技撐起產業尖端應用，穩坐全球光學領域的領導地位。

如今，這份對「清晰看見」的堅持，也走入每個人的日常生活。面對數位設備普及所導致的長時間用眼，以及高齡社會帶來的視覺健康挑戰，蔡司運用百年技術基礎與創新服務，再次深刻詮釋「看見」的初衷，致力為每一個人帶來更清晰、更健康的視界。

AI科技結合視力保健，打造個人化的視覺體驗

蔡司近期推出的「NSLY 視界人格測驗」，即是一場以 AI 為基礎的創新嘗試。使用者只需在導覽角色 Ziris 引導下完成一系列問答，系統即能根據互動回應分析其性格特質，配對出對應的「視界顏色」與蔡司代表角色。

透過這種趣味且具備數據基礎的互動設計，蔡司不僅讓大眾對自身視覺需求有了初步認識，也進一步深化「NOBODY SEES LIKE YOU 渲染視界如你所見」的品牌理念——每雙眼睛都是獨一無二的存在。

同時，藉由科技導入參與式體驗的作法，也可能成為健康科技推廣的新趨勢。對視力保健而言，更是翻轉過往「有症狀才就醫」的被動模式，轉向從興趣出發的主動參與。

「蔡司優視力體驗」，重新定義配鏡流程

除了AI互動測驗，蔡司更以數位化技術改變以往傳統的配鏡流程。透過「蔡司優視力體驗」，提供全方位的專業光學解決方案，這套流程結合精密檢測與個性化設計，涵蓋以下三大核心步驟：

視力表現分析：透過專業設備深入了解個人視覺需求與用眼習慣，作為後續設計依據。
精準量測眼部數據：運用高科技儀器精密測量眼球位置、角度與瞳距等眼部數據，確保鏡片設計與視線軸心精確對位。
鏡片與鏡框定位：根據臉型結構與視覺行為模擬，精準取得鏡片安裝位置與鏡框配戴參數，優化視野穩定性與長時間配戴的舒適感。

同時，這套配鏡流程能滿足不同年齡層的需求，從兒童近視矯正到熟齡族群的多焦點鏡片，皆可提供量身打造的解決方案，讓每一副蔡司鏡片都是個人專屬的最佳視覺工具。

科技與永續並行，推動視力保健的社會責任

除了技術創新領先業界，蔡司也以積極行動實踐企業社會責任，推動視力保健的普及與永續發展。近年來，蔡司透過多元形式落實這項承諾，展現品牌對視覺健康議題的長期投入。

其中，「光勢力行動車」計畫即透過全台巡迴，結合現場講座與互動體驗，深入各地社區推廣正確用眼知識與標準配鏡流程。降低了視力教育的門檻，也有效擴大了健康資訊的觸及範圍，讓視力保健成為更容易被理解與實踐的日常習慣。

此外，蔡司亦透過「蔡司光廊 ESG 計畫」串聯公益與永續，號召民眾回收閒置鏡片，賦予其第二生命。這些鏡片經重新整理後，將被用於公益義診與教育資源，在落實循環經濟之際，也為弱勢族群提供視力保健資源，讓「看見」這件事不因社經條件而產生落差。

專業支持與合作，打造完整光學服務鏈

在推動視力保健普及化的過程中，蔡司亦持續深化與各領域專業人士的合作，建立從技術、教育到應用場景的完整光學服務鏈。

在學術領域，中山醫學大學視光學系系主任孫涵瑛分享，蔡司長年在光學技術上的專業累積，為視光實務提供穩固的科學基礎，有助於提升檢測效率與準確性，並強化教學與臨床操作的連結。

而在應用端，看見．齊柏林基金會董事齊廷洹則從影像創作者的角度出發，指出無論是記錄風景還是進行公益拍攝，視覺品質始終是不可或缺的基礎條件。透過與蔡司的合作，讓影像更忠實呈現情感，也讓公益理念得以被更多人「看見」。

透過這些橫跨學術與實務的合作關係，蔡司進一步擴展光學技術的應用場域，從健康照護延伸至教育、影像、文化等多元領域，深化其作為專業夥伴的價值角色。

以AI與精密技術深刻詮釋「看見」的價值

從工業檢測到視力保健，蔡司以百年技術積累與創新思維，持續探索「看見」的更多可能性。透過「NSLY視界人格測驗」、數位化的「蔡司優視力體驗」以及永續發展計畫，蔡司不僅讓消費者感受到品牌的科技實力，更深化了「清晰看見」的價值內涵。

未來，蔡司將持續以精密技術為基石，推動視覺健康與科技創新的雙向發展，為人類帶來更清晰、更美好的世界。

現在，邀請您從個人視角出發，參加《渲染視界如你所見》NSLY視界人格測驗，就有機會抽中日本沖繩雙人來回機票！立即測驗： https://zeissvisexperience.pse.is/Businessnext

[AI洞見]AI真的能了解人類語言嗎？