化身鋼鐵人打造賈維斯?——佐克伯的尷尬與AI的真實進展
化身鋼鐵人打造賈維斯?——佐克伯的尷尬與AI的真實進展
2016.12.26 | Facebook

近來佐克伯向記者公開演示了它2016的作品,一個類似Jarvis的人工智慧助手,從記者的描述來看,這人工智慧助手大部分時候還比較不錯,但在語音互動環節則不太理想,對此騰訊科技做瞭如下報導:

佐克伯還建立了響應語音指令的系統,並通過定制iOS應用控制。但這部分展示不太理想,他重複了四次指令才讓系統弄明白:天黑前不要開燈。佐克伯略顯尷尬地說:「喔,這應該是它最失敗的表現了!」。不過,Jarvis播放音樂的展示還算成功。佐克伯下令:「給我們放段音樂吧!」幾秒鐘後,大衛·庫塔(David Guetta)的《Would I Lie to You》 開始透過客廳音響響起來。他說了兩次「把音量調高」後,系統照做無誤。最後,他同樣說了兩次才讓系統停止播放。

這非常有意思,因為從新聞來看「天黑前不要開燈」和「把音量調高」的失誤顯然都不是命令理解(語義)上有問題,否則你說八百遍Jarvis該不好使還是不好使。如果不是語義的問題,那顯然就會和各大公司所宣稱的已經被解決的問題:語音識別有關。

標準環境解決≠真實效果好

關於語音識別的精度今年官方的報導一般是這樣的:

11月21日到23日,搜狗、百度和科大訊飛三家公司接連召開了三場發布會向外界展示了自己在語音識別和機器翻譯等方面的最新進展。值得注意的是,這三家公司幾乎在同一時段宣布了各自中文語音識別準確率達到了97%。

類似的報導也會發生在微軟等的身上,我們假設Facebook做的不是太差,水平也與此類似達到97%的準確率。 97%的具體含義是100個單詞上只有3個錯誤(刪除、被替換、被插入),那麼問題就來了,如果真實環境裡真的達到了這個精度,那麼佐克伯的演示絕對不應該是上面這個樣子。

那問題出在那裡?

關鍵問題並不復雜,佐克伯用手機當做家庭裡的終端,這樣距離稍微一遠,環境稍微嘈雜一點,那再好的手機也沒辦法幫Jarvis聽清楚你在說什麼。手機本身是設計給近場用的,手機上的語音識別基本也是給近場優化過的,怎麼也不能彌補遠場上帶來的不適應。

佐克伯對此非常坦誠,他在自己的專頁這麼寫道:

In the case of Jarvis, training an AI that you'll talk to at close range is also different from training a system you'll talk to from all the way across the room, like Echo. These systems are more specialized than it appears, and that implies we are further off from having general systems than it might seem.

(原文點。)

上面這段英文簡單來講就是說語音識別更多時候是專門場景下好用,想做一個萬能的版本仍然還很遙遠。語音識別只能做限定場景的最佳。

但事實上佐克伯仍然只認識到了部分問題,因為單純靠改善語音識別比如做一個匹配遠場的版本也還根本解決不了他遇到的問題(上面說的重複指示幾次系統才起作用問題)。我們可以注意到開始播放音樂之後,報導中提到的兩條命令都需要重複兩次,這很可能是音樂自身對語音識別形成了干擾,這種情形下單純的優化語音識別(不管遠場還是近場)是解決不了問題的。

佐克伯接下來的路

如果佐克伯不放棄這事,而是持續對此進行改善,那下面會發生什麼?他可能會掉到坑裡。他用了150小時做到上面那程度,但很可能再花1500小時,效果並沒有實質性改善。

佐克伯如果要優化效果,那麼基本方法有下面幾類:

一種可能是佐克伯覺得真實場景下的信號優化(聲學、硬體等)也沒什麼,找幾個人做做就完了,如果這麼想Facebook可能會自己組建個硬體、聲學團隊來做Echo Dot那樣的終端。但這麼做很可能短期就不會有下次演示了。因為讓語音識別匹配前端聲學信號是容易的,但反過來讓牽涉硬體和物理的聲學來適應語音識別則基本會做掛。而在網路公司裡通常後端偏演算法的勢力會大,所以很容易走到前面那條路上去(這事情中國至少做掛了兩批人了)。中國的大公司很容易走上這條路,但從分工習慣來看,國外公司更願意在技術棧上卡住特定位置,非自己核心的部分會更願意開放給其它人,所以佐克伯這麼幹的可能性不高,除非他覺得自己也得搞Amazon Echo那種產品了。

一種可能是佐克伯和深度學習科學家思路一致,認為所有東西都可以通過深度學習在雲端演算法層面來解決。這種思路下,就會透過深度學習來做降噪等信號層面的工作,用算法挑戰各種物理層面的問題。如果走上這條路,那估計短期也不會有下次演示了,因為他碰到的問題並非單純的降噪問題,迴聲抵消、Beamforming、降噪、聲源定向這些東西是關聯在一起的,指望深度學習短期突破這些問題更像科研上的一種設想而非工程上的一種實踐。 「設想」是說可以成為一種探索的思路,但結果完全沒譜,高度不確定,相當於把不確定性引入產品開發之中。

一種可能是佐克伯走下一步的時候想的很清楚,知道自己這類公司的能力邊界,因此把這部分開放出去,讓專業的人做專業的事。物理的事情歸物理,演算法的事情歸演算法,這樣的話就會滿世界找聲學和遠場語音識別供貨商,但這反倒是最快的一種方式。

不知道佐克伯具體會走那條路。

打破原子與比特的邊界

佐克伯這件事情事實上也提供了一個跳出來看AI的機會。

下圖是Jarvish的系統架構圖:

一般來講,從產品體驗上可以看出技術水平,從架構圖則可以看出來認知上的差異。

根據上圖,顯然的在佐克伯這裡Jarvish被理解成了一個命令控制型的系統,但感知這環節被忽略了,儘管佐克伯自己在文章裡也提到感知上下文是非常關鍵的一個環節(Understanding context is important for any AI.)

這種理解在網路企業那裡很可能非常有代表性,但問題就在於感知恰恰是打造一個初級的Jarvis這樣的系統時最難的環節。因為感知總是要打穿原子和比特的邊界。 Language Processing、Speech Recognition、Face Recognition總是立刻可用的,只受限於演算法的發展程度和數據,但感知部分不是這樣,不單要算法行,器件、生產都要行才能有好的結果。比如說麥克風陣列,你算法再好但MEMS麥克風不給力,那你一樣抓瞎。如果要說的短板的話,在深度學習突破後,感知這一環節才是真的不足。

這就涉及到這次AI突破的一個深層次問題:這次的AI起於深度學習的突破,但真要想創造價值並不能停步在深度學習本身。關鍵原因就在於其AI創造價值的鏈條比較長,必須打破軟硬的邊界,補全整個鏈條,價值才會體現出來。幾乎我們所有能想到的大機會都是這樣,語音互動(需要打穿聲學和識別邊界),自動駕駛(打穿計算機視覺、雷達、機械控制的邊界)等。這部分難度通常是被忽略了,似乎是有幾個深度學習專家問題就可以搞定一切問題。後者不是不行,但要限定在特定類別的事情上,比如圖普科技做的鑑黃等。正是同時做好軟硬這部分在拉長投資-回報的周期。投資和創業如果對此沒有自己的判斷,那準備的耐心可能就不夠。

小結

近來和AI各方面的人(創業者、投資人、科學家、媒體)接觸下來,發現大家基本都在思考這樣兩個問題:

第一,本次AI浪潮會不會和前兩次一樣很快冷下來?

第二,落地點到底在那裡,究竟還要多久?

對於第一個問題到現在為止還沒碰到任何一個人認為這次AI浪潮會冷到前兩次那樣。對於第二個問題,大的落地點上大家基本也已經達成了共識(語音互動、AR、自動駕駛等),爭議最大的就是啟動期究竟還要持續多久這一點。從兩個維度來判斷,這個時間更可能是在3年左右,一是產品經過兩個週期的優化會更加成熟;一個是計算能力、基礎設施到那個時候也會變的足夠強大和便利(過去3年Training速度提高了60倍,比摩爾定律還快。Intel則正在推出集成度更高的伺服器)。

本文授權轉載自:36 氪

往下滑看下一篇文章
Meet大南方2026徵展啟動,免費早鳥席次6/8截止!6大解方區直球接傳產、ESG、醫療照護痛點
Meet大南方2026徵展啟動,免費早鳥席次6/8截止!6大解方區直球接傳產、ESG、醫療照護痛點

Meet大南方2026不是一場讓你「露個臉、拿名片」的展會。
Meet大南方2026是一場讓你「找到真正客戶」的展會。

2025年,我們用一組數字證明了這件事:雙日觀展近1.3萬人次、290+組團隊參展、促成352組商機媒合。這個媒合數字是2024年的2.7倍。同一批展商、同一個場地,媒合效率在一年內跳了一個量級。

這代表什麼?意味著來到Meet大南方的人, 越來越不是來「逛展」,而是來「談生意」。

過去5年的經驗,我們有了一個心得,南台灣的企業主不是來聽矽谷故事的,他們是帶著明確的問題走進展場。

#0 2026Meet大南方徵展
2025 Meet大南方吸引近300家新創參展,雙日觀展近1.3萬人次。
圖/ Meet創業小聚

所以今年,我們不再單純以「趨勢」和「創業」為號召,正式把展會定位為「Meet Your Best Solution」。不談空泛願景、不畫技術大餅,而是把AI應用、智慧製造、ESG碳管理這些詞彙,翻譯成每一位企業主聽得懂的語言、用得上的解方。

對解方提供商意味著什麼?代表來到你攤位前的人並不是路人,極有可能就是來找答案的老闆。

為什麼你應該來?因為這是「南台灣市場的稀缺入口」

2026年8月28日(五)至29日(六),Meet大南方將於高雄展覽館展開第6屆展會,並於即日起正式啟動招商。

對正在開發南部市場的解方商來說,Meet大南方不只是「一次曝光機會」,還代表以下4件事:

第一,精準接觸南部企業決策者
傳產老闆、二代接班人、廠長、中小企業主……這些人平常不會出現在台北的科技活動,也很難透過線上管道觸及。為了把這群人真正拉到展會現場,過去幾個月《創業小聚》每月固定南下舉辦實體小聚,攜手高雄市經濟發展協會、高雄市建築經營協會、高雄市青年企業家協會與中山EMBA等組織,一場一場把在地企業主凝聚成一個社群。這群人不是展會當天才第一次聽到Meet大南方,他們早已是Meet大南方的一份子。

第二,從cold mail到warm lead的捷徑
兩天展期裡,除了攤位對話,我們會透過企業媒合會、投資人媒合會、新創交流之夜等機制,主動把你和潛在客戶、投資人湊到同一張桌子上。2025年這套機制為展商促成352組商機媒合,是前一年的2.7倍。現場示範、現場對話、現場加LINE,一次抵過3個月的線上開發。

#2 2026Meet大南方徵展
南台灣的企業主帶著明確的問題走進展場,找他們最迫切需要的解方。
圖/ Meet創業小聚

第三,解方區分類帶來精準人流
6大解方區依照企業痛點分類,觀展者按需求找到對應展區。來到你攤位的人,不會只有過路客,也有正在找你這類解方的決策者。

第四,南部市場的最低成本試水溫
對想評估是否投入南部市場的團隊,到高雄準備一個攤位的成本,遠低於派業務長駐南下3個月。2天內,你會得到足以判斷市場值不值得投入的第一手資訊。

值得一提的是,2025年Meet大南方的媒體曝光總效益超過新台幣3,000萬元,涵蓋《工商時報》、《經濟日報》、《數位時代》等91家媒體、共323則網路新聞露出。展商的品牌能量會自然搭上這波媒體浪潮。雖然這不該是你來的主要理由,但它確實是附贈的。

六大解方區:每一區都是一組企業痛點

今年我們把展區濃縮為6大「解方區」,每一區都直球對應一組具體的企業痛點:

智慧製造與產線升級 解方區——給自動化設備、AOI/AI視覺檢測、MES、工業物聯網、系統整合的團隊。對應痛點:缺工、良率不穩、設備老舊、排程沒效率。

數位管理與企業效率 解方區——給ERP/CRM/HRM、AI Agent、AI辦公工具、RPA、SaaS、FinTech支付、資安的團隊。這是最跨產業的一區,涵蓋所有企業的效率需求。

醫療健康與高齡照護 解方區——給遠距醫療、AI診斷、長照科技、健康數據、醫療管理系統的團隊。對應高齡化社會下的照護人力缺口與醫療數位化缺口。

#1 2026Meet大南方徵展
今年策劃6大「解方展區」,直接對應企業經營現場最常見的問題情境。
圖/ Meet創業小聚

淨零碳排與綠能永續 解方區——給碳盤查SaaS、ESG顧問工具、綠能設備、能源管理系統、循環經濟的團隊。供應鏈碳足跡要求已經壓到南部製造業頭上,這一區的需求只會愈來愈急。

品牌轉型與跨境行銷 解方區——給電商平台、跨境物流、MarTech、AI行銷工具、品牌顧問的團隊。南部有太多做代工做到品牌老化、想做電商卻不知從何開始的業者。

未來零售與餐飲科技 解方區——給POS、餐飲SaaS、無人商店、會員CRM、供應鏈方案的團隊。搭配「大南方餐飲創業沙龍」同步導流。

方案與招商資訊

2026 Meet Greater South亞灣新創大南方
時間:8/28(五)、8/29(六)
地點:高雄展覽館北館
官網:https://meetgreatersouth.tw/

徵展正式起跑,新創享專屬免費方案!
早鳥優惠至6/8,報名收件至7/3  >> 瞭解詳情

報名採審核制。請至Meet Online更新公司資料及填寫參展報名表單,主辦單位將以Email通知審核結果。若您的解方尚在評估是否合適,歡迎先聯繫我們,一起確認哪一個解方區最貼近你的目標客戶。

企業帶著問題來,我們希望你帶著解方來。
8月28-29日,高雄展覽館見。

#1 2026Meet大南方徵展
今年Meet大南方將於8/28、8/29在高雄展覽館盛大舉辦,現已開放參展報名。
圖/ Meet創業小聚
關鍵字: #創新創業

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣20
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓