2016年3月,AlphaGo在五局棋對弈中擊敗世界圍棋冠軍李世乭,震驚全球。這場勝利不只是技術里程碑,也是心理上的轉捩點,迫使全世界重新審視AI的能力邊界。十年後,機器人領域也走到了類似的時刻。如同AlphaGo,重點不在登上頭條的成就本身,而在於它預示了什麼。
對關注機器人產業的人來說,今年4月意義非凡。2項重大發展,一項引發廣泛討論,另一項相對低調,但都釋放出一個明確訊號:機器人正從狹義的、預先編程的能力,跨向更通用、更具適應性的方向。
最受矚目的是北京機器人馬拉松,人形機器人不僅跑完了半馬,同時比人類史上任何跑者都快。對比一年前首屆比賽,許多機器人根本無法完賽,有的跌倒、有的電力耗盡。從那次混亂的初登場到今年的壓倒性表現,這中間的落差說明了,當大量資源與工程能力集中投入在一個明確目標上時,進步的速度有多驚人。
第二項發展報導較少,但影響可能更深遠,來自Sony AI團隊發表的「Project Ace」機械手臂,在正式對局中擊敗了具有競技水準的人類桌球選手們。
Ace 整合了AI驅動的比賽策略,包括解讀對手球路、選擇落點、即時調整戰術,以及機械手臂在時間、角度、力道上的控制。如果你看過比賽影片,最印象深刻的不只是準確度,而是流暢感。它不像機器在執行程式,更像一名運動員在即興發揮。
我用AlphaGo時刻來定義這些發展,不是修辭上的類比,而是因為兩者之間有深層的結構相似。
2016年AlphaGo擊敗李世乭,打破了一個根深蒂固的信念。圍棋擁有天文數字般的搜索空間,長期被認為高度依賴直覺與模式辨識,是一個專屬於人類的領域,一座暴力運算在數十年內都攻不破的堡壘。AlphaGo證明了這個假設是錯的,也證明 AI 能掌握那些需要複雜、多層次推理的任務。
但更具變革意義的篇章是在那幾年之後,DeepMind發布的AlphaGo Zero,不同於原版從大量人類棋譜中學習,AlphaGo Zero完全從零開始,只被賦予圍棋規則,然後自我對弈。在數周內,它就超越了所有先前的版本。
接著它展現了泛化能力:同一套架構重新命名為AlphaZero,從零學會西洋棋和日本將棋,每次都達到超越人類的水準。結論不只是AI會下棋,而是只要給它對的框架,AI什麼都能學。
機器人領域正逼近自己的這個轉折點。北京馬拉松和Sony桌球機器人Ace就是當年AlphaGo首勝的對應版本。但定義未來十年的問題是:機器人能否迎來自己的AlphaZero時刻,只需極少指令就快速學會新的物理任務,並將所學跨領域泛化?
3進展助長AI,小廚工也能變總舖師
要理解為什麼「泛化」如此重要,必須先看現狀。這個領域並非從零起步。機器人已在固定環境(產線、物流中心、晶圓廠等)穩定運作。在更專精的領域,成就甚至更亮眼。你能在網路上找到機械手臂比任何人類都快解開魔術方塊的影片、物流中心的機器人系統每小時可分揀數千件包裹、達文西手術系統在外科醫師操控下執行精度超越人手的手術等。
瓶頸在於:每一項能力都需要大量心力來開發。工程師和研究員可能花好幾年的時間設計、校準、訓練一套機器人系統,只為了做好一件事,像是解魔術方塊的機器人不會泡咖啡,達文西系統不會抽血。每個新任務都要從頭開始一輪全新的工程循環。這就像當年的 AlphaGo:很強,但很窄。現在的目標是突破這個狹隘性。
有幾股匯流中的趨勢顯示,這個突破即將到來。
第一是基於模擬的學習。現代物理引擎能更精確地模擬物體、流體和柔性材料的行為,讓機器人在虛擬環境中練習上百萬次後,再去碰真實物體。試錯成本降低好幾個數量級,迭代速度也相應加快。
第二是從觀察中學習。研究人員正在開發能觀看人類執行任務(摺衣服、組裝零件、倒液體)並提取出底層動作計畫的系統。這方面仍在早期階段,但方向明確。如果機器人能透過觀看一段簡短示範就學會新任務,而不是需要數月的客製化程式開發,那部署的經濟模型會從根本改變。
第三是跨任務的遷移學習。就像AlphaZero用同一套神經網路架構學會了圍棋、西洋棋和將棋,機器人研究者正在開發類似框架。一隻已經掌握筷子操作的機械手臂,學習使用鑷子的速度可能比從零開始快得多。這些趨勢加在一起,指向一個未來:機械手臂和靈巧手能快速、低成本、在極少人為監督下獲得新能力。這就是機器人的AlphaZero時刻。
近期通用型機器人的應用中,最有前景的是商業廚房。烹飪匯集了機器人領域最困難的挑戰:處理物理特性各異的材料(麵糰、葉菜、熱油),在時間壓力下精準執行步驟、適應變異性(沒有2顆蛋會完全一樣)。目前已有多家團隊訓練機器人,願景不是一台只會做一件事的產品,而是能處理整條產線的多功能系統(擀皮、分餡、捏褶、蒸製到擺盤)。機械手臂的發展不只在餐飲業,醫療與生命科學領域同樣可望突破高重複、高體力的缺工瓶頸。
機器人的AlphaGo時刻已經到來。北京馬拉松和Sony Ace證明了機器能做到不久前還被認為不可能的事。但就像AlphaGo的遺產是AlphaZero及其代表的泛化能力,這個時刻的遺產將是接下來發生的事:機器人從零學會新任務、跨領域泛化、在物理世界中以愈來愈高的自主性運作。問題不再是會不會發生,而是多快,以及我們準備得夠不夠好。
責任編輯:陳祈安