從電玩到圍棋,不懂規則也都能精通!DeepMind公佈最新AI技術

2020.12.24 by
陳建鈞
從電玩到圍棋,不懂規則也都能精通!DeepMind公佈最新AI技術
曾靉 / 攝影
DeepMind公佈AI技術MuZero最新進展,不只為AI走入現實世界跨出一大步,也被看好可用於降低YouTube的營運成本。

2016年,AlphaGo戰勝韓國棋王李世乭,向全世界宣示了AI在遊戲領域的強悍實力。如今DeepMind又更上一層樓,向公眾介紹不必知曉規則,也能精通各式遊戲的AI模型MuZero,並可望用於降低YouTube的營運成本。

MuZero懂得遊玩數十款雅達利(Atari)電玩遊戲、西洋棋、圍棋及日本將棋,不過與它的前輩不同的是,以往沒有一款AI能夠同時精通電玩與棋盤類遊戲,且即使不告知它遊戲規則,也能在過程中自行領悟。

DeepMind曾於2019年首度披露MuZero的存在,但直到本週才正式於《自然》期刊上,發表論文介紹這項AI技術的細節。DeepMind指出,MuZero在各式遊戲中都有頂尖表現,並展現出對未知環境的掌握能力。

懂得自行學習遊戲規則,MuZero能以有限資訊做出最佳決策

「我們只是告訴系統說,用你自己建構的認知,去了解這個世界怎麼運作。」DeepMind電腦科學家大衛.希弗(David Silver)表示,「只要內部的理解成功對上了某個現實事物,那我們就滿意了。」

根據DeepMind披露的資訊,MuZero的運作方式是為它所遊玩的遊戲建立一個模型,然後依照模型規劃出遊戲中最好的策略、下一步,然後透過遊玩不斷優化這個模型。

MuZero的設計理念是考慮到現實應用環境,演算法不必全盤了解所有規範、準則,並建立一個100%準確的模型,而是需要在有限的資訊下,達到「夠用」的程度。

與前輩AlphaGo、AlphaZero相比,MuZero能夠在沒被告知遊戲規則的情況下,精通各式遊戲。
DeepMind

例如,在瞬息萬變的電玩遊戲中,AI沒有充足時間解析所有可能性,但在小精靈這類遊戲中,即使只從6、7種選擇中找出最佳路徑,MuZero依舊能取得非常好的成績;而在下圍棋時,MuZero也能以較少的運算量,達到比AlphaZero更好的結果。

DeepMind解釋,具體來說MuZero會對依照三種環境要素建立模型,一是當前位置、狀況的好壞,二是最好的下一步是什麼,三是最後的結果如何。如同繪製一幅樹狀圖般,AI利用深度學習理解各個行動最後會有怎樣的結果。

MuZero有辦法從數個可能選項中,找出最好的下一步怎麼走。
DeepMind

希弗指出,「現實世界非常複雜混亂,沒有一本手冊告訴我們他是怎麼運作的,但人類卻可以規劃出接下來該怎麼做。」若以DeepMind的舉例來說,當看到烏雲密佈的天空,預測有下雨的可能性,就會決定攜帶雨傘出門。

「這是我們首次擁有一個有辦法建立自己對世界的見解,據此做出複雜前瞻性決策的系統。」希弗提到,「(AI)可以從完全沒有先備知識的條件下開始,經由反覆測試學習世界規則,並展現出超越人類的表現。」

壓縮影片比當代技術更厲害,MuZero可望用於降低YouTube營運成本

由於是如此突破性的AI技術,DeepMind也持續尋找它適合擔綱的工作,目前表現最好的是影片壓縮,用類似MuZero的演算法實驗後發現,它的表現比以往最好的壓縮法節省5%網路流量。

希弗解釋,網路上資料流量絕大部分是由影片貢獻,倘若能夠有效壓縮影片,便可縮減經營成本。根據思科的資料,預估到2022年時,影片將佔據全球82%的網路流量。

英國媒體《BBC》指出,MuZero找到的新影片壓縮方式,也有望用於降低YouTube的營運成本,不過DeepMind暫時不願透露Google何時會利用這項技術,僅聲稱明年會有更多細節公佈。

影片已佔據全球網路流量的大多數,《BBC》認為,YouTube可望利用MuZero的壓縮影片技術,節省營運成本。
photobyphotoboy via shutterstock

不單用於影片壓縮上潛力無窮,MuZero也被認為有助於打造虛擬管家、機器人,甚至強化前陣子DeepMind宣佈取得突破性進展的蛋白質摺疊預測能力。

DeepMind一直渴望利用AI對世界做出貢獻,MuZero能夠依照有限資訊做出最佳判斷的能力,是AI走出螢幕踏入現實的重要里程碑。就如他們提到的,「知道撐傘能讓你免於淋濕,比分析空氣中的雨滴模型更有價值。」

資料來源:DeepMindBBCFortune

延伸閱讀

每日精選科技圈重要消息