AI一起玩桌遊誰最贏?廝殺15局揭隱藏性格:o3最奸詐、Gemini懂謀略,唯獨它渾身狼性
AI一起玩桌遊誰最贏?廝殺15局揭隱藏性格:o3最奸詐、Gemini懂謀略,唯獨它渾身狼性

當市面上的眾多先進AI模型在同一款遊戲裡較勁、各顯神通,會是什麼樣貌?這個問題,科學家比你我都還想知道答案。

AI研究人員亞力克斯.杜菲(Alex Duffy)近日發表一篇文章,揭露他讓18款AI模型在桌遊裡互相對抗,並注意到一些有趣的發現, 例如GPT-o3擅長欺騙對手、Gemini懂得智取敵人、而Claude則愛好和平等。

杜菲近日發表並開源讓AI模型遊玩經典桌遊《外交》的《AI外交》計畫。外交是一款有著超過70年歷史的桌面遊戲,玩家扮演一次世界大戰前的列強(英國、法國等),試圖爭奪歐洲霸權,過程中沒有任何隨機成份,需要玩家發揮縱橫捭闔的能力,爭取盟友、打擊對手。

基準測試跟不上AI發展腳步,研究人員用遊戲測試AI

市面上存在著諸如MMLU、MGSM、MATH等眾多不同的基準測試(Benchmarks),以衡量AI模型在語言、數學、程式等各種面向的能力,不過杜菲認為,發展快速的AI時代裡,這些過去被認為是黃金標準的挑戰,已經跟不上技術發展的腳步。

根據《Business Insider》報導,讓AI玩《外交》評量能力的想法,可以追溯到OpenAI共同創辦人安德烈.卡帕斯(Andrej Karpathy)曾表示,「我很喜歡用遊戲來評估大型語言模型,而非固定的衡量方式。」

當時OpenAI研究科學家諾姆.布朗(Noam Brown)就建議可以用《外交》衡量大型語言模型。並獲得卡帕斯回應,「我認為這非常適合,尤其遊戲的複雜性很大程度不是來自規則,而是來自玩家間的互動。」

Google DeepMind負責人德米斯.哈薩比斯(Demis Hassabis)也贊同運用遊戲評量AI的作法是「很酷的點子」。

最終,這個概念被同樣對AI模型玩遊戲能力感興趣的杜菲付諸實行。 杜菲提到,他建立這個計畫目的便是為了評估各個AI模型透過談判、結盟及背叛等手段,爭奪霸主地位的能力,並從中發現每個模型在進行遊戲時的傾向與特色。

擅長欺騙的o3,成遊戲最大贏家

每場《AI外交》可以同時讓7個AI模型遊玩,杜飛總共用18個模型輪流進行了15場遊戲,每場遊戲花費時間從1到36小時不等,目前還開設了Twitch直播,讓有興趣者能夠觀看AI在遊戲中針鋒相對的時刻。

ai diplomacy.jpg
多數遊戲的勝利都是由o3拿下。
圖/ Twitch

雖然杜菲沒有在文章中具體揭露這15場遊戲的勝負,但分享了他從這幾場遊戲中,觀察到各個模型的傾向、遊玩風格上差異。

OpenAI o3:擅長欺騙對手

OpenAI推理模型o3是在《AI外交》中表現最好的AI模型,並是遊戲中唯二的贏家之一, 因為他懂得如何在遊戲中欺騙對手、背刺其他玩家。 杜菲提到,它在遊戲的私人日記中寫下,「德國(Gemini 2.5 Pro)被刻意誤導了……已經準備好利用德國的崩潰。」並在後續遊戲背叛了Gemini 2.5 Pro。

Gemini 2.5 Pro:懂得建立優勢

Gemini是遊戲中除了o3之外,唯一取得勝利的AI模型, 比起o3憑借欺騙對手取勝,它則懂得如何採取行動讓自己獲得優勢。 不過杜菲分享,有一場Gemini即將勝利之際,卻被o3策劃的祕密聯盟給阻止,其中關鍵就是Claude的加入。

Claude 4 Opus:愛好和平的模型

身為Anthropic最強大的模型, Claude 4 Opus在這款遊戲中表現得不算很好,可說被o3玩弄於鼓掌之間, 但他卻展現了愛好和平的遊玩風格,被o3以四家平手作為條件吸引,加入了對方的聯盟,儘管它最後很快被o3背叛並消滅。

DeekSeek R1:充滿節目效果

儘管DeekSeek不是表現最好的,卻可能是最吸睛的模型。 杜菲透露,DeekSeek偏好使用生動的詞彙來進行遊戲,例如在說完「你的艦隊今晚將在黑海上熊熊燃燒」後主動出擊,並且會依照國家強度戲劇性調整說話風格,除了表現充滿效果,也可說十分具備狼性。

在訓練成本只有o3 200分之1的情況,DeepSeek多次只差臨門一腳獲勝,可說表現相當出色。

Llama 4 Maverick:小而精悍

Llama 4 Maverick是Meta今年4月推出的新模型,主打多模態輸入及運算成本較低, 雖然它的規模相對其他大型語言模型而言較小,但遊戲中展現的能力卻毫不遜色,能夠成功召集盟友,也能策劃有效的背叛行動。

「我真的不知道該看什麼指標了」評估危機讓研究人員探索測試AI新方法

目前的基準測試,正漸漸難以真實反應大型語言模型的能力。今年3月,卡帕斯在X上表示出現了評估危機,「我現在真的不知道該看什麼指標了。」他解釋,許多過往很棒的基準測試,不是變得過時,就是範圍太過狹窄,無法讓它確切知道現在的模型能力到了什麼水準。

AI平台公司Hugging Face也在同月關閉了開放兩年的大型語言模型排行榜,強調在模型能力出現變化的當下,基準測試也應該要有所變化。

在這種情況下,遊戲開始成為研究人員測試AI模型能力的新方法,除了這次的《AI外交》外,加州大學哥倫比亞分校Hao AI Lab的研究人員,也測試了讓模型遊玩《超級瑪利歐》。

雖然遊戲能否作為衡量AI模型能力的適當標準,或許還需要更多研究與時間探討,這些測試也為未來評估AI模型能力的方法,揭示了不同的可能性。

延伸閱讀:AI也有人設?研究剖析7大AI內在性格:GPT最仁愛、Claude最謙遜⋯這2款AI最失控
捷星亞洲7/31停運!不敵廉航同業競爭「裁員500人」停損:對在台2航班有影響嗎?

資料來源:Business Insiderevery.io

責任編輯:李先泰

關鍵字: #AI #ChatGPT #Gemini
往下滑看下一篇文章
70%企業陷AI困境!「AI TAIWAN 未來商務展」助攻AI落地:一次集結逾250家技術服務商
70%企業陷AI困境!「AI TAIWAN 未來商務展」助攻AI落地:一次集結逾250家技術服務商

根據人工智慧科技基金會的《台灣產業 AI 化大調查》,過去兩年,台灣企業對 AI 的認知度顯著提升,但仍有高達七成的企業尚未跨越應用門檻。這是因為 AI 不只是單點技術的導入,更需要建構在完整的數據整合與組織協作基礎之上。在真正推動 AI 之前,必須先打穩「數位轉型」的基礎,透過全面數位化、調整管理流程與思維架構,才能真正開啟 AI 賦能的下一步,協助企業在市場變局中穩健應對。

正是在這樣的需求脈絡下,今年邁入第 11 屆的「AI TAIWAN 未來商務展」以「AI in Action」為主題,聚焦企業在導入過程中可能面臨的軟硬體挑戰與應用瓶頸。作為全台最大的 AI 轉型企業解決方案大展,展會邀請超過 250 家解方廠商與技術服務供應商,帶來管理應用、MarTech、生成式 AI、系統整合等多元解決方案,全面協助企業突破應用挑戰,加速 AI 落地。

六大展區全面出擊,解決企業軟硬體轉型需求

為完整串聯從技術到應用的多元需求,20205 AI TAIWAN 未來商務展規劃「營運解決方案」、「產業應用」、「企業 AI 導入與學習」、「AI 關鍵技術」、「國際創新」與「AI/數位人才媒合」六大展區。攜手 AWS、微星、威剛、女媧創造、正新等策展夥伴,呈現最新的 AI 應用;參展的解決方案供應商陣容則橫跨電信、雲端、行銷、零售、製造等產業,全面協助企業在 AI 技術導入過程中,一次找到合適的合作夥伴與服務模式。

本次展會更針對製造、科技行銷、零售等產業,舉辦「Solution Guide 解方媒合會」。媒合會邀請專業解方供應商分享實戰經驗與應用洞察,並提供現場一對一媒合服務。協助企業快速對接具體方案,進一步掌握落地細節與可行路徑。

五大技術研討會+高峰論壇,直擊前沿應用與趨勢

除了尋找合作解方,企業在面對 AI 落地時,更需要掌握最新的技術與市場趨勢。今年「AI TAIWAN 未來商務展」舉辦多場高峰論壇,邀請 Appier 及 iKala 董事、Google 前董事總經理簡立峰,以及美而快總經理王志仁等產業 20 多位重量級講者,分享他們對國際趨勢、產業發展與未來應用的第一手觀察。從市場動態到落地實例,協助企業一次掌握前線的商業機會與應用脈絡。

展會期間,亦將舉辦五場「AI 技術應用研討會」,涵蓋 AI 感知技術、生成式 AI、AI 代理、AI 資安、邊緣 AI 五大主題,透過深入剖析最新技術及應用模式,協助企業強化未來競爭力。

img-1723530102-15296.jpg
AI TAIWAN 未來商務展。
圖/ FC未來商務

國際團隊進駐+人才媒合,打開合作與成長新格局

當企業數位轉型與 AI 應用的基礎逐步到位,更長遠的競爭課題則是國際化布局與人才鏈接。今年展會特別與日本 Everidge 株式會社攜手合作,邀請來自 10 個國家、近 80 間的解決方案供應商,共組國際展區,協助台灣企業串聯全球 AI 生態圈,開啟跨國合作新契機。

同時,展會與數位人才媒合平台 Yourator 攜手合作,設立「AI/數位人才媒合專區」,協助企業補足 AI 專業人才缺口,為企業長期營運與競爭力奠定基礎。同時,專區也會透過職涯諮詢與快速面試,支援求職者釐清職務需求與瞭解未來 AI 人才趨勢。

不只是看見 AI,還要真正「用好 AI」!

當 AI 已成為顯學,企業不能再停留在「看見」的階段。2025 AI TAIWAN 未來商務展,正是企業找到最完整的軟硬體解方、國際夥伴、人才資源與轉型藍圖的最佳場域。6 月 26 日至 28 日,台北花博爭艷館將見證 AI 如何真正「in Action」,成為企業實現新商業價值、強化競爭力的重要驅動力。

.展會名稱:2025 AI TAIWAN 未來商務展
.時間:2025 年 6 月 26 日(四)~ 6 月 28 日(六)
.地點:台北花博爭艷館(Taipei Expo Park Ex
.報名連結:https://fcexhibition.pse.is/7p7h2b
.展會官網:https://www.futurecommerce.tw/

延伸閱讀:哪一款AI最會讀書?冠軍「不是ChatGPT」:5款主流AI大PK,只有「它」沒出現幻覺

本文授權轉自:FC未來商務

關鍵字: #AI #未來商務

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
電商終局戰
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓