AI一起玩桌遊誰最贏?廝殺15局揭隱藏性格:o3最奸詐、Gemini懂謀略,唯獨它渾身狼性
AI一起玩桌遊誰最贏?廝殺15局揭隱藏性格:o3最奸詐、Gemini懂謀略,唯獨它渾身狼性

當市面上的眾多先進AI模型在同一款遊戲裡較勁、各顯神通,會是什麼樣貌?這個問題,科學家比你我都還想知道答案。

AI研究人員亞力克斯.杜菲(Alex Duffy)近日發表一篇文章,揭露他讓18款AI模型在桌遊裡互相對抗,並注意到一些有趣的發現, 例如GPT-o3擅長欺騙對手、Gemini懂得智取敵人、而Claude則愛好和平等。

杜菲近日發表並開源讓AI模型遊玩經典桌遊《外交》的《AI外交》計畫。外交是一款有著超過70年歷史的桌面遊戲,玩家扮演一次世界大戰前的列強(英國、法國等),試圖爭奪歐洲霸權,過程中沒有任何隨機成份,需要玩家發揮縱橫捭闔的能力,爭取盟友、打擊對手。

基準測試跟不上AI發展腳步,研究人員用遊戲測試AI

市面上存在著諸如MMLU、MGSM、MATH等眾多不同的基準測試(Benchmarks),以衡量AI模型在語言、數學、程式等各種面向的能力,不過杜菲認為,發展快速的AI時代裡,這些過去被認為是黃金標準的挑戰,已經跟不上技術發展的腳步。

根據《Business Insider》報導,讓AI玩《外交》評量能力的想法,可以追溯到OpenAI共同創辦人安德烈.卡帕斯(Andrej Karpathy)曾表示,「我很喜歡用遊戲來評估大型語言模型,而非固定的衡量方式。」

當時OpenAI研究科學家諾姆.布朗(Noam Brown)就建議可以用《外交》衡量大型語言模型。並獲得卡帕斯回應,「我認為這非常適合,尤其遊戲的複雜性很大程度不是來自規則,而是來自玩家間的互動。」

Google DeepMind負責人德米斯.哈薩比斯(Demis Hassabis)也贊同運用遊戲評量AI的作法是「很酷的點子」。

最終,這個概念被同樣對AI模型玩遊戲能力感興趣的杜菲付諸實行。 杜菲提到,他建立這個計畫目的便是為了評估各個AI模型透過談判、結盟及背叛等手段,爭奪霸主地位的能力,並從中發現每個模型在進行遊戲時的傾向與特色。

擅長欺騙的o3,成遊戲最大贏家

每場《AI外交》可以同時讓7個AI模型遊玩,杜飛總共用18個模型輪流進行了15場遊戲,每場遊戲花費時間從1到36小時不等,目前還開設了Twitch直播,讓有興趣者能夠觀看AI在遊戲中針鋒相對的時刻。

ai diplomacy.jpg
多數遊戲的勝利都是由o3拿下。
圖/ Twitch

雖然杜菲沒有在文章中具體揭露這15場遊戲的勝負,但分享了他從這幾場遊戲中,觀察到各個模型的傾向、遊玩風格上差異。

OpenAI o3:擅長欺騙對手

OpenAI推理模型o3是在《AI外交》中表現最好的AI模型,並是遊戲中唯二的贏家之一, 因為他懂得如何在遊戲中欺騙對手、背刺其他玩家。 杜菲提到,它在遊戲的私人日記中寫下,「德國(Gemini 2.5 Pro)被刻意誤導了……已經準備好利用德國的崩潰。」並在後續遊戲背叛了Gemini 2.5 Pro。

Gemini 2.5 Pro:懂得建立優勢

Gemini是遊戲中除了o3之外,唯一取得勝利的AI模型, 比起o3憑借欺騙對手取勝,它則懂得如何採取行動讓自己獲得優勢。 不過杜菲分享,有一場Gemini即將勝利之際,卻被o3策劃的祕密聯盟給阻止,其中關鍵就是Claude的加入。

Claude 4 Opus:愛好和平的模型

身為Anthropic最強大的模型, Claude 4 Opus在這款遊戲中表現得不算很好,可說被o3玩弄於鼓掌之間, 但他卻展現了愛好和平的遊玩風格,被o3以四家平手作為條件吸引,加入了對方的聯盟,儘管它最後很快被o3背叛並消滅。

DeekSeek R1:充滿節目效果

儘管DeekSeek不是表現最好的,卻可能是最吸睛的模型。 杜菲透露,DeekSeek偏好使用生動的詞彙來進行遊戲,例如在說完「你的艦隊今晚將在黑海上熊熊燃燒」後主動出擊,並且會依照國家強度戲劇性調整說話風格,除了表現充滿效果,也可說十分具備狼性。

在訓練成本只有o3 200分之1的情況,DeepSeek多次只差臨門一腳獲勝,可說表現相當出色。

Llama 4 Maverick:小而精悍

Llama 4 Maverick是Meta今年4月推出的新模型,主打多模態輸入及運算成本較低, 雖然它的規模相對其他大型語言模型而言較小,但遊戲中展現的能力卻毫不遜色,能夠成功召集盟友,也能策劃有效的背叛行動。

「我真的不知道該看什麼指標了」評估危機讓研究人員探索測試AI新方法

目前的基準測試,正漸漸難以真實反應大型語言模型的能力。今年3月,卡帕斯在X上表示出現了評估危機,「我現在真的不知道該看什麼指標了。」他解釋,許多過往很棒的基準測試,不是變得過時,就是範圍太過狹窄,無法讓它確切知道現在的模型能力到了什麼水準。

AI平台公司Hugging Face也在同月關閉了開放兩年的大型語言模型排行榜,強調在模型能力出現變化的當下,基準測試也應該要有所變化。

在這種情況下,遊戲開始成為研究人員測試AI模型能力的新方法,除了這次的《AI外交》外,加州大學哥倫比亞分校Hao AI Lab的研究人員,也測試了讓模型遊玩《超級瑪利歐》。

雖然遊戲能否作為衡量AI模型能力的適當標準,或許還需要更多研究與時間探討,這些測試也為未來評估AI模型能力的方法,揭示了不同的可能性。

延伸閱讀:AI也有人設?研究剖析7大AI內在性格:GPT最仁愛、Claude最謙遜⋯這2款AI最失控
捷星亞洲7/31停運!不敵廉航同業競爭「裁員500人」停損:對在台2航班有影響嗎?

資料來源:Business Insiderevery.io

責任編輯:李先泰

關鍵字: #AI #ChatGPT
往下滑看下一篇文章
博弘雲端打造金融業專屬 AI 解決方案 賦能金融產業實現智慧轉型!
博弘雲端打造金融業專屬 AI 解決方案 賦能金融產業實現智慧轉型!

從流程再造、智能客服到科技防詐,AI 正在一步步改變台灣金融業的樣貌。根據金管會「金融業者及周邊單位應用人工智慧」調查結果,金融業者導入AI與生成式AI的比例已從29%提升至33%,顯示金融業對AI應用的需求正持續升溫,而AWS亞太(台北)區域的正式啟用,更將加速這股成長力道,讓AI躍升為金融創新的核心引擎,推動整個產業快速邁向新局。

在這股潮流下,博弘雲端作為台灣第一家與AWS簽署台北區域戰略合作協議(New Region Strategic Collaboration Agreement,SCA)的雲端解決方案專家,如何協助金融業快速導入創新AI應用,讓「智慧金融」能夠真正落地在各個金融場景中?

對此,博弘雲端台灣暨東南亞事業中心副總經理陳亭竹給出的答案很明確:關鍵在於從痛點出發,讓金融業能夠以更低的門檻達成數據上雲與導入AI應用的目標。

標準化 × 客製化,雙管齊下加速金融AI真正落地

陳亭竹進一步指出,金融業在推動雲端與AI應用時,普遍面臨合法合規、AI倫理風險、人才不足與組織變革等四大挑戰。對此,博弘雲端提供產業客製化AI解決方案,滿足金融業在AI與數據應用上的多元需求,進而加速AI應用落地。

「要讓AI應用在金融業真正落地,雲服務業者的客製化能力是關鍵。」博弘雲端台灣暨東南亞事業中心技術處長孫正忠強調,因為每家金融業對上雲和AI應用的需求並不相同,甚至對AI 技術的要求與精準度都有不同期待。而標準化產品雖能快速導入,卻難以完全貼合每位客戶的營運場景與精細需求,唯有結合客製化服務,才能真正滿足金融業在AI與數據應用上的高標準,並符合大型金融客戶的嚴格驗收要求。

因此,博弘雲端推出產業客製化AI解決方案,建構在標準化解決方案的架構之上,進一步依照客戶需求進行微調。不僅能讓 AI 回答更加精確,也能更貼近終端客戶的實際需求,無論是篩選資料、優化決策,甚至提供行銷策略建議,都能展現更高的效益。

除了透過客製化服務滿足金融業者AI與數據應用上的多元需求,博弘雲端亦推出標準化產品驅動金融產業AI革新。從”AICOM”提供的新世代雲智能管理功能,賦能金融IT部門一站式管理雲端資源、即時掌握AI訓練資源運用狀態;到”LEMMA”提供的 AI企業知識代理,藉由LLM (大型語言模型) 摘要與整理重點、大幅減少人工查詢資料的時間,這些產品不僅加乘金融業者採用AI的效益,更成為推動產業升級的關鍵方程式。

RD099049.jpg
博弘雲端台灣暨東南亞事業中心副總經理 / 陳亭竹表示:要讓AI應用在金融業真正落地,雲服務業者的客製化能力是關鍵。唯有結合客製化服務,才能真正滿足金融業在AI與數據應用上的高標準,並符合大型金融客戶的嚴格驗收要求。
圖/ 數位時代 拍攝

售前 × 數據雙團隊,一站式滿足數據處理和AI應用需求

金融產業的AI應用百百種,博弘雲端不只提供產業客製化解決方案,更透過技術團隊的深度參與來強化客製化程度。首先是售前技術團隊,該團隊整合公司多年服務大型客戶的經驗與專業人才,能在專案初期便與客戶進行需求訪談與技術交流,並據此繪製完整的系統架構圖,確保AI應用精準契合需求,大幅提升專案成功落地的機率。

其次是數據團隊,涵蓋數據工程師、數據分析師與數據科學家三種不同職能,能與售前技術團隊的需求分析與架構設計緊密銜接,一站式滿足金融業從數據處理到應用的完整需求。

博弘雲端台灣AWS事業處業務資深處長郭仁傑進一步說明二個團隊的具體運作模式。售前技術團隊在完成需求分析與架構圖後,數據工程師會協助金融業將地端資料搬遷到雲端資料倉儲,並確保數據的正規化與可用性;接著由數據分析師統整數據並建立戰情室、商業智慧分析等應用,幫助客戶快速掌握營運數據;最後由數據科學家根據實際應用情境選擇或開發適合的AI模型,實現提升營運效率或優化客戶體驗的目標。「經過概念驗證與專案的執行,金融業普遍能提升5倍以上的資料處理效率,運用AI提升10~50%不等的生產力」,郭仁傑強調。

RD099024.jpg
「要讓AI應用在金融業真正落地,雲服務業者的客製化能力是關鍵。」博弘雲端台灣暨東南亞事業中心技術處長 / 孫正忠強調
圖/ 數位時代 拍攝

攜手 AWS 與生態系戰略夥伴,全面備戰金融業轉型需求

除了內部團隊的緊密協作,博弘雲端也積極深化與AWS和第三方夥伴的合作關係,加強解決方案的廣度與深度,確保能更全面回應金融業多樣化的需求。

「客戶至上一直是博弘雲端的企業文化,」陳亭竹表示,博弘雲端很早之前就洞察到金融業數位轉型的商機,加上AWS當時正如火如荼推進亞太(台北)區域的落地,因而與其展開台北區域戰略合作協議的討論,並於2025年7月正式簽訂,成為台灣第一家簽署該協議的AWS核心級諮詢夥伴。

「這是一份區域級的合作協議,必須要有足夠紮實的市場經驗和具代表性的客戶導入案例,才能獲得AWS的認可與信任,」陳亭竹強調,這份協議不僅代表AWS對博弘雲端實力的高度肯定,更意味著博弘雲端可以進一步放大服務能量,串聯更多生態圈夥伴,全面支援金融業的數位轉型。

由於金融業在上雲時,對資安防禦、效能監測、數據管理等面向,可能都有不同需求,博弘雲端自成立以來,便持續與不同領域的夥伴攜手合作,包括Palo Alto Networks、Databricks及MongoDB等國際級解決方案廠商,滿足金融業在上雲時的特殊需求。而隨著與AWS簽訂台北區域戰略合作協議,博弘雲端得以進一步擴大合作生態圈,為金融業打造更完整的雲端與AI解決方案,全力加速其上雲與創新進程。

專業技術建立信任,博弘雲端成金融業轉型首選夥伴

憑藉卓越的客製化服務能力、與AWS的緊密合作關係及多元的生態圈夥伴,讓博弘雲端在金融領域展現亮眼成果,不只在技術面持續採用創新科技賦能金融業成功轉型,更透過技術專業力獲得客戶高度信賴,某大型金融業客戶在數據上雲專案結束後,主動表示希望繼續合作。

郭仁傑說明,博弘雲端自3年前開始,即協助該客戶將地端數據逐步上雲,並導入Data Hub建立完善的資料治理(Data Governance)機制。隨著數據上雲後的效益逐步展現,不僅吸引同集團內其他子公司與海外據點相繼啟動數據上雲計劃,更將合作期間展延至7年,藉助博弘雲端的技術與服務能量,持續深化雲端與AI應用,推動整個集團的數位創新藍圖。

1757919697308.jpg
郭仁傑說明,博弘雲端自3年前開始,即協助該客戶將地端數據逐步上雲,並導入Data Hub建立完善的資料治理(Data Governance)機制。
圖/ 數位時代 拍攝

目前除了金融業之外,博弘雲端在製造、零售和公部門也累積了豐富的雲端技術導入經驗。展望未來,博弘雲端除了持續與AWS維持緊密合作、不斷精進雲端技術能力外,更將全面強化在資安託管服務 (Managed Security Services Provider, MSSP) 與技術生態圈的戰略布局,並積極拓展東南亞市場,成為台灣雲端服務業進軍國際的領航者。不僅向海外輸出台灣的成功經驗,更將成為驅動東南亞地區數位轉型的關鍵力量。

更多金融業上雲案例:立即與博弘雲端專業團隊討論

https://www.nextlink.cloud/contact/

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓