AI一起玩桌遊誰最贏？廝殺15局揭隱藏性格：o3最奸詐、Gemini懂謀略，唯獨它渾身狼性|數位時代 BusinessNext

當市面上的眾多先進AI模型在同一款遊戲裡較勁、各顯神通，會是什麼樣貌？這個問題，科學家比你我都還想知道答案。

AI研究人員亞力克斯．杜菲（Alex Duffy）近日發表一篇文章，揭露他讓18款AI模型在桌遊裡互相對抗，並注意到一些有趣的發現， 例如GPT-o3擅長欺騙對手、Gemini懂得智取敵人、而Claude則愛好和平等。

杜菲近日發表並開源讓AI模型遊玩經典桌遊《外交》的《AI外交》計畫。外交是一款有著超過70年歷史的桌面遊戲，玩家扮演一次世界大戰前的列強（英國、法國等），試圖爭奪歐洲霸權，過程中沒有任何隨機成份，需要玩家發揮縱橫捭闔的能力，爭取盟友、打擊對手。

基準測試跟不上AI發展腳步，研究人員用遊戲測試AI

市面上存在著諸如MMLU、MGSM、MATH等眾多不同的基準測試（Benchmarks），以衡量AI模型在語言、數學、程式等各種面向的能力，不過杜菲認為，發展快速的AI時代裡，這些過去被認為是黃金標準的挑戰，已經跟不上技術發展的腳步。

根據《Business Insider》報導，讓AI玩《外交》評量能力的想法，可以追溯到OpenAI共同創辦人安德烈．卡帕斯（Andrej Karpathy）曾表示，「我很喜歡用遊戲來評估大型語言模型，而非固定的衡量方式。」

當時OpenAI研究科學家諾姆．布朗（Noam Brown）就建議可以用《外交》衡量大型語言模型。並獲得卡帕斯回應，「我認為這非常適合，尤其遊戲的複雜性很大程度不是來自規則，而是來自玩家間的互動。」

Google DeepMind負責人德米斯．哈薩比斯（Demis Hassabis）也贊同運用遊戲評量AI的作法是「很酷的點子」。

最終，這個概念被同樣對AI模型玩遊戲能力感興趣的杜菲付諸實行。杜菲提到，他建立這個計畫目的便是為了評估各個AI模型透過談判、結盟及背叛等手段，爭奪霸主地位的能力，並從中發現每個模型在進行遊戲時的傾向與特色。

擅長欺騙的o3，成遊戲最大贏家

每場《AI外交》可以同時讓7個AI模型遊玩，杜飛總共用18個模型輪流進行了15場遊戲，每場遊戲花費時間從1到36小時不等，目前還開設了Twitch直播，讓有興趣者能夠觀看AI在遊戲中針鋒相對的時刻。

雖然杜菲沒有在文章中具體揭露這15場遊戲的勝負，但分享了他從這幾場遊戲中，觀察到各個模型的傾向、遊玩風格上差異。

OpenAI o3：擅長欺騙對手

OpenAI推理模型o3是在《AI外交》中表現最好的AI模型，並是遊戲中唯二的贏家之一， 因為他懂得如何在遊戲中欺騙對手、背刺其他玩家。 杜菲提到，它在遊戲的私人日記中寫下，「德國（Gemini 2.5 Pro）被刻意誤導了……已經準備好利用德國的崩潰。」並在後續遊戲背叛了Gemini 2.5 Pro。

Gemini 2.5 Pro：懂得建立優勢

Gemini是遊戲中除了o3之外，唯一取得勝利的AI模型， 比起o3憑借欺騙對手取勝，它則懂得如何採取行動讓自己獲得優勢。 不過杜菲分享，有一場Gemini即將勝利之際，卻被o3策劃的祕密聯盟給阻止，其中關鍵就是Claude的加入。

Claude 4 Opus：愛好和平的模型

身為Anthropic最強大的模型， Claude 4 Opus在這款遊戲中表現得不算很好，可說被o3玩弄於鼓掌之間， 但他卻展現了愛好和平的遊玩風格，被o3以四家平手作為條件吸引，加入了對方的聯盟，儘管它最後很快被o3背叛並消滅。

DeekSeek R1：充滿節目效果

儘管DeekSeek不是表現最好的，卻可能是最吸睛的模型。杜菲透露，DeekSeek偏好使用生動的詞彙來進行遊戲，例如在說完「你的艦隊今晚將在黑海上熊熊燃燒」後主動出擊，並且會依照國家強度戲劇性調整說話風格，除了表現充滿效果，也可說十分具備狼性。

在訓練成本只有o3 200分之1的情況，DeepSeek多次只差臨門一腳獲勝，可說表現相當出色。

Llama 4 Maverick：小而精悍

Llama 4 Maverick是Meta今年4月推出的新模型，主打多模態輸入及運算成本較低， 雖然它的規模相對其他大型語言模型而言較小，但遊戲中展現的能力卻毫不遜色，能夠成功召集盟友，也能策劃有效的背叛行動。

「我真的不知道該看什麼指標了」評估危機讓研究人員探索測試AI新方法

目前的基準測試，正漸漸難以真實反應大型語言模型的能力。今年3月，卡帕斯在X上表示出現了評估危機，「我現在真的不知道該看什麼指標了。」他解釋，許多過往很棒的基準測試，不是變得過時，就是範圍太過狹窄，無法讓它確切知道現在的模型能力到了什麼水準。

AI平台公司Hugging Face也在同月關閉了開放兩年的大型語言模型排行榜，強調在模型能力出現變化的當下，基準測試也應該要有所變化。

在這種情況下，遊戲開始成為研究人員測試AI模型能力的新方法，除了這次的《AI外交》外，加州大學哥倫比亞分校Hao AI Lab的研究人員，也測試了讓模型遊玩《超級瑪利歐》。

雖然遊戲能否作為衡量AI模型能力的適當標準，或許還需要更多研究與時間探討，這些測試也為未來評估AI模型能力的方法，揭示了不同的可能性。

延伸閱讀：AI也有人設？研究剖析7大AI內在性格：GPT最仁愛、Claude最謙遜⋯這2款AI最失控
 捷星亞洲7/31停運！不敵廉航同業競爭「裁員500人」停損：對在台2航班有影響嗎？

資料來源：Business Insider、every.io

責任編輯：李先泰

從流程再造、智能客服到科技防詐，AI 正在一步步改變台灣金融業的樣貌。根據金管會「金融業者及周邊單位應用人工智慧」調查結果，金融業者導入AI與生成式AI的比例已從29%提升至33%，顯示金融業對AI應用的需求正持續升溫，而AWS亞太（台北）區域的正式啟用，更將加速這股成長力道，讓AI躍升為金融創新的核心引擎，推動整個產業快速邁向新局。

在這股潮流下，博弘雲端作為台灣第一家與AWS簽署台北區域戰略合作協議（New Region Strategic Collaboration Agreement，SCA）的雲端解決方案專家，如何協助金融業快速導入創新AI應用，讓「智慧金融」能夠真正落地在各個金融場景中？

對此，博弘雲端台灣暨東南亞事業中心副總經理陳亭竹給出的答案很明確：關鍵在於從痛點出發，讓金融業能夠以更低的門檻達成數據上雲與導入AI應用的目標。

標準化 × 客製化，雙管齊下加速金融AI真正落地

陳亭竹進一步指出，金融業在推動雲端與AI應用時，普遍面臨合法合規、AI倫理風險、人才不足與組織變革等四大挑戰。對此，博弘雲端提供產業客製化AI解決方案，滿足金融業在AI與數據應用上的多元需求，進而加速AI應用落地。

「要讓AI應用在金融業真正落地，雲服務業者的客製化能力是關鍵。」博弘雲端台灣暨東南亞事業中心技術處長孫正忠強調，因為每家金融業對上雲和AI應用的需求並不相同，甚至對AI 技術的要求與精準度都有不同期待。而標準化產品雖能快速導入，卻難以完全貼合每位客戶的營運場景與精細需求，唯有結合客製化服務，才能真正滿足金融業在AI與數據應用上的高標準，並符合大型金融客戶的嚴格驗收要求。

因此，博弘雲端推出產業客製化AI解決方案，建構在標準化解決方案的架構之上，進一步依照客戶需求進行微調。不僅能讓 AI 回答更加精確，也能更貼近終端客戶的實際需求，無論是篩選資料、優化決策，甚至提供行銷策略建議，都能展現更高的效益。

除了透過客製化服務滿足金融業者AI與數據應用上的多元需求，博弘雲端亦推出標準化產品驅動金融產業AI革新。從”AICOM”提供的新世代雲智能管理功能，賦能金融IT部門一站式管理雲端資源、即時掌握AI訓練資源運用狀態；到”LEMMA”提供的 AI企業知識代理，藉由LLM (大型語言模型) 摘要與整理重點、大幅減少人工查詢資料的時間，這些產品不僅加乘金融業者採用AI的效益，更成為推動產業升級的關鍵方程式。

博弘雲端台灣暨東南亞事業中心副總經理 / 陳亭竹表示：要讓AI應用在金融業真正落地，雲服務業者的客製化能力是關鍵。唯有結合客製化服務，才能真正滿足金融業在AI與數據應用上的高標準，並符合大型金融客戶的嚴格驗收要求。

圖／數位時代拍攝

售前 × 數據雙團隊，一站式滿足數據處理和AI應用需求

金融產業的AI應用百百種，博弘雲端不只提供產業客製化解決方案，更透過技術團隊的深度參與來強化客製化程度。首先是售前技術團隊，該團隊整合公司多年服務大型客戶的經驗與專業人才，能在專案初期便與客戶進行需求訪談與技術交流，並據此繪製完整的系統架構圖，確保AI應用精準契合需求，大幅提升專案成功落地的機率。

其次是數據團隊，涵蓋數據工程師、數據分析師與數據科學家三種不同職能，能與售前技術團隊的需求分析與架構設計緊密銜接，一站式滿足金融業從數據處理到應用的完整需求。

博弘雲端台灣AWS事業處業務資深處長郭仁傑進一步說明二個團隊的具體運作模式。售前技術團隊在完成需求分析與架構圖後，數據工程師會協助金融業將地端資料搬遷到雲端資料倉儲，並確保數據的正規化與可用性；接著由數據分析師統整數據並建立戰情室、商業智慧分析等應用，幫助客戶快速掌握營運數據；最後由數據科學家根據實際應用情境選擇或開發適合的AI模型，實現提升營運效率或優化客戶體驗的目標。「經過概念驗證與專案的執行，金融業普遍能提升5倍以上的資料處理效率，運用AI提升10~50%不等的生產力」，郭仁傑強調。

攜手 AWS 與生態系戰略夥伴，全面備戰金融業轉型需求

除了內部團隊的緊密協作，博弘雲端也積極深化與AWS和第三方夥伴的合作關係，加強解決方案的廣度與深度，確保能更全面回應金融業多樣化的需求。

「客戶至上一直是博弘雲端的企業文化，」陳亭竹表示，博弘雲端很早之前就洞察到金融業數位轉型的商機，加上AWS當時正如火如荼推進亞太（台北）區域的落地，因而與其展開台北區域戰略合作協議的討論，並於2025年7月正式簽訂，成為台灣第一家簽署該協議的AWS核心級諮詢夥伴。

「這是一份區域級的合作協議，必須要有足夠紮實的市場經驗和具代表性的客戶導入案例，才能獲得AWS的認可與信任，」陳亭竹強調，這份協議不僅代表AWS對博弘雲端實力的高度肯定，更意味著博弘雲端可以進一步放大服務能量，串聯更多生態圈夥伴，全面支援金融業的數位轉型。

由於金融業在上雲時，對資安防禦、效能監測、數據管理等面向，可能都有不同需求，博弘雲端自成立以來，便持續與不同領域的夥伴攜手合作，包括Palo Alto Networks、Databricks及MongoDB等國際級解決方案廠商，滿足金融業在上雲時的特殊需求。而隨著與AWS簽訂台北區域戰略合作協議，博弘雲端得以進一步擴大合作生態圈，為金融業打造更完整的雲端與AI解決方案，全力加速其上雲與創新進程。

專業技術建立信任，博弘雲端成金融業轉型首選夥伴

憑藉卓越的客製化服務能力、與AWS的緊密合作關係及多元的生態圈夥伴，讓博弘雲端在金融領域展現亮眼成果，不只在技術面持續採用創新科技賦能金融業成功轉型，更透過技術專業力獲得客戶高度信賴，某大型金融業客戶在數據上雲專案結束後，主動表示希望繼續合作。

郭仁傑說明，博弘雲端自3年前開始，即協助該客戶將地端數據逐步上雲，並導入Data Hub建立完善的資料治理（Data Governance）機制。隨著數據上雲後的效益逐步展現，不僅吸引同集團內其他子公司與海外據點相繼啟動數據上雲計劃，更將合作期間展延至7年，藉助博弘雲端的技術與服務能量，持續深化雲端與AI應用，推動整個集團的數位創新藍圖。

目前除了金融業之外，博弘雲端在製造、零售和公部門也累積了豐富的雲端技術導入經驗。展望未來，博弘雲端除了持續與AWS維持緊密合作、不斷精進雲端技術能力外，更將全面強化在資安託管服務 (Managed Security Services Provider, MSSP) 與技術生態圈的戰略布局，並積極拓展東南亞市場，成為台灣雲端服務業進軍國際的領航者。不僅向海外輸出台灣的成功經驗，更將成為驅動東南亞地區數位轉型的關鍵力量。

更多金融業上雲案例：立即與博弘雲端專業團隊討論

https://www.nextlink.cloud/contact/

AI一起玩桌遊誰最贏？廝殺15局揭隱藏性格：o3最奸詐、Gemini懂謀略，唯獨它渾身狼性