AI一起玩桌遊誰最贏?廝殺15局揭隱藏性格:o3最奸詐、Gemini懂謀略,唯獨它渾身狼性
AI一起玩桌遊誰最贏?廝殺15局揭隱藏性格:o3最奸詐、Gemini懂謀略,唯獨它渾身狼性

當市面上的眾多先進AI模型在同一款遊戲裡較勁、各顯神通,會是什麼樣貌?這個問題,科學家比你我都還想知道答案。

AI一起玩桌遊誰最贏?

AI研究人員亞力克斯.杜菲(Alex Duffy)近日發表一篇文章,揭露他讓18款AI模型在桌遊裡互相對抗,並注意到一些有趣的發現, 例如GPT-o3擅長欺騙對手、Gemini懂得智取敵人、而Claude則愛好和平等。

杜菲近日發表並開源讓AI模型遊玩經典桌遊《外交》的《AI外交》計畫。外交是一款有著超過70年歷史的桌面遊戲,玩家扮演一次世界大戰前的列強(英國、法國等),試圖爭奪歐洲霸權,過程中沒有任何隨機成份,需要玩家發揮縱橫捭闔的能力,爭取盟友、打擊對手。

基準測試跟不上AI發展腳步,研究人員用遊戲測試AI

市面上存在著諸如MMLU、MGSM、MATH等眾多不同的基準測試(Benchmarks),以衡量AI模型在語言、數學、程式等各種面向的能力,不過杜菲認為,發展快速的AI時代裡,這些過去被認為是黃金標準的挑戰,已經跟不上技術發展的腳步。

根據《Business Insider》報導,讓AI玩《外交》評量能力的想法,可以追溯到OpenAI共同創辦人安德烈.卡帕斯(Andrej Karpathy)曾表示,「我很喜歡用遊戲來評估大型語言模型,而非固定的衡量方式。」

當時OpenAI研究科學家諾姆.布朗(Noam Brown)就建議可以用《外交》衡量大型語言模型。並獲得卡帕斯回應,「我認為這非常適合,尤其遊戲的複雜性很大程度不是來自規則,而是來自玩家間的互動。」

Google DeepMind負責人德米斯.哈薩比斯(Demis Hassabis)也贊同運用遊戲評量AI的作法是「很酷的點子」。

最終,這個概念被同樣對AI模型玩遊戲能力感興趣的杜菲付諸實行。 杜菲提到,他建立這個計畫目的便是為了評估各個AI模型透過談判、結盟及背叛等手段,爭奪霸主地位的能力,並從中發現每個模型在進行遊戲時的傾向與特色。

擅長欺騙的o3,成遊戲最大贏家

每場《AI外交》可以同時讓7個AI模型遊玩,杜飛總共用18個模型輪流進行了15場遊戲,每場遊戲花費時間從1到36小時不等,目前還開設了Twitch直播,讓有興趣者能夠觀看AI在遊戲中針鋒相對的時刻。

ai diplomacy.jpg
多數遊戲的勝利都是由o3拿下。
圖/ Twitch

雖然杜菲沒有在文章中具體揭露這15場遊戲的勝負,但分享了他從這幾場遊戲中,觀察到各個模型的傾向、遊玩風格上差異。

OpenAI o3:擅長欺騙對手

OpenAI推理模型o3是在《AI外交》中表現最好的AI模型,並是遊戲中唯二的贏家之一, 因為他懂得如何在遊戲中欺騙對手、背刺其他玩家。 杜菲提到,它在遊戲的私人日記中寫下,「德國(Gemini 2.5 Pro)被刻意誤導了……已經準備好利用德國的崩潰。」並在後續遊戲背叛了Gemini 2.5 Pro。

Gemini 2.5 Pro:懂得建立優勢

Gemini是遊戲中除了o3之外,唯一取得勝利的AI模型, 比起o3憑借欺騙對手取勝,它則懂得如何採取行動讓自己獲得優勢。 不過杜菲分享,有一場Gemini即將勝利之際,卻被o3策劃的祕密聯盟給阻止,其中關鍵就是Claude的加入。

Claude 4 Opus:愛好和平的模型

身為Anthropic最強大的模型, Claude 4 Opus在這款遊戲中表現得不算很好,可說被o3玩弄於鼓掌之間, 但他卻展現了愛好和平的遊玩風格,被o3以四家平手作為條件吸引,加入了對方的聯盟,儘管它最後很快被o3背叛並消滅。

DeekSeek R1:充滿節目效果

儘管DeekSeek不是表現最好的,卻可能是最吸睛的模型。 杜菲透露,DeekSeek偏好使用生動的詞彙來進行遊戲,例如在說完「你的艦隊今晚將在黑海上熊熊燃燒」後主動出擊,並且會依照國家強度戲劇性調整說話風格,除了表現充滿效果,也可說十分具備狼性。

在訓練成本只有o3 200分之1的情況,DeepSeek多次只差臨門一腳獲勝,可說表現相當出色。

Llama 4 Maverick:小而精悍

Llama 4 Maverick是Meta今年4月推出的新模型,主打多模態輸入及運算成本較低, 雖然它的規模相對其他大型語言模型而言較小,但遊戲中展現的能力卻毫不遜色,能夠成功召集盟友,也能策劃有效的背叛行動。

「我真的不知道該看什麼指標了」評估危機讓研究人員探索測試AI新方法

目前的基準測試,正漸漸難以真實反應大型語言模型的能力。今年3月,卡帕斯在X上表示出現了評估危機,「我現在真的不知道該看什麼指標了。」他解釋,許多過往很棒的基準測試,不是變得過時,就是範圍太過狹窄,無法讓它確切知道現在的模型能力到了什麼水準。

AI平台公司Hugging Face也在同月關閉了開放兩年的大型語言模型排行榜,強調在模型能力出現變化的當下,基準測試也應該要有所變化。

在這種情況下,遊戲開始成為研究人員測試AI模型能力的新方法,除了這次的《AI外交》外,加州大學哥倫比亞分校Hao AI Lab的研究人員,也測試了讓模型遊玩《超級瑪利歐》。

雖然遊戲能否作為衡量AI模型能力的適當標準,或許還需要更多研究與時間探討,這些測試也為未來評估AI模型能力的方法,揭示了不同的可能性。

本文合作轉載自:數位時代

資料來源:Business Insiderevery.io

責任編輯:李先泰

往下滑看下一篇文章
Computex 大展台灣科技實力,看圓剛、TRYX、Silicon Power 如何透過亞馬遜布局全球市場?
Computex 大展台灣科技實力,看圓剛、TRYX、Silicon Power 如何透過亞馬遜布局全球市場?

2026年,台北國際電腦展(Computex)再度引爆全球科技熱潮,來自世界各地的業者、買家與媒體蜂擁而至,讓台北成為最受矚目的世界科技中心。

在這場盛會背後,除了有大眾熟悉的半導體、晶片代工等產業巨頭 ,還有一群具深厚底蘊的台灣科技品牌,早已利用亞馬遜全球開店,跨越線下通路的傳統壁壘。例如:用一套影音設備點燃創作者經濟的圓剛、以散熱器重新定義電競美學的TRYX,以及提供完整的記憶卡方案陪伴全球用戶記錄每個珍貴瞬間的廣穎電通,逐步以產品征服全球市場。

進軍跨境電商市場,圓剛精準觸及數位原生客群

對許多造訪寶島的旅客來說,圓剛科技(AVerMedia)是踏入國門遇到的第一個台灣品牌,「不管在桃園、松山、台中、高雄機場,旅客通關時抬頭看的那顆鏡頭,就是圓剛產品。」資深處長Betty Kuo透露,圓剛成立36年來對品質有著近乎「龜毛」的堅持,要求研發、製造都要留在台灣,深信企業有著不容妥協的使命與社會責任。

這份硬實力也充分展現在今年的Computex。圓剛除了展示影音擷取本業,還秀出攜手Nvidia耕耘多年的邊緣運算(Edge AI)量能,利用AI晶片打造能辨識車流的智慧紅綠燈、救護車優先通行等智慧城市基礎建設和服務。

amazon_2.jpg
圓剛攜手Nvidia,利用AI晶片打造能辨識車流的智慧紅綠燈,可以判別讓救護車優先通行或是依據交通狀況調節秒數,為智慧城市提供更多可能。
圖/ 數位時代

在深耕線下B2B的大型基礎建設之餘,面對線上B2C的消費市場,圓剛同樣具備精準洞察。近年隨著創作者經濟爆發,圓剛發現,自家產品的主力客群,多為千禧世代、Z世代等相當依賴線上消費的數位原生族群。看準亞馬遜的高觸及和曝光率,圓剛決定透過亞馬遜全球開店,進軍跨境電商市場,「當企業進軍陌生的海外市場,亞馬遜的物流系統、商機探測器等工具,能大幅降低進入門檻。」Betty Kuo說。

事實上,圓剛就是將各項工具用到極致的最佳案例。圓剛科技課長Jimmy Liu舉例,團隊在線下展會發現美國玩家對「寶可夢卡牌」二手交易、拆卡直播的熱潮後,便立刻回到亞馬遜賣家後台,透過數據交叉驗證需求,接著迅速重新包裝一款能同時拍攝玩家臉部表情、卡牌等細節的雙鏡頭攝影機,結果一上線便被搶購一空。又或者是圓剛直接將消費者購物後留下的評論,視為內部研發的重要KPI,Betty透露,如果新產品的評價掉到4.2顆星以下,就會被團隊視為「大事」,立即啟動跨部門檢討,徹查問題,「那些最真實的回饋,其實正是我們研發、創新的來源之一。」

憑藉著出色的研發、製造實力,再搭配亞馬遜的後台數據、多元工具,2025年Prime Day,圓剛創下年增長59%的佳績;2026年第一季,即便競爭對手狂砸行銷預算,圓剛依然靠著產品硬實力和精準的高階產品定位,寫下年增長6%的成績。

amazon_3.jpg
圓剛科技透過亞馬遜後台數據與線下展會洞察,敏銳捕捉到玩家對「寶可夢卡牌」拆卡直播的熱潮,迅速推出能同時拍攝玩家臉部表情與卡牌細節的雙鏡頭攝影機(Dual-View Live Streaming),一上線即被搶購一空。
圖/ 數位時代

TRYX 注入創新靈魂,將散熱器化身藝術品

有別於圓剛身處的多媒體視訊產業,電腦零組件(PC DIY)市場早已是一片紅海、競爭激烈,也因此,新銳品牌TRYX的崛起,顯得格外引人注目。

amazon_4.jpg
TRYX全球電商營運負責人Paso分享品牌如何憑藉來自亞馬遜的數據洞察,精準預判市場狀況與玩家痛點,成功將具備美學與科技感的裸眼 3D 水冷散熱產品推向全球市場。圖為本次重量級新品「HOLO全息視覺顯示水冷散熱器」,利用佩珀爾幻象(Pepper’s Ghost),將GIF動畫、短影音直接投射在散熱器上。
圖/ 數位時代

TRYX創辦人Nelson認為,電腦零組件市場長年深陷價格、效能戰,讓許多品牌失去「創新的靈魂」。但機會就藏在痛點中,為了改善市場現況,Nelson先是融合了設計、美學和頂尖技術,打造出全球第一款裸眼3D水冷散熱器PANORAMA、融入家居布面設計的FLOVA機箱等代表性產品;今年Computex中,TRYX再端出重量級新品「HOLO全息視覺顯示水冷散熱器」,是利用佩珀爾幻象(Pepper’s Ghost),將GIF動畫、短影音直接投射在散熱器上,並和圖庫平台GIPHY合作,讓玩家能無限擴充素材,將冰冷的硬體化做藝術品。

有趣的是,這份創新並非憑空想像,而是來自亞馬遜的數據洞察。TRYX全球電商營運負責人Paso指出,TRYX採用了亞馬遜的「選品指南針」(Product Opportunity Explorer),「這就像我們的『市場雷達』。過去團隊決策可能只憑感覺,現在透過細分類目的銷售數據和趨勢,團隊能精準預判市場狀況,讓供應鏈更穩、現金流更健康。」

而「VINE評論工具」則是TRYX的「信任放大器」。團隊會邀請評測者,針對新品發表影片、照片與專業分析等回饋,這對整合了抗反光塗層、克服曲率折射等複雜工程技術的3D水冷散熱器來說,無疑是最具說服力的評價。

2024年,TRYX首度在亞馬遜上架高單價的螢幕水冷散熱器時,原先預估一天只能賣個3到5台,沒想到美國市場強大的購買力,加上團隊善用亞馬遜的各項工具拆解數據,讓單日銷量直接飆破20台;而TRYX進軍亞馬遜後僅1年,品牌營收便達到197%的成長,「亞馬遜的多站點優勢,讓我們只要專心把產品做好,就能在全世界找到最適合的市場!」Paso透露,接下來,TRYX預計再進軍德國、法國、英國等歐洲市場和亞太地區,「我們希望讓更多玩家,體驗到TRYX的創新精神。」

amazon_5.jpg
新銳品牌 TRYX 顛覆傳統電腦零組件市場,結合設計、美學與頂尖技術,將冰冷的硬體化做藝術品,為玩家帶來無限的視覺擴充體驗。
圖/ 數位時代

Silicon Power 建立即時地區化策略,開拓 B2B 商機

全球記憶體領導品牌Silicon Power看準線上通路的潛力,並為了貫徹「國際化品牌」的定位,將亞馬遜全球開店視為品牌跨境的關鍵,「Silicon Power每進入一個新市場,亞馬遜都是我們優先考量的線上通路選擇,因為它能迅速幫助我們建立品牌曝光和銷售體系。」Silicon Power Sales Deputy Manager Benson指出,透過亞馬遜賣家中心(Amazon Seller Central),採靈活的「地區化策略」,針對當地消費者習慣、法規稅務,即時調整價格和庫存。

amazon_6.jpg
看準線上通路潛力,Silicon Power將亞馬遜全球開店視為品牌跨境的關鍵,透過靈活的「地區化策略」即時調整價格與庫存,更運用 Amazon Business 功能敲開全球企業級 B2B 市場的大門。圖為Silicon Power 銷售副理 Benson(左)與董事長陳慧民(右)於 Computex 展位合影。
圖/ 數位時代

在行銷上,Silicon Power則善用亞馬遜廣告(Amazon ADs),精準設定投放目標、掌握搜尋趨勢。更重要的是,亞馬遜的「Amazon Business」功能,讓Silicon Power的醫院、教育機構等企業用戶,能以批量採購方式下單,等於敲開了B2B市場的大門,「這是一個關鍵轉折,因為我們不再只服務個人消費者,也能為企業客戶提供企業級需求的記憶體解決方案。」

正因從亞馬遜獲得了全方位數據,Silicon Power利用這份對消費者的理解,在今年的Computex中,跳脫了「單一產品框架」的思維,首度展出專為創作者打造的「CreatePro 系列」。團隊不盲目模仿競品,而是精準切入內容創作者的工作流程,將需求拆分為錄影、後製、備份、長期保存等四個階段,並為每個階段提供完整對應的儲存方案,「不是競爭者做什麼,我們就去做什麼,我們還是會利用從亞馬遜等平台獲得的數據,回到消費者需求,完整提供產品的解決方案。」Benson笑稱,如今,團隊已將「亞馬遜賣家學習中心」視為內部的成長基地,同仁會搭配亞馬遜的建議、策略,持續升級自身戰力。

amazon_7.jpg
廣穎電通跳脫單一產品框架,利用從亞馬遜等平台獲得的全方位數據回到消費者需求,精準切入內容創作者的工作流程,完整提供相對應的儲存方案。
圖/ 數位時代

對圓剛、TRYX和Silicon Power來說,在這場跨境出海的戰役中,亞馬遜不僅是銷售貨物的通路,更扮演了品牌向全球拓展的「加速」角色。從前期透過商機探測器,進行市場洞察、需求驗證,進而預判趨勢、調整選品、開發新品;到中期藉由真實的消費者評論和成熟的廣告系統,快速累積海外信任度、建立品牌;最後再利用強大的FBA物流網絡和多站點優勢,將台灣的創新產品遞送至全球,正是亞馬遜被視為出口跨境關鍵的原因。

從三家品牌的成功軌跡,可以看出科技產業的全球化趨勢,已從過去的「硬體代工製造」,邁向「數據驅動品牌」的階段。無論是哪一種產業,品牌只要專心將產品做到極致,搭配亞馬遜全球開店提供的成長與加速服務等,就能在全球找到最適合的市場,讓世界看見台灣的創新能量。

立即下載_亞馬遜 2026 消費性電子品類攻略手冊|掌握下一波成長動能

圖/ Amazon

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
代理式商務連動百兆商機
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓