《超級瑪利歐》成AI模型測試戰場，為何善於「推理」的模型反而在遊戲碰壁？|數位時代 BusinessNext

《超級瑪利歐》成AI模型測試戰場，為何善於「推理」的模型反而在遊戲碰壁？

研究人員使用遊戲《超級瑪利歐》作為參考，對Claude 3.7等AI模型進行評估測試。實驗發現，許多優秀模型反而在遊戲中吃虧，為什麼？

發生什麼事？

研究人員使用遊戲《超級瑪利歐》作為參考，對Claude 3.7、Google Gemini 1.5 Pro等AI模型進行評估測試。
研究發現，Anthropic的Claude 3.7表現上超越GPT-4o和Gemini 1.5 Pro等模型。原因是在需要快速反應的遊戲情境下，擁有複雜推理能力的模型，反而因為處理時間較長，而無法順利通過關卡。

超級瑪利歐成為AI模型測試戰場

經典遊戲超級瑪利歐（Super Mario Bros.），如今不僅是無數玩家的童年回憶，它也成為了AI模型測試的新戰場。

隸屬加州大學聖地牙哥分校旗下的研究單位Hao AI Lab，近期以這款遊戲為測試平台，對多種AI模型的反應速度、決策能力進行評估。最終結果顯示，不同模型在即時反應及處理複雜情境上，具有極大差異，其中Claude 3.7在所有模型中脫穎而出，表現遠勝於其他競爭者。

Hao AI Lab開發了一個名為「GamingAgent」的框架，讓AI在遊戲中控制角色。該框架可讓AI擁有基本的遊戲能力，例如在過程中閃避障礙物、敵人等。而根據結果，Claude 3.7無論是在反應時間還是決策的靈活度上，都優於Google的Gemini 1.5 Pro與OpenAI的GPT-4o。

「推理模型」反而在遊戲中吃虧？

令人意外的是，OpenAI的GPT-4o或是Google的Gemini 1.5 Pro，這些模型在許多測試中表現都相當優異，但它們卻在需要即時反應遊戲環境中碰壁。研究人員分析，這些模型的問題，就在於其推理過程相對複雜，決策需要一定的時間來進行思考和計算。

但在快速變化的遊戲環境中，一秒鐘的猶豫，就會讓玩家碰上敵人或被障礙打到，因此，需要深度推理的模型，反而在「反應速度」上的居於劣勢。

相反地，Hao AI Lab發現一些不依賴深度推理過程的模型，反而表現更加靈活，且能迅速做出反應，有效應對遊戲中的挑戰。這個實驗結果也讓人開始思考，在遊戲開發、機器人技術還有自動化技術的情境中，AI技術未來是否需要進一步做出調整。

《TechCrunch》指出，遊戲其實被用來當作AI測試的標準，已經有幾十年歷史，但仍有一些專家質疑，用AI在遊戲中的表現來評比模型是否合理，畢竟遊戲與現實世界相比，缺少解決複雜問題和應對多變情況的情境。

儘管AI在遊戲中表現越來越好，但外媒認為在遊戲中表現最讓人驚豔的，目前只有人類玩家。人類在複雜的遊戲場景中，展現出極高的適應能力和創造力，這是AI目前無法完全複製的。

本文授權轉自Web3+，作者為李朋叡

從網銀體驗到數位品牌革新，國泰世華銀行「CUBE」如何造就質感金融平台？

除了瘋功能，數位金融還能怎麼做？國泰世華CUBE轉向體驗與美學，翻轉傳統思維，將「質感金融」變成獨一無二的品牌武器。

近年來，銀行業陸續掀起 App 改版潮，介面設計推陳出新。然而，若追溯這股數位美學革命的起點，國泰世華銀行無疑是先行者。

2022 年，國泰世華推出「CUBE」數位品牌，名稱結合「Cathay United Bank」與「Empower」，象徵透過數位力量賦能客戶，讓金融服務自然融入生活。秉持「為可能，竭盡所能」的品牌理念，CUBE 不只是網銀 App，更是國泰世華打造一站式數位金融平台的核心起點。

當多數金融機構仍停留在功能導向思維，強調「快速、簡潔、好用」時，國泰世華已率先從品牌高度切入，以使用者為核心，導入兼具實用性與美學價值的設計哲學。國泰世華做對了什麼？為何能從產品進化為平台？

從功能到美學的品牌蛻變

在數位轉型方興未艾之際，多數金融 App 強調的是效率，但國泰世華選擇再往前一步。國泰世華銀行數位長陳冠學說：「我們的做法是不只要方便，還要具備質感與美感，在簡單的使用前提下，做到『不簡單的簡單』。」

打開 CUBE App，便能看見這種「質感金融」的落實。介面以金融業少見的灰階主色與留白設計，營造極簡氛圍；插畫則以簡潔筆觸呼應，增添現代科技感。從帳務收支、外幣買賣、信用卡到投資、貸款、保險，每個功能都保有一貫的視覺語彙，擺脫傳統金融厚重繁複的框架，傳遞「輕盈」與「透明」的設計觀。

然而，要打造一致的設計體驗，絕非僅靠技術可達成，更仰賴組織文化的支持。當多數金融機構習慣將設計與研發外包，國泰世華則選擇培養內部團隊。陳冠學直言：「外包常受限於專案週期，容易流於短期思維；唯有內部團隊，才能在細節中持續耕耘。」

「品牌就是細節的累積。」他強調，CUBE不只是一款網銀 App，目標更是一個承載金融科技力與美學價值的數位品牌。

跨場景串聯的全方位體驗

「在數位服務設計上，最大的阻力往往來自業績壓力，因此才會充斥與需求無關的廣告。我們選擇回到初衷——從體驗出發，減少干擾。」陳冠學坦言。但他也強調，這並非否定廣告價值，而是調整優先順序：先確保流程簡單、介面友善，建立使用黏著度與忠誠度後，廣告才能在對的時間、對的渠道、推送對的內容，從干擾轉為加值。

而這種「以體驗優先」的理念，除了體現在CUBE App，也被落實到 ATM：全台 5,400 台國泰世華 ATM 介面大膽採用零廣告設計，提款流程更精簡至兩步驟，時間縮短近五成，展現「少即是多」的體驗哲學。

對於細節的堅持，也從數位介面延伸到實體卡片。如：國泰世華推出全台首張視障友善的「CUBE簽帳金融卡Touch Card （簡稱：CUBE Touch Card）」，透過圓弧切角與特殊壓模設計，讓視障者能以觸覺辨識卡片方向，更榮獲 2025 年德國 iF 設計獎，展現品牌在普惠金融上的細緻關懷。

而當體驗被放大到「整合生活」層次，國泰世華更進一步推動小樹點生態圈。信用卡回饋不再侷限於帳單折抵，使用者還能將點數轉換為米其林餐廳訂位、熱門演唱會門票等限量體驗。從數位介面到線下接觸點，再到生活金融場景，國泰世華正將 CUBE 打造為「金融＋生活＋娛樂」的全方位平台。

新世代價值驅動的金融競爭力

當 CUBE 體驗日益成熟，國泰世華開始追問：在快速變遷的時代，什麼樣的品牌才能真正獲得新世代的認同？

陳冠學提出兩大方向：一是持續應用前瞻科技，如虛擬資產等創新場景，讓金融服務始終走在市場之前；二是堅持品牌驅動，透過長期累積塑造認同感。「台灣金融市場相較國外，品牌驅動的氛圍不算強，但我們希望品牌本身成為力量！」他強調。

這樣的思維，正好呼應新世代的價值轉向。對 Gen Z 而言，金融回饋只是基本，真正影響忠誠度的，是企業文化與社會責任。「做一件事是利己還是利他，新世代看得很清楚。」陳冠學說。這也是為什麼 CUBE 堅持回歸使用者為中心，透過細節傳遞的「利他」的品牌態度。

這是否也意味著，金融競爭的勝負關鍵不在於誰堆疊更多功能，而在於誰能將科技轉化為有溫度的體驗、把品牌理念融入每個接觸點？如 CUBE 正在驗證的新模式，以科技創新帶來效率與便利，以品牌文化建立信任與共鳴。當金融服務邁向平台化與生態化，國泰世華已率先勾勒未來格局——讓品牌成為金融服務的真正入口。