全球最先進的AI,都在排隊玩寶可夢!這為何成了科技巨頭測模型的新辦法?
全球最先進的AI,都在排隊玩寶可夢!這為何成了科技巨頭測模型的新辦法?

大人小孩都喜歡的寶可夢,現在正成為測試AI模型的的新辦法。全球頂尖的AI模型們紛紛領著小火龍、妙蛙種子和傑尼龜,離開冒險的起點真新鎮(Masara Town),踏上成為寶可夢大師旅程。

在實況平台Twitch上,你現在可以看到一個奇妙畫面:由OpenAI、Anthropic和Google開發,全球最先進的AI模型試圖通關1996年推出的《寶可夢》初代遊戲。

小孩子也能輕鬆通關的寶可夢,卻是AI一大難題

這些AI玩得並不好、經常卡關,甚至會在同一個地點打轉好幾天。但對 AI 研究人員來說,正是這些「失敗」,讓《寶可夢》成為評估 AI 能力的理想工具。

「它(《寶可夢》遊戲)為我們提供直觀了解模型運行狀況的絕佳方式,並能進行量化評估。」Anthropic應用AI負責人大衛.赫爾希(David Hershey)表示,他去年2月策劃了在Twitch上直播Claude遊玩《寶可夢》藍版的節目。

這個直播節目引發了迴響,讓其他獨立研究測試讓GPT和Gemini模型遊玩寶可夢,根據《華爾街日報》報導,這些測試後續獲得了OpenAI和Google的支援。

gemini pokemon.jpg
Twitch上現在有著各種尖端AI模型挑戰寶可夢的實況影片。
圖/ Twitch

在《寶可夢》藍版中,玩家需要捕捉及培育自己的寶可夢,擊敗道館館主蒐集徽章,取得挑戰四大天王及冠軍的資格。當時Anthropic聲稱,Claude Sonnet 3.7是他們第一款能夠正確遊玩寶可夢的模型,舊模型要不是在遊戲裡漫無目的亂逛,就是在重複做同樣的事。

這款小孩子也能輕鬆花幾十小時通關的遊戲,對AI模型卻是大工程。Claude Opus 4.5曾在一個道館附近繞了4天之久,因為他沒意識到要讓寶可夢使用「居合斬」砍倒一顆樹,才能繼續前進。

延伸閱讀:頂尖1%的人都怎麼用AI?一次看懂「DRAG框架」:怎樣聰明偷懶?哪些必須自己做?

長時間、連續決策能力,正是AI代理關鍵

過去十多年,AI 的進步多半透過標準化的基準測試來衡量:解數學題、寫程式、回答問題,但這種作法逐漸被認為無法正確衡量AI模型的能力。

去年3月,OpenAI共同創辦人安德烈.卡帕斯(Andrej Karpathy)曾表示,「我認為現在存在著衡量危機,我真的不知道該看哪個指標了。」他認為,許多以前很棒的基準測試,不是變得過時,就是範圍太窄,無法確切衡量現在模型能力到了什麼水準。

《寶可夢》的高自由度,給予了研究人員不同角度觀察AI模型表現,遊玩過程需要玩家在長時間內做出連續決策,是否要訓練現有寶可夢、捕捉新寶可夢、何時回去治療中心補給、如何通過迷宮、為對戰做準備。

寶可夢Pokemon
圖/ Shutterstock

赫爾希表示,讓Claude遊玩寶可夢也是讓他們練習如何圍繞AI代理開發輔助工具,例如他曾開發一套系統讓Claude記憶遊戲中得知的關鍵資訊。目前GPT和Gemini都有成功通關寶可夢初代的紀錄(Claude暫時還沒通關),背後仰賴的也是各個開發者為它們打造的輔助工具。

卡內基梅隆大學語言技術副教授格拉漢.紐比格(Graham Neubig)解釋,傳統基準測試都是解決單一問題,而寶可夢能夠長時間追蹤模型推理、決策能力的表現,這正好是人們期待AI模型具備的獨立解決問題能力。

延伸閱讀:練習3個用AI的高超方式,秒變「AI應用專家」!你的隱藏發現,有機會比工程師更懂用 AI

值得一提的是,寶可夢測試也讓AI公司發現模型有時會展現類似人類的反應,例如Google就指出,當寶可夢昏厥時(戰鬥中血量歸零),模型會彷彿陷入「恐慌」,導致推理能力下滑。

而在Gemini 3 Pro通關《寶可夢》藍版後,它還發出一條令人意外的訊息,「我想回到一切的起點,也就是我的家,讓角色暫時退休。我想在最後好好和媽媽聊天,為這趟遊戲旅程畫下圓滿的句點。」

延伸閱讀:只要把提示詞「說兩次」,LLM效能就升級?Google研究曝「47勝0敗」高CP值解方

資料來源:華爾街日報Time

往下滑看下一篇文章
全台首創,永豐銀行將 FIDO 導入 DAWHO 多幣Debit卡,重塑行動交易安全體驗
全台首創,永豐銀行將 FIDO 導入 DAWHO 多幣Debit卡,重塑行動交易安全體驗

數位金融普及帶動交易頻率持續增長,如何在便利性與安全性間取得平衡,成為普遍銀行共同面臨的挑戰。以非約定轉帳為例,若使用者身處海外或電信訊號不良的地方,將會陷入無法進行簡訊OTP(One-Time Password)驗證的窘境,此外,使用者還可能遭遇惡意份子以先進技術側錄裝置、攔截簡訊與進行詐騙等風險,而且,銀行等金融機構還必須支付大筆費用維護簡訊OTP驗證機制的穩定性。

為解決傳統簡訊OTP驗證逐漸不敷使用的情況,同時,兼顧安全與體驗,永豐銀行領先同業,以FIDO(Fast Identity Online)技術重新設計非約定轉帳的認證流程:將 FIDO 私鑰置入晶片金融卡的晶片中,讓卡片透過 NFC (Near-Field Communication)感應與手機雙向認證,形成不依賴簡訊 OTP 的高安全交易模式。

簡訊OTP驗證機制逐漸不敷使用,永豐銀行推兼顧交易安全與使用便捷的最佳解方

「起心動念很簡單,就是為了解決客戶面臨的真實挑戰。」永豐商業銀行副總經理暨數位金融處處長嚴國瑞指出,FIDO 是全球通用的安全標準,而晶片金融卡既符合法規、客戶持有比例也高,如果將兩者合而為一,即可在不犧牲體驗的前提下提升安全強度。「客戶只要在 App 設定 FIDO 密碼,即可透過卡片 NFC 感應完成驗證。」確認產品概念後,接下來的關鍵是確認應用情境與載體。

永豐銀行會選擇DAWHO多幣Debit卡作為首波導入載體的原因也很明確:卡片客群包含頻繁往返海外的商務人士、遊學生、留學生,以及常在境外飛行、無法穩定接收台灣簡訊的空服員族群。「至於會聚焦在非約定轉帳這個應用場景的原因有二:首先是轉帳交易佔永豐銀行網銀交易的8成以上,其中,非約定轉帳又佔轉帳交易的7成以上;其次,非約定轉帳的頻率高、風險高,同時也是客戶最容易因為簡訊OTP驗證機制受阻的環節,是最適合導入高安全驗證技術的場域。」嚴國瑞副總經理如是說道。

從確認概念到產品落地,永豐銀行動員跨單位合作,並與 FIDO 聯盟及製卡公司共同開發,歷時 8 個多月完成監理門診、技術驗證、專利申請、國際認證與卡片製作等過程,於2025年 12 月正式推出。現在,所有新申辦 DAWHO 多幣 Debit 卡的客戶都可以體驗到FIDO驗證服務,後續也將逐步開放既有存戶換發。

永豐銀行
與一般晶片金融卡不同,DAWHO 多幣FIDO Debit 卡具備「FIDO密碼 + NFC感應」雙重驗證機制。即便密碼外洩,沒有卡片內的私鑰仍無法通過 FIDO 驗證,大幅降低交易安全風險。
圖/ 永豐銀行

嚴國瑞副總經理強調:「歡迎所有不易接收簡訊、有高頻非約定轉帳需求、對安全敏感度更高的客戶,以及無法使用生物辨識或接收簡訊的族群申請使用,自由選擇要以簡訊OTP或是FIDO機制進行交易認證,更好實踐『安全不設限,便利零距離』願景。」

積極滿足客戶體驗,永豐銀行以創新科技翻轉金融服務

永豐銀行秉持永豐金控持續科技創新的精神,以科技翻轉服務,滿足客戶金融服務體驗。接下來,將逐步擴大DAWHO多幣FIDO Debit卡的應用範疇,如行動銀行登入驗證、約定轉帳與跨境支付等高安全需求領域,同時,與更多元的數位金融服務整合,藉此提升整體交易安全,讓客戶在多元場景也可以享有一致且便捷的驗證體驗。

「我們的目標是讓安全成為習慣,讓驗證變得簡單。」嚴國瑞副總經理表示,永豐銀行除了以永豐DAWHO多幣FIDO Debit卡重新定義金融交易的安全與便利,也會持續從「多因子驗證」、「AI風控」、「裝置生物辨識(包含臉部、指紋等)」等面向強化交易安全,例如導入行動裝置綁定機制、以AI風險模型即時偵測異常交易,並結合生物辨識與FIDO機制打造全方位安全防護網,讓使用者在享受更及時、直覺的金融服務時,亦能確保安全無虞。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
2026 大重啟
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓