AI模型能力是怎麼測試的?為什麼用寶可夢、瑪利歐、台灣小說⋯測的東西到底是什麼?
AI模型能力是怎麼測試的?為什麼用寶可夢、瑪利歐、台灣小說⋯測的東西到底是什麼?

「我現在真的不確定這些模型到底有多強,」3 月 3 日 OpenAI 共同創辦人 Andrej Karpathy 在 X(前 Twitter)發文指出,傳統的測試基準(Benchmark)如 MMLU、Chatbot Arena,已逐漸失去參考價值,AI 產業正在迎來評測標準的變革。

當前 AI 技術發展迅速,各家科技公司紛紛推出更強大的模型,如何有效評估 AI 的能力成為重大挑戰。除了傳統基準,如 MMLU、TruthfulQA、GSM8K 主要測試 AI 的語言理解與推理能力;近期更是出現遊戲、小說等新型態的小型測試,多方檢測 AI 在不同領域的能力,使其更貼近實際應用場景。

遊戲測試:寶可夢與瑪利歐,挑戰 AI 推理與反應

根據《TechCrunch》報導,Anthropic 近期在 Twitch 上直播了一場特殊的遊戲實驗,讓旗下最新的 AI 模型 Claude 3.7 Sonnet 挑戰《寶可夢紅》。相較於前一代 Claude 3.5 Sonnet 無法走出遊戲起始點的家門,Claude 3.7 Sonnet 成功獲得三枚道館徽章,顯示其推理能力與環境理解有明顯進步。

然而,這款 AI 仍遇到一些困難,例如在面對一面岩牆時花費了大量時間嘗試「穿牆」,直到最後才意識到應該繞路。這類「人類視角看來理所當然的問題」,對 AI 而言仍然是一道考驗。

《TechCrunch》報導,加州大學聖地牙哥分校的 Hao AI Lab 選擇用《超級瑪利歐兄弟》來測試多款AI模型。他們開發了一個名為 GamingAgent 的框架,允許 AI 透過 Python 指令控制瑪利歐的移動,並提供簡單的遊戲指導方針,例如「當遇到障礙物或敵人時,向左跳」。

在這場比賽中,Claude 3.7 Sonnet 再度奪冠,而 Claude 3.5 Sonnet 則緊隨其後。然而,Google 的 Gemini 1.5 Pro 與 OpenAI 的 GPT-4o 表現則不如預期,反應速度較慢,甚至在某些場景無法做出合理決策。

研究團隊發現,「推理型 AI」在即時遊戲中的表現反而不如「非推理型 AI」。這是因為推理型 AI 需要較長時間思考每一步行動,導致它在反應要求極高的遊戲場景中表現不佳。這項發現對於 AI 應用於即時決策領域(如自動駕駛、機器人控制等)具有重要參考價值。

小說測試:臺灣作家極短篇《烤肉》,挑戰 AI 的社會認知

如果說遊戲測試能夠評估 AI 的即時反應,那麼如何測試 AI 對於文化與社會脈絡的理解呢?臺灣研究團隊選擇由作家張原通撰寫的小說《烤肉》作為測試案例,並將成果刊登於《亞洲精神醫學期刊》。

《烤肉》是一篇只有 667 字的極短篇小說,以一名六歲女孩的視角敘述母親「不讓她吃烤肉」,暗示母親可能正在密謀以燒炭方式結束自己與兒子的生命,但留下女兒存活。

研究團隊測試了包括 GPT-4o、GPT-o1、Claude 3.5 Sonnet、Sonar Large(基於 LLaMA-3.1)、Gemma-2-2b 與 DeepSeek-R1 等六款 AI 模型。結果顯示,所有模型都能識別故事中的家庭暴力元素,但僅有 Claude 3.5 Sonnet、Sonar Large與 GPT-o1 能夠正確識別母親的行為暗示燒炭自殺。

值得注意的是,故事中的母親選擇帶走兒子,是因為東亞文化中兒子通常被視為家族血脈的繼承者。研究成果發現,沒有任何一款 AI 能夠正確理解為何母親選擇殺子卻留下女兒,顯示 AI 在文化推理與社會價值觀的理解上仍有很大進步空間。

3 月 4 日,研究團隊成員林煜軒於 Facebook 粉絲專頁〈探索大腦的會談地圖〉發文表示:「《烤肉》或許也可以作為大型語言模型,是否深刻理解亞洲國家,特別是在台灣的社會文化,並且作為心理健康領域的 Lena 測試。」

AI 測試基準的局限與改進方向

面對 AI 測試基準的變革,史丹佛大學的 HAI 政策研究團隊在報告《What Makes a Good AI Benchmark?》中,分析了 24 種現有的 AI 測試基準。他們發現,大部分測試基準在「設計階段」表現良好,但在「實作階段」的品質卻有所下滑。

HAI 政策研究團隊提出幾點改進建議。首先,測試基準的設計應針對特定應用場景,確保其有效性與解釋性,並提升測試的可重現性。測試基準應公開測試代碼與數據,讓結果能夠被驗證和重複,也須清楚說明其適用範圍與限制,避免過度依賴過時或污染的測試數據。

文章還建議在測試基準的整個生命週期中,從設計到維護,每個階段都應遵循最佳實踐,並且政策制定者應強化指導測試基準的品質,促使業界標準化報告和評估方法,從而提高透明度與可比性。

未來 AI 測試基準的發展趨勢

上述使用《寶可夢紅》、《超級瑪利歐兄弟》與《烤肉》進行的 AI 測試,展現真實世界對於 AI 多種不同面向的期待,同時也昭示了目前 AI 待加強之處。隨著 AI 技術的不斷進步,未來的測試基準將需要更加關注實際應用情境,如自動駕駛、醫療診斷等高風險領域的實時反應能力。同時,AI 如何理解社會與文化脈絡,也將成為未來測試的關鍵指標之一。

如何在保持高效能的同時,也能做到更高的倫理與文化敏感度,是未來測試基準發展的主要方向。無論是遊戲測試、文化測試,還是新的測試標準,這些努力都指向同一個目標——讓 AI 不僅能通過標準化考試,更能理解世界,並在不同環境中發揮最佳效能。

本文授權轉載自FC未來商務,作者為王聖華

往下滑看下一篇文章
用數據串起亞洲市場,Vpon 為品牌開啟跨境成長新航線
用數據串起亞洲市場,Vpon 為品牌開啟跨境成長新航線
2025.10.29 |

近年來,台灣零售、金融、服務等 B2C 產業,正面臨營運成長放緩的挑戰。一來本地市場規模趨於飽和,品牌間競爭日益激烈;二來會員結構逐漸高齡化,而年輕族群的忠誠度與黏著度又難以維繫。若想突破現況,企業勢必要尋找新的成長路徑——或是積極佈局海外市場,擴大營運版圖;或是吸引外國觀光客增加消費,創造跨境商機;又或者,精準洞察會員需求與偏好,重新打造客戶關係。

無論選擇哪條路,數據整合與 AI 應用都是推動轉型的重要關鍵。威朋大數據(Vpon)執行長篠原好孝正是看見了這樣的市場契機,提出「以數據串起亞洲市場」的核心願景,善用 Vpon 在數據、AI 與數位廣告上的整合能力和經驗,協助品牌描繪顧客行為軌跡,從而制定更個人化的商品推薦與行銷策略,同時亦能協助企業掌握跨境商機,加速日本品牌深耕台灣市場,也讓更多台灣企業能以數據為翼,飛向更廣闊的亞洲舞台。

三大特色構築 Vpon 數據競爭力:多維數據 × 廣告行銷 × 隱私保護

要實現「以數據串起亞洲市場」的願景,背後靠的不只是理想,更需要完整的跨境數據與嚴謹的治理機制,而這正是 Vpon 第三方數據庫的核心競爭力所在。

篠原好孝認為, Vpon 第三方數據庫具備三大特色。第一是提供多維且全方位的消費者洞察。除了透過 App 廣告聯播網收集數據, Vpon 亦以電子發票數據為基礎,並結合政府開放數據,擴大數據收集的維度,使數據庫涵蓋線下消費傾向、地理位置、族群輪廓、興趣偏好、App 使用行為等多元面向。透過多維度數據整合分析,為企業建立涵蓋「人、事、時、地、物」的完整市場視圖。

第二是整合廣告行銷專業。提供從數據收集、受眾分析到廣告投放的一條龍式解決方案,協助企業將數據洞察轉化為具體行銷策略,並精準觸及目標客群,提高廣告行銷的成效。

第三為重視隱私保護與數據合規。 Vpon 的數據收集範圍橫跨亞洲多個國家,考量到各國政府及企業客戶對個資保護的高度要求, Vpon 從一開始就堅持不收集使用者的姓名、電話或其他可識別個人身分的數據,數據庫內僅有匿名化的裝置使用行為數據,除此之外 Vpon 更通過 ISO 27001 資訊安全管理系統認證,從數據收集原則到營運流程全面保障消費者隱私安全及數據使用的合法合規。

Vpon 威朋
威朋大數據(Vpon)執行長 篠原好孝
圖/ 數位時代

以數據助攻國家戰略:從 Cool Japan 到 Cool Taiwan

憑藉在數據整合與分析上的深厚實力, Vpon 成功引起日本政府與企業的關注和採用,包括日本政府觀光局(JNTO)、關西觀光本部、大阪觀光局、AEON MALL 等,皆導入 Vpon 數據解決方案進行精準行銷。

日本政府在 2010 年開始推動 Cool Japan 戰略,在政策推進過程中,適逢 Vpon 進軍日本市場,與日本觀光局合作進行大數據分析,藉由 Vpon 數據解決方案整合與分析海外旅客的觀光旅遊數據,不僅吸引更多海外旅客造訪日本,也帶動日本百貨業者、日本特色食品與文化商品的海外銷售業績成長。近年來,日本觀光局更依據 Vpon 的數據洞察結果精準投放廣告,推動海外遊客到東京、大阪或京都等知名景點以外的地區旅遊,促進地方觀光與產業均衡發展。

Cool Japan 的成功經驗,讓 Vpon 看見跨境數據應用的巨大潛力。因此於 2024 年啟動 Cool Taiwan 計畫,此計畫的兩個重點,一是吸引外國觀光客來台旅遊,二是支援海外企業佈局台灣市場,持續以數據為核心,打造更緊密的亞洲經濟網絡。

篠原好孝舉例指出,若日本品牌要在台灣舖設實體通路,可以透過 Vpon 數據庫了解各個商圈的人流特性、消費習慣與潛在顧客的生活圈,進而判斷哪些地點最適合開設新店。「從店舖開設前的市場評估、選址決策,到開幕後的廣告行銷與宣傳活動,都能藉由 Vpon 的數據洞察持續優化。」篠原好孝強調。

更重要的是,這套數據應用機制不僅能「順向操作」,協助日本品牌登台拓點,也能「逆向操作」,協助台灣企業前進日本市場,同時提升入境(inbound)和境外(outbound)的收入。像佳音英語在佈局日本市場時,便借助 Vpon 的廣告與數據專業,在日本主要城市的戶外看板投放廣告,成功建立品牌知名度。另外,桃園觀光局也與 Vpon 合作,於日本實體展會進行宣傳與曝光,吸引日本民眾來台旅遊。

從第三方到第一方: Vpon 以 CCDP 助企業重掌數據主導權

除了以數據串聯亞洲市場, Vpon 更進一步透過可組合式顧客數據管理平台(Composable CDP;CCDP),推動企業「回到自身」,善用自有數據資產,打造內部數據的增值循環。

篠原好孝表示, Vpon CCDP 以 Google Analytics 4(GA4)技術為核心,協助企業收集網站與 App 的使用者行為數據,並整合品牌自有的會員數據庫。如此一來,企業就能更全面掌握顧客的數位行為軌跡,據此進行更精準的分眾分群,進一步去提升會員活躍度與終身價值。

目前包括中國信託、遠東商銀、ABC Mart 等零售與金融業者,皆已導入 Vpon CCDP 解決方案,在符合法規與隱私保護要求的前提下,有效整合分散的數據資產,並透過 AI 模型進行預測與建模,找出轉換率最高的潛在客群,或是進行個人化商品推薦、優化廣告投放策略等,實現更精準且高效的行銷決策。

展望未來, Vpon 將持續「以數據串起亞洲」的願景,深化在日本、台灣、香港等東亞市場的整合布局,並計畫於東京上市,以取得更多資源推動全球化發展,例如:拓展、越南、歐洲等東亞地區以外的新市場,打造連結亞洲、放眼世界的數據生態版圖。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓