AI模型能力是怎麼測試的?為什麼用寶可夢、瑪利歐、台灣小說⋯測的東西到底是什麼?
AI模型能力是怎麼測試的?為什麼用寶可夢、瑪利歐、台灣小說⋯測的東西到底是什麼?

「我現在真的不確定這些模型到底有多強,」3 月 3 日 OpenAI 共同創辦人 Andrej Karpathy 在 X(前 Twitter)發文指出,傳統的測試基準(Benchmark)如 MMLU、Chatbot Arena,已逐漸失去參考價值,AI 產業正在迎來評測標準的變革。

當前 AI 技術發展迅速,各家科技公司紛紛推出更強大的模型,如何有效評估 AI 的能力成為重大挑戰。除了傳統基準,如 MMLU、TruthfulQA、GSM8K 主要測試 AI 的語言理解與推理能力;近期更是出現遊戲、小說等新型態的小型測試,多方檢測 AI 在不同領域的能力,使其更貼近實際應用場景。

遊戲測試:寶可夢與瑪利歐,挑戰 AI 推理與反應

根據《TechCrunch》報導,Anthropic 近期在 Twitch 上直播了一場特殊的遊戲實驗,讓旗下最新的 AI 模型 Claude 3.7 Sonnet 挑戰《寶可夢紅》。相較於前一代 Claude 3.5 Sonnet 無法走出遊戲起始點的家門,Claude 3.7 Sonnet 成功獲得三枚道館徽章,顯示其推理能力與環境理解有明顯進步。

然而,這款 AI 仍遇到一些困難,例如在面對一面岩牆時花費了大量時間嘗試「穿牆」,直到最後才意識到應該繞路。這類「人類視角看來理所當然的問題」,對 AI 而言仍然是一道考驗。

《TechCrunch》報導,加州大學聖地牙哥分校的 Hao AI Lab 選擇用《超級瑪利歐兄弟》來測試多款AI模型。他們開發了一個名為 GamingAgent 的框架,允許 AI 透過 Python 指令控制瑪利歐的移動,並提供簡單的遊戲指導方針,例如「當遇到障礙物或敵人時,向左跳」。

在這場比賽中,Claude 3.7 Sonnet 再度奪冠,而 Claude 3.5 Sonnet 則緊隨其後。然而,Google 的 Gemini 1.5 Pro 與 OpenAI 的 GPT-4o 表現則不如預期,反應速度較慢,甚至在某些場景無法做出合理決策。

研究團隊發現,「推理型 AI」在即時遊戲中的表現反而不如「非推理型 AI」。這是因為推理型 AI 需要較長時間思考每一步行動,導致它在反應要求極高的遊戲場景中表現不佳。這項發現對於 AI 應用於即時決策領域(如自動駕駛、機器人控制等)具有重要參考價值。

小說測試:臺灣作家極短篇《烤肉》,挑戰 AI 的社會認知

如果說遊戲測試能夠評估 AI 的即時反應,那麼如何測試 AI 對於文化與社會脈絡的理解呢?臺灣研究團隊選擇由作家張原通撰寫的小說《烤肉》作為測試案例,並將成果刊登於《亞洲精神醫學期刊》。

《烤肉》是一篇只有 667 字的極短篇小說,以一名六歲女孩的視角敘述母親「不讓她吃烤肉」,暗示母親可能正在密謀以燒炭方式結束自己與兒子的生命,但留下女兒存活。

研究團隊測試了包括 GPT-4o、GPT-o1、Claude 3.5 Sonnet、Sonar Large(基於 LLaMA-3.1)、Gemma-2-2b 與 DeepSeek-R1 等六款 AI 模型。結果顯示,所有模型都能識別故事中的家庭暴力元素,但僅有 Claude 3.5 Sonnet、Sonar Large與 GPT-o1 能夠正確識別母親的行為暗示燒炭自殺。

值得注意的是,故事中的母親選擇帶走兒子,是因為東亞文化中兒子通常被視為家族血脈的繼承者。研究成果發現,沒有任何一款 AI 能夠正確理解為何母親選擇殺子卻留下女兒,顯示 AI 在文化推理與社會價值觀的理解上仍有很大進步空間。

3 月 4 日,研究團隊成員林煜軒於 Facebook 粉絲專頁〈探索大腦的會談地圖〉發文表示:「《烤肉》或許也可以作為大型語言模型,是否深刻理解亞洲國家,特別是在台灣的社會文化,並且作為心理健康領域的 Lena 測試。」

AI 測試基準的局限與改進方向

面對 AI 測試基準的變革,史丹佛大學的 HAI 政策研究團隊在報告《What Makes a Good AI Benchmark?》中,分析了 24 種現有的 AI 測試基準。他們發現,大部分測試基準在「設計階段」表現良好,但在「實作階段」的品質卻有所下滑。

HAI 政策研究團隊提出幾點改進建議。首先,測試基準的設計應針對特定應用場景,確保其有效性與解釋性,並提升測試的可重現性。測試基準應公開測試代碼與數據,讓結果能夠被驗證和重複,也須清楚說明其適用範圍與限制,避免過度依賴過時或污染的測試數據。

文章還建議在測試基準的整個生命週期中,從設計到維護,每個階段都應遵循最佳實踐,並且政策制定者應強化指導測試基準的品質,促使業界標準化報告和評估方法,從而提高透明度與可比性。

未來 AI 測試基準的發展趨勢

上述使用《寶可夢紅》、《超級瑪利歐兄弟》與《烤肉》進行的 AI 測試,展現真實世界對於 AI 多種不同面向的期待,同時也昭示了目前 AI 待加強之處。隨著 AI 技術的不斷進步,未來的測試基準將需要更加關注實際應用情境,如自動駕駛、醫療診斷等高風險領域的實時反應能力。同時,AI 如何理解社會與文化脈絡,也將成為未來測試的關鍵指標之一。

如何在保持高效能的同時,也能做到更高的倫理與文化敏感度,是未來測試基準發展的主要方向。無論是遊戲測試、文化測試,還是新的測試標準,這些努力都指向同一個目標——讓 AI 不僅能通過標準化考試,更能理解世界,並在不同環境中發揮最佳效能。

本文授權轉載自FC未來商務,作者為王聖華

往下滑看下一篇文章
第6屆Meet大南方倒數!352組商機媒合、六大解方展區,帶問題進場就能找到解方
第6屆Meet大南方倒數!352組商機媒合、六大解方展區,帶問題進場就能找到解方

2026年8月28日(五)至29日(六),Meet大南方將於高雄展覽館展開第6屆展會,並於即日起正式啟動招商。

近兩年,南台灣企業開始出現一種很明顯的變化。

他們不再只是「想了解AI」,而是開始問:「這個東西能不能直接解決我的問題?」

在高雄,重工業與製造業面臨缺工與淨零轉型壓力;台南的高值製造聚落,開始加速導入自動化與數位管理工具;嘉義與屏東則分別圍繞無人機、智慧農業與綠能產業,形成新的區域應用場景。

這些變化背後,其實都指向同一件事:南台灣的企業需求,正在從「理解新科技」,轉向「尋找可立即落地的解方」。

#4 2026Meet大南方徵展
在破萬人流的展會現場,企業觀展者透過第一線交流快速比較不同解方與合作可能。
圖/ Meet創業小聚

而這也讓企業尋找解方的方式,開始改變。

過去,企業與新創及科技團隊的連結,多半依賴長期業務開發、人脈介紹,或零散的展會接觸;但在決策速度加快的情況下,企業更傾向在短時間內完成資訊比較、方案評估與初步媒合。

這也是為什麼,近年愈來愈多以「解方對接」為核心的場域開始出現。

以Meet大南方為例,2025年展會共促成352組商機媒合,較前一年成長2.7倍。在相近的展商規模下,媒合效率的提升,反映的並不只是活動熱度,而是企業需求正在快速集中。

AI已經不是重點,能不能落地才是

AI、自動化、ESG,幾乎已經成為所有產業論壇都會出現的關鍵字。

但對許多企業來說,問題早已不是「知不知道」,而是「能不能用」。

例如:
- AI能不能直接改善產線良率?
- 碳管理工具能不能真的降低營運壓力?
- 數位工具能不能解決人力不足?
- 自動化系統導入後,多久能看見效率提升?

比起概念,企業開始更在意落地性與導入成本。這也讓市場需求逐漸從「趨勢理解」,轉向更務實的「問題解決」。

比起曝光,現在的企業更在意能不能合作

在這樣的背景下,展會的角色也開始改變。

過去,展會更像品牌曝光與市場宣傳的平台;但現在,愈來愈多企業是帶著具體需求走進現場,希望在短時間內找到可以評估、比較,甚至直接進入合作討論的對象。

#0 2026Meet大南方徵展
企業需求加速浮現,也讓愈來愈多解方提供者選擇透過展會與企業直接對接。
圖/ Meet創業小聚

對解方提供者而言,這也意味著另一種市場接觸方式正在形成。

相較於傳統陌生開發,透過展會、媒合機制與現場交流活動,能在更短時間內接觸到大量潛在客戶,並快速理解區域市場的需求輪廓。

Meet大南方近年所強化的,也正是這類「高密度對接」。

除了展區展示外,現場也透過企業媒合會、投資人交流、新創社群活動等形式,增加需求方與解方之間的直接互動機會。

某種程度上,展會正在從「展示技術」,轉向「協助企業尋找答案」。

企業不是為了「看AI」而來,而是想解決缺工與效率問題

2026年Meet大南方將以「Meet Your BEST Solution」為核心主軸,並將展區重新調整為六大「解方區」,直接對應企業經營現場最常見的問題情境。

展區類別包括:
- 智慧製造與產線升級
- 數位管理與企業效率
- 醫療健康與高齡照護
- 淨零碳排與綠能永續
- 品牌轉型與跨境行銷
- 未來零售與餐飲科技

#3 2026Meet大南方徵展
為貼近企業需求,展會特別規劃六大解方展區,讓企業觀展者更有效率地找到對應解方。
圖/ Meet創業小聚

相較於以技術類型區分,這樣的方式更接近企業的思考邏輯。

企業不是為了「看AI」而來,而是為了解決效率、成本、缺工與轉型問題。而對新創與解方團隊而言,也更容易在具體場景中,被真正有需求的人看見。

南台灣缺的不是需求,而是有效的對接

從半導體供應鏈、製造業升級,到淨零與數位轉型需求快速增加,南台灣正在形成一個與過去不同的產業節奏。

這裡需要的,不再只是遙遠的科技想像,而是能真正進入工廠、辦公室與營運現場的實用工具。

#1 2026Meet大南方徵展
今年Meet大南方將於8/28、8/29在高雄展覽館舉辦。
圖/ Meet創業小聚

當企業開始加速尋找答案,市場也正在重新建立需求與解方的連結方式。

2026年8月28日至29日,Meet大南方將於高雄展覽館舉辦第6屆展會。在產業轉型持續推進的背景下,這類以解方對接為核心的場域,也逐漸成為南台灣企業與科技團隊建立連結的重要入口。

展會基本資料

2026 Meet Greater South 亞灣新創大南方
時間:8/28 (五)、8/29 (六)
地點:高雄展覽館北館
官網:https://meetgreatersouth.tw/

徵展起跑!新創享專屬免費方案
早鳥優惠至6/8,報名收件至7/3  >> 瞭解詳情

關鍵字: #創新創業

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣20
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓