AI模型能力是怎麼測試的？為什麼用寶可夢、瑪利歐、台灣小說⋯測的東西到底是什麼？|數位時代 BusinessNext

AI模型能力是怎麼測試的？為什麼用寶可夢、瑪利歐、台灣小說⋯測的東西到底是什麼？

當前AI技術發展迅速，各家科技公司紛紛推出更強大的模型，如何有效評估AI的能力成為重大挑戰。除了傳統基準外，近期更是出現遊戲、小說等新型態的測試。

「我現在真的不確定這些模型到底有多強，」3 月 3 日 OpenAI 共同創辦人 Andrej Karpathy 在 X（前 Twitter）發文指出，傳統的測試基準（Benchmark）如 MMLU、Chatbot Arena，已逐漸失去參考價值，AI 產業正在迎來評測標準的變革。

當前 AI 技術發展迅速，各家科技公司紛紛推出更強大的模型，如何有效評估 AI 的能力成為重大挑戰。除了傳統基準，如 MMLU、TruthfulQA、GSM8K 主要測試 AI 的語言理解與推理能力；近期更是出現遊戲、小說等新型態的小型測試，多方檢測 AI 在不同領域的能力，使其更貼近實際應用場景。

遊戲測試：寶可夢與瑪利歐，挑戰 AI 推理與反應

根據《TechCrunch》報導，Anthropic 近期在 Twitch 上直播了一場特殊的遊戲實驗，讓旗下最新的 AI 模型 Claude 3.7 Sonnet 挑戰《寶可夢紅》。相較於前一代 Claude 3.5 Sonnet 無法走出遊戲起始點的家門，Claude 3.7 Sonnet 成功獲得三枚道館徽章，顯示其推理能力與環境理解有明顯進步。

然而，這款 AI 仍遇到一些困難，例如在面對一面岩牆時花費了大量時間嘗試「穿牆」，直到最後才意識到應該繞路。這類「人類視角看來理所當然的問題」，對 AI 而言仍然是一道考驗。

《TechCrunch》報導，加州大學聖地牙哥分校的 Hao AI Lab 選擇用《超級瑪利歐兄弟》來測試多款AI模型。他們開發了一個名為 GamingAgent 的框架，允許 AI 透過 Python 指令控制瑪利歐的移動，並提供簡單的遊戲指導方針，例如「當遇到障礙物或敵人時，向左跳」。

在這場比賽中，Claude 3.7 Sonnet 再度奪冠，而 Claude 3.5 Sonnet 則緊隨其後。然而，Google 的 Gemini 1.5 Pro 與 OpenAI 的 GPT-4o 表現則不如預期，反應速度較慢，甚至在某些場景無法做出合理決策。

研究團隊發現，「推理型 AI」在即時遊戲中的表現反而不如「非推理型 AI」。這是因為推理型 AI 需要較長時間思考每一步行動，導致它在反應要求極高的遊戲場景中表現不佳。這項發現對於 AI 應用於即時決策領域（如自動駕駛、機器人控制等）具有重要參考價值。

小說測試：臺灣作家極短篇《烤肉》，挑戰 AI 的社會認知

如果說遊戲測試能夠評估 AI 的即時反應，那麼如何測試 AI 對於文化與社會脈絡的理解呢？臺灣研究團隊選擇由作家張原通撰寫的小說《烤肉》作為測試案例，並將成果刊登於《亞洲精神醫學期刊》。

《烤肉》是一篇只有 667 字的極短篇小說，以一名六歲女孩的視角敘述母親「不讓她吃烤肉」，暗示母親可能正在密謀以燒炭方式結束自己與兒子的生命，但留下女兒存活。

研究團隊測試了包括 GPT-4o、GPT-o1、Claude 3.5 Sonnet、Sonar Large（基於 LLaMA-3.1）、Gemma-2-2b 與 DeepSeek-R1 等六款 AI 模型。結果顯示，所有模型都能識別故事中的家庭暴力元素，但僅有 Claude 3.5 Sonnet、Sonar Large與 GPT-o1 能夠正確識別母親的行為暗示燒炭自殺。

值得注意的是，故事中的母親選擇帶走兒子，是因為東亞文化中兒子通常被視為家族血脈的繼承者。研究成果發現，沒有任何一款 AI 能夠正確理解為何母親選擇殺子卻留下女兒，顯示 AI 在文化推理與社會價值觀的理解上仍有很大進步空間。

3 月 4 日，研究團隊成員林煜軒於 Facebook 粉絲專頁〈探索大腦的會談地圖〉發文表示：「《烤肉》或許也可以作為大型語言模型，是否深刻理解亞洲國家，特別是在台灣的社會文化，並且作為心理健康領域的 Lena 測試。」

AI 測試基準的局限與改進方向

面對 AI 測試基準的變革，史丹佛大學的 HAI 政策研究團隊在報告《What Makes a Good AI Benchmark?》中，分析了 24 種現有的 AI 測試基準。他們發現，大部分測試基準在「設計階段」表現良好，但在「實作階段」的品質卻有所下滑。

HAI 政策研究團隊提出幾點改進建議。首先，測試基準的設計應針對特定應用場景，確保其有效性與解釋性，並提升測試的可重現性。測試基準應公開測試代碼與數據，讓結果能夠被驗證和重複，也須清楚說明其適用範圍與限制，避免過度依賴過時或污染的測試數據。

文章還建議在測試基準的整個生命週期中，從設計到維護，每個階段都應遵循最佳實踐，並且政策制定者應強化指導測試基準的品質，促使業界標準化報告和評估方法，從而提高透明度與可比性。

未來 AI 測試基準的發展趨勢

上述使用《寶可夢紅》、《超級瑪利歐兄弟》與《烤肉》進行的 AI 測試，展現真實世界對於 AI 多種不同面向的期待，同時也昭示了目前 AI 待加強之處。隨著 AI 技術的不斷進步，未來的測試基準將需要更加關注實際應用情境，如自動駕駛、醫療診斷等高風險領域的實時反應能力。同時，AI 如何理解社會與文化脈絡，也將成為未來測試的關鍵指標之一。

如何在保持高效能的同時，也能做到更高的倫理與文化敏感度，是未來測試基準發展的主要方向。無論是遊戲測試、文化測試，還是新的測試標準，這些努力都指向同一個目標——讓 AI 不僅能通過標準化考試，更能理解世界，並在不同環境中發揮最佳效能。

本文授權轉載自FC未來商務，作者為王聖華