AI模型能力是怎麼測試的?為什麼用寶可夢、瑪利歐、台灣小說⋯測的東西到底是什麼?
AI模型能力是怎麼測試的?為什麼用寶可夢、瑪利歐、台灣小說⋯測的東西到底是什麼?

「我現在真的不確定這些模型到底有多強,」3 月 3 日 OpenAI 共同創辦人 Andrej Karpathy 在 X(前 Twitter)發文指出,傳統的測試基準(Benchmark)如 MMLU、Chatbot Arena,已逐漸失去參考價值,AI 產業正在迎來評測標準的變革。

當前 AI 技術發展迅速,各家科技公司紛紛推出更強大的模型,如何有效評估 AI 的能力成為重大挑戰。除了傳統基準,如 MMLU、TruthfulQA、GSM8K 主要測試 AI 的語言理解與推理能力;近期更是出現遊戲、小說等新型態的小型測試,多方檢測 AI 在不同領域的能力,使其更貼近實際應用場景。

遊戲測試:寶可夢與瑪利歐,挑戰 AI 推理與反應

根據《TechCrunch》報導,Anthropic 近期在 Twitch 上直播了一場特殊的遊戲實驗,讓旗下最新的 AI 模型 Claude 3.7 Sonnet 挑戰《寶可夢紅》。相較於前一代 Claude 3.5 Sonnet 無法走出遊戲起始點的家門,Claude 3.7 Sonnet 成功獲得三枚道館徽章,顯示其推理能力與環境理解有明顯進步。

然而,這款 AI 仍遇到一些困難,例如在面對一面岩牆時花費了大量時間嘗試「穿牆」,直到最後才意識到應該繞路。這類「人類視角看來理所當然的問題」,對 AI 而言仍然是一道考驗。

《TechCrunch》報導,加州大學聖地牙哥分校的 Hao AI Lab 選擇用《超級瑪利歐兄弟》來測試多款AI模型。他們開發了一個名為 GamingAgent 的框架,允許 AI 透過 Python 指令控制瑪利歐的移動,並提供簡單的遊戲指導方針,例如「當遇到障礙物或敵人時,向左跳」。

在這場比賽中,Claude 3.7 Sonnet 再度奪冠,而 Claude 3.5 Sonnet 則緊隨其後。然而,Google 的 Gemini 1.5 Pro 與 OpenAI 的 GPT-4o 表現則不如預期,反應速度較慢,甚至在某些場景無法做出合理決策。

研究團隊發現,「推理型 AI」在即時遊戲中的表現反而不如「非推理型 AI」。這是因為推理型 AI 需要較長時間思考每一步行動,導致它在反應要求極高的遊戲場景中表現不佳。這項發現對於 AI 應用於即時決策領域(如自動駕駛、機器人控制等)具有重要參考價值。

小說測試:臺灣作家極短篇《烤肉》,挑戰 AI 的社會認知

如果說遊戲測試能夠評估 AI 的即時反應,那麼如何測試 AI 對於文化與社會脈絡的理解呢?臺灣研究團隊選擇由作家張原通撰寫的小說《烤肉》作為測試案例,並將成果刊登於《亞洲精神醫學期刊》。

《烤肉》是一篇只有 667 字的極短篇小說,以一名六歲女孩的視角敘述母親「不讓她吃烤肉」,暗示母親可能正在密謀以燒炭方式結束自己與兒子的生命,但留下女兒存活。

研究團隊測試了包括 GPT-4o、GPT-o1、Claude 3.5 Sonnet、Sonar Large(基於 LLaMA-3.1)、Gemma-2-2b 與 DeepSeek-R1 等六款 AI 模型。結果顯示,所有模型都能識別故事中的家庭暴力元素,但僅有 Claude 3.5 Sonnet、Sonar Large與 GPT-o1 能夠正確識別母親的行為暗示燒炭自殺。

值得注意的是,故事中的母親選擇帶走兒子,是因為東亞文化中兒子通常被視為家族血脈的繼承者。研究成果發現,沒有任何一款 AI 能夠正確理解為何母親選擇殺子卻留下女兒,顯示 AI 在文化推理與社會價值觀的理解上仍有很大進步空間。

3 月 4 日,研究團隊成員林煜軒於 Facebook 粉絲專頁〈探索大腦的會談地圖〉發文表示:「《烤肉》或許也可以作為大型語言模型,是否深刻理解亞洲國家,特別是在台灣的社會文化,並且作為心理健康領域的 Lena 測試。」

AI 測試基準的局限與改進方向

面對 AI 測試基準的變革,史丹佛大學的 HAI 政策研究團隊在報告《What Makes a Good AI Benchmark?》中,分析了 24 種現有的 AI 測試基準。他們發現,大部分測試基準在「設計階段」表現良好,但在「實作階段」的品質卻有所下滑。

HAI 政策研究團隊提出幾點改進建議。首先,測試基準的設計應針對特定應用場景,確保其有效性與解釋性,並提升測試的可重現性。測試基準應公開測試代碼與數據,讓結果能夠被驗證和重複,也須清楚說明其適用範圍與限制,避免過度依賴過時或污染的測試數據。

文章還建議在測試基準的整個生命週期中,從設計到維護,每個階段都應遵循最佳實踐,並且政策制定者應強化指導測試基準的品質,促使業界標準化報告和評估方法,從而提高透明度與可比性。

未來 AI 測試基準的發展趨勢

上述使用《寶可夢紅》、《超級瑪利歐兄弟》與《烤肉》進行的 AI 測試,展現真實世界對於 AI 多種不同面向的期待,同時也昭示了目前 AI 待加強之處。隨著 AI 技術的不斷進步,未來的測試基準將需要更加關注實際應用情境,如自動駕駛、醫療診斷等高風險領域的實時反應能力。同時,AI 如何理解社會與文化脈絡,也將成為未來測試的關鍵指標之一。

如何在保持高效能的同時,也能做到更高的倫理與文化敏感度,是未來測試基準發展的主要方向。無論是遊戲測試、文化測試,還是新的測試標準,這些努力都指向同一個目標——讓 AI 不僅能通過標準化考試,更能理解世界,並在不同環境中發揮最佳效能。

本文授權轉載自FC未來商務,作者為王聖華

往下滑看下一篇文章
從「破浪者」到「心理韌性」的生存:新北市政府青年局以AI為題,帶領青年鍛鍊面對未知的勇氣
從「破浪者」到「心理韌性」的生存:新北市政府青年局以AI為題,帶領青年鍛鍊面對未知的勇氣

生成式 AI 掀起的浪潮,正在重塑全球職場規則。當自動化與智慧工具成為日常,企業對人才的期待也正快速轉變,不只要會用AI更要能與AI協作。新北市政府青年局看見了這股正在變化的趨勢,將「AI」視為青年職涯培力的核心議題,從課程設計到論壇活動全面升級。近期,更辦理「AI破浪者論壇」,邀集產業專家帶領青年從 AI 工具應用到心理韌性心法,全面探索 AI 時代的職涯解方,希望能陪伴青年不僅追上技術,更在快速變動的時代中培養學習力與行動力,學會駕馭浪潮而非被浪潮推著走。

從教育補位到心態進化,新北市政府青年局的AI世代行動課

「我們要做的就是補上教育與職場之間的缺口,」新北市政府青年局局長邱兆梅指出。她表示,新北市政府青年局雖僅成立3年,但始終以「接軌社會、接軌職場、接軌市場」為核心任務,不只是從開設課程賦能青年,更要讓青年加快速度以多樣化的姿態進入場景實戰,而「新北有課 UKO」正是這個「接軌職場」的實踐平台。

邱兆梅局長說,它是專為 18 至 40 歲青年而打造設計,串連了培力課程、職涯諮詢與實習體驗的完整職涯成長路徑,希望成為新北青年的「實戰培力基地」。因此,從AI 工具應用、數據分析到自媒體行銷,課程設計結合專案實作與專業證照,如NVIDIA DLI AI深度學習課程等,讓學習成果能直接成為履歷亮點。邱兆梅局長認為,青年需要的不只有學習知識,而是「能立即上場的實戰力」。「學校教的是知識,但我們希望青年學會行動、會嘗試,跌倒之後也能有再站起來的韌性。」這樣的精神,也成為今年「AI破浪者論壇」設計的出發點。

相較過去曾以「藝術變現」為主題,今年的新北市政府青年論壇轉向時下最熱的 AI話題,是順應趨勢,更是教育思維的延伸。「AI讓未來變得更快、更不確定。」邱兆梅局長深刻描繪了時代的變革,「在我父母親的年代,職涯像是在爬樓梯,大家都有明確的路徑。但現在年輕人面對的世界不要說樓梯,連堅固的地板都不見了。」

她坦言,現在的職涯模式更像是「衝浪」充滿高度未知性,也因此,AI 帶來的不僅是技術挑戰,更是心理挑戰。許多青年面對變化感到焦慮,擔心被取代或落後。於是,今年論壇特別以「上半場談技術、下半場談心理」的設計,將生成式 AI 的應用學習與心理韌性課題並列。

DSC01039.jpg
邱兆梅局長強調「我們要教的不只是技能,更是面對未知的能力。」
圖/ 新北市政府青年局

從技術到人性:AI時代青年行動力的三種樣貌

在論壇現場,來自不同領域的三位講者從各別角度,展現出對AI時代下青年可能的行動路徑的不同洞察與分析。

在AI實務應用的層面上,AI 創作者林上哲與 FansNetwork AI 分身平台創辦人李婷婷兩位講者皆指出,「協作」與「標準化」是進入AI時代的關鍵。李婷婷認為,與AI互動的能力就像訓練一位國中生,指令越明確、語境越精準,AI的回應品質就越高。她強調,唯有長時間餵養資料、反覆調整,AI才能成為真正理解使用者的工作夥伴。而林上哲則從企業角度指出,AI自動化若無法落地,多半是因為組織缺乏標準流程。唯有先完成SOP與工作鏈結的明確定義,AI串接與任務優化才有基礎可循。

DSC01106.jpg
AI 創作者林上哲在論壇中分享:AI 要真正落地,關鍵不在技術,而在組織能否建立明確的標準流程與工作鏈結。
圖/ 新北市政府青年局

至於在企業導入 AI 的實務層面上,DataDecision.ai 人工智慧科學家尹相志指出,大型語言模型(LLM)的最大挑戰在於「不可控」。AI 無法產生完全一致的答案,對企業而言意味著風險與難以驗證的結果,因此實際上線的多為 AI 所生成、可被測試的程式,而非 LLM 本體。他進一步提醒,AI 並非萬能代理(Agent),真正的關鍵在於理解每個工具的能力邊界,並以「工作流」的概念設計系統,讓人類的品質管理與決策判斷成為 AI 發揮效能的保障。

在面對 AI 時代的個人修煉上,三位講者不約而同指出,真正的競爭力仍來自「人性深度」。尹相志提醒青年,要勇於挑戰超越自身能力的目標,因為這是機器無法模仿的勇氣與創造力;林上哲則強調閱讀與專注的重要,他認為在速食資訊的時代,願意深入思考、專注於單一主題的人,才具備「匠人精神」。李婷婷則以自身經驗呼應此觀點,指出與 AI 協作需要長期投入與耐心反覆調整。當你真正開始讓AI回覆訊息、處理日常事務時,才會發現需要調整與優化的地方,才能學習如何把腦中的 SOP 清楚轉達給它。唯有經過不斷試錯與磨練,AI 才能真正為你代勞並成為人類創意的延伸。

三位講者的分享,體現了青年局設計這場論壇的初衷:AI不只是技術趨勢,更是場人與心智的革命。從自學者、創業者到產業實踐者,這群「破浪者」讓人看見AI時代下多元的成長路徑:學習力、行動力與韌性。

DSC01384.jpg
FansNetwork AI 分身平台創辦人李婷婷指出:AI 就像一位需要引導的學習者。唯有持續餵養資料、反覆對話,AI 才能真正理解你的思考。
圖/ 新北市政府青年局

在AI解放之後,重新定義「人」的價值

邱兆梅局長分享,AI 的普及正迫使人重新思考「人」的價值。她認為,科技的進步本質上是一種解放,AI 取代的不是人,而是那 90% 重複、機械、缺乏意義的工作,讓人有機會回到核心問題:「什麼才是人類的獨特性與貢獻?」

「當這些被AI取代的事都被解放後,我們就該探索人能為這個世界帶來什麼?」她說,而那才是人類真正的價值。邱兆梅局長鼓勵所有「AI破浪者」們,要誠實地面對跌倒與挫折,並專注在那 10% 無法被取代的價值上,因為那才是青年在這個時代中最關鍵的競爭力。「現在值得敬佩的,不是一路順利的人,而是一直跌倒還能再站起來的人。」她強調,「新北有課 UKO」不僅幫助青年學會寫履歷,更陪伴他們走進產業現場,從技能到心態提供完整支持。最終,能真正駕馭浪潮的,不是掌握多少技術的人,而是那顆願意持續學習、面對挑戰、勇敢破浪的心。

[由就業安定基金補助廣告]

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓