《超級瑪利歐》成AI模型測試戰場,為何善於「推理」的模型反而在遊戲碰壁?
《超級瑪利歐》成AI模型測試戰場,為何善於「推理」的模型反而在遊戲碰壁?
2025.03.07 | 區塊鏈
發生什麼事?
  • 研究人員使用遊戲《超級瑪利歐》作為參考,對Claude 3.7、Google Gemini 1.5 Pro等AI模型進行評估測試。

  • 研究發現,Anthropic的Claude 3.7表現上超越GPT-4o和Gemini 1.5 Pro等模型。原因是在需要快速反應的遊戲情境下,擁有複雜推理能力的模型,反而因為處理時間較長,而無法順利通過關卡。

超級瑪利歐成為AI模型測試戰場

經典遊戲超級瑪利歐(Super Mario Bros.),如今不僅是無數玩家的童年回憶,它也成為了AI模型測試的新戰場。

隸屬加州大學聖地牙哥分校旗下的研究單位Hao AI Lab,近期以這款遊戲為測試平台,對多種AI模型的反應速度、決策能力進行評估。最終結果顯示,不同模型在即時反應及處理複雜情境上,具有極大差異,其中Claude 3.7在所有模型中脫穎而出,表現遠勝於其他競爭者。

Hao AI Lab開發了一個名為「GamingAgent」的框架,讓AI在遊戲中控制角色。該框架可讓AI擁有基本的遊戲能力,例如在過程中閃避障礙物、敵人等。而根據結果,Claude 3.7無論是在反應時間還是決策的靈活度上,都優於Google的Gemini 1.5 Pro與OpenAI的GPT-4o。

「推理模型」反而在遊戲中吃虧?

令人意外的是,OpenAI的GPT-4o或是Google的Gemini 1.5 Pro,這些模型在許多測試中表現都相當優異,但它們卻在需要即時反應遊戲環境中碰壁。研究人員分析,這些模型的問題,就在於其推理過程相對複雜,決策需要一定的時間來進行思考和計算。

但在快速變化的遊戲環境中,一秒鐘的猶豫,就會讓玩家碰上敵人或被障礙打到,因此,需要深度推理的模型,反而在「反應速度」上的居於劣勢。

相反地,Hao AI Lab發現一些不依賴深度推理過程的模型,反而表現更加靈活,且能迅速做出反應,有效應對遊戲中的挑戰。這個實驗結果也讓人開始思考,在遊戲開發、機器人技術還有自動化技術的情境中,AI技術未來是否需要進一步做出調整。

《TechCrunch》指出,遊戲其實被用來當作AI測試的標準,已經有幾十年歷史,但仍有一些專家質疑,用AI在遊戲中的表現來評比模型是否合理,畢竟遊戲與現實世界相比,缺少解決複雜問題和應對多變情況的情境。

儘管AI在遊戲中表現越來越好,但外媒認為在遊戲中表現最讓人驚豔的,目前只有人類玩家。人類在複雜的遊戲場景中,展現出極高的適應能力和創造力,這是AI目前無法完全複製的。

本文授權轉自Web3+,作者為李朋叡

往下滑看下一篇文章
從台流轉型到跨界共創,2025亞洲新媒體高峰會以「RESILIENCE:韌性 · 突圍」驅動產業續航
從台流轉型到跨界共創,2025亞洲新媒體高峰會以「RESILIENCE:韌性 · 突圍」驅動產業續航

全球影視娛樂正處在結構翻轉的臨界點。從串流平台的競合與權力再分配,到生成式AI引爆的創作革命,再到觀眾注意力被碎片化的內容浪潮瓜分,市場規則幾乎在一年之內重寫。

在這樣的動盪中,「如何永續成長」成為所有內容產業的共同焦慮。台灣擁有豐沛的創作能量,卻在規模化與國際化的路上,始終面臨結構性瓶頸。為了回應時代考驗,NMEA(新媒體暨影視音發展協會)以「RESILIENCE:韌性 · 突圍」為題,將於11月24日至25日舉行2025亞洲新媒體高峰會,邀請超過五十位國內外產業領袖對話,從組織、內容、技術與商業模式出發,探討如何讓台灣影視娛樂在不確定中,創造屬於自己的續航動能。

韌性,從衝擊中找到成長的可能

「Resilience」一詞原本源自工程學,指材料在受壓後能回彈的能力。NMEA理事長李芃君指出,當這個詞被用於產業時,它所代表的已不只是「抗壓」,而是「擁抱變化與永續成長」的能力——在巨變中快速重組關鍵資源、甚至藉由創新找到新的突破。

她觀察,全球產業變動的背後,主要受到三股力道的衝擊:地緣政治的風險、科技典範的轉移,以及氣候與疫情等帶來的自然挑戰。這些因素同樣影響著台灣文化內容產業。

以台灣一家全球背光模組大廠為例。近年隨著國際電子品牌紛紛在筆電與平板產品導入OLED顯示技術,傳統背光模組市場面臨挑戰;該企業在察覺趨勢轉向後,選擇主動調整策略,透過併購前沿技術快速推出新產品,切入車用、醫療與AR/VR顯示等新領域。李芃君指出,這樣的轉向即是韌性的展現——在技術更迭的浪潮中重新定位自己,讓企業從被動防守,轉為開創下一波成長曲線。

「這種思維放回影視娛樂也一樣。當市場被新技術和新平台顛覆,產業若仍困於單一市場、單一資金、單一合作關係,就難以應對下一次衝擊。」她強調,建立韌性不能停留在抽象的口號,必須要有具體行動,而關鍵就在「多角化」。

多角化的市場讓故事能走出台灣、觸及不同文化的觀眾;多角化的技術與人才,讓製作不再受限於傳統框架;而多角化的資金與夥伴結構,則能減少對補助與單一委製案的依賴,形成正向循環的產業體質。諸如日本《鬼滅之刃》透過IP延伸創造跨世代效應,或泰國在政府策略支持與國際平台Netflix合作,讓在地內容走向全球,都是多角化的案例。

高峰會四大主軸,挖掘韌性的潛力

「政策當然重要,但最終能否長出韌性,關鍵仍在產業本身的自覺與行動力。」李芃君表示,第七屆亞洲新媒體高峰會以「台流轉型、跨界共創、影視創新、商模躍進」四大主軸為核心,期望讓韌性不再停留於口號,而能轉化為具體實踐。不只是思考「如何生存」,更要推動產業主動探索「如何成長」。

在「台流轉型」議題中,論壇將從亞洲娛樂的整體格局出發,思考台灣內容如何在國際市場中建立辨識度與合作機制。面對串流平台競爭與區域內容崛起,產業要重新定義「台流」的價值,從單點創作走向跨國布局。

「跨界共創」則從電競、音樂、體育到AI應用,剖析影視娛樂如何走向一個多層次的體驗場域。透過多個實際案例,探討不同產業之間的協作經驗,助攻內容突破原有框架,創造新的商業能量。

「影視創新」主軸聚焦於新技術與內容形式的融合。如:短劇風潮、現象級作品及AI生成式內容等,正改變影視產業的創作邏輯。論壇將聚焦技術如何成為創意夥伴,推動人才與內容的再進化。

最後,「商模躍進」則回應內容永續與變現挑戰。當觀眾行為與平台策略不斷重組,內容不再只是作品,也是可延伸、可轉化的商業資產。論壇將引導產業思考,如何讓內容價值在不同階段持續發酵,打造可長可久的生態循環。

李芃君強調,高峰會的價值,在於讓這些不同維度的討論彼此交會;唯有當創作、技術與資本願意對話,產業的韌性才能真正落地。「我們希望產業能從危機思維轉向成長思維,在對話與合作中,激盪出新的想像與行動。」

韌性,新媒體暨影視音產業必備的DNA

自2017年成立以來,NMEA持續扮演政策倡議與產業整合的推動者。每一屆高峰會也都對應時代命題,映照產業進化軌跡。從2023年「EMPOWERING」的全面賦能、2024年「CONSOLIDATION」的整合共榮,到今年的「RESILIENCE」發揮韌性、尋求突圍,李芃君形容,這是一條從能力啟動、資源整合到體質調整的路徑,引領台灣影視娛樂邁向國際舞台。

NMEA
NMEA理監事集結產業代表,共思壯大台灣內容產業之道。
圖/ NMEA

她指出,高峰會結束後,NMEA也將以工作坊與共創計畫延續對話熱度,讓產業交流落地為實際行動。協會也積極拓展跨域合作,從企業交流、IP授權推動到媒體合作,串聯更多產業能量。

值得注意的是,自2022年起,高峰會同步啟動線上直播,三年累計已吸引超過20萬名觀眾參與,單屆觀看更突破8.1萬人次。李芃君認為,這不僅是數據表現,更代表台灣影視產業逐漸建立國際話語權。當產業以開放與創新的態度前行,才能在全球文化浪潮中,站上屬於台灣的舞台。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓