發生什麼事?
研究人員使用遊戲《超級瑪利歐》作為參考,對Claude 3.7、Google Gemini 1.5 Pro等AI模型進行評估測試。
研究發現,Anthropic的Claude 3.7表現上超越GPT-4o和Gemini 1.5 Pro等模型。原因是在需要快速反應的遊戲情境下,擁有複雜推理能力的模型,反而因為處理時間較長,而無法順利通過關卡。
超級瑪利歐成為AI模型測試戰場
經典遊戲超級瑪利歐(Super Mario Bros.),如今不僅是無數玩家的童年回憶,它也成為了AI模型測試的新戰場。
隸屬加州大學聖地牙哥分校旗下的研究單位Hao AI Lab,近期以這款遊戲為測試平台,對多種AI模型的反應速度、決策能力進行評估。最終結果顯示,不同模型在即時反應及處理複雜情境上,具有極大差異,其中Claude 3.7在所有模型中脫穎而出,表現遠勝於其他競爭者。
Hao AI Lab開發了一個名為「GamingAgent」的框架,讓AI在遊戲中控制角色。該框架可讓AI擁有基本的遊戲能力,例如在過程中閃避障礙物、敵人等。而根據結果,Claude 3.7無論是在反應時間還是決策的靈活度上,都優於Google的Gemini 1.5 Pro與OpenAI的GPT-4o。
「推理模型」反而在遊戲中吃虧?
令人意外的是,OpenAI的GPT-4o或是Google的Gemini 1.5 Pro,這些模型在許多測試中表現都相當優異,但它們卻在需要即時反應遊戲環境中碰壁。研究人員分析,這些模型的問題,就在於其推理過程相對複雜,決策需要一定的時間來進行思考和計算。
但在快速變化的遊戲環境中,一秒鐘的猶豫,就會讓玩家碰上敵人或被障礙打到,因此,需要深度推理的模型,反而在「反應速度」上的居於劣勢。
相反地,Hao AI Lab發現一些不依賴深度推理過程的模型,反而表現更加靈活,且能迅速做出反應,有效應對遊戲中的挑戰。這個實驗結果也讓人開始思考,在遊戲開發、機器人技術還有自動化技術的情境中,AI技術未來是否需要進一步做出調整。
《TechCrunch》指出,遊戲其實被用來當作AI測試的標準,已經有幾十年歷史,但仍有一些專家質疑,用AI在遊戲中的表現來評比模型是否合理,畢竟遊戲與現實世界相比,缺少解決複雜問題和應對多變情況的情境。
儘管AI在遊戲中表現越來越好,但外媒認為在遊戲中表現最讓人驚豔的,目前只有人類玩家。人類在複雜的遊戲場景中,展現出極高的適應能力和創造力,這是AI目前無法完全複製的。
本文授權轉自Web3+,作者為李朋叡