AI Agent過譽了?16款LLM代理功能大PK:GPT-5達成率43%卻奪冠,為何複雜任務AI搞不定?
AI Agent過譽了?16款LLM代理功能大PK:GPT-5達成率43%卻奪冠,為何複雜任務AI搞不定?

重點一:MCP-Universe基準測試顯示,現有大型語言模型(如GPT-5)在真實企業環境下的成功率僅約四成,遠低於市場宣傳。

重點二:模型雖能遵循格式規範,但在處理動態資料、多步推理及不熟悉工具時,表現大幅下滑,暴露出多重脆弱性。

重點三:框架選擇與工具組合對AI代理效能有實質影響,僅靠提升模型規模無法解決可靠性問題。

目前市面上的各式AI代理,真的如各家AI大廠說的這麼神,甚至可以取代初階白領工作?近期的研究結果,恐怕為AI代理的任務成功率打了一個大問號。

由Salesforce AI Research主導開發的MCP-Universe基準測試,首次以連接真實伺服器、涵蓋導航、金融分析、3D設計等六大領域、共231項任務,全面檢驗16款大型語言模型(LLM)在企業應用的實戰表現,從最新的GPT-5到DeepSeek-V3都在測試之列。

測試結果顯示, 即使是最先進的 LLM(如 GPT-5、Grok-4、Claude-4.0-Sonnet),在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44% ,顯示現有模型在長上下文、多工具、跨領域等挑戰下表現有限,而其他多數模型成功率低於 20%。

以最新推出的GPT-5為例,雖在金融分析領域完成率達67.5%,在3D設計任務也超過五成(52.63%),但在導航(33.3%)與瀏覽器自動化(35.9%)等複雜多步驟任務上,失敗率反而居高不下,與宣傳中的「全能」形象形成鮮明對比。

而在特定測試項目上,Grok-4 在瀏覽器自動化(41.03%)與網頁搜尋(41.82%)具競爭力。Claude 4.0 Sonnet 則在金融(55%)表現突出;表現最佳的開源模型則為GLM-4.5(由中國AI新創Z.ai開發),任務成功率達24.68%,但與頂級商用模型仍有明顯差距。

若以效率來看,o3 完成成功任務的平均步數最少(AS 4.82),顯示較高行動效率;但整體成功率不及 GPT-5、Grok-4。

16款代理AI大PK
測試結果顯示,即使是最先進的 LLM(如 GPT-5、Grok-4、Claude-4.0-Sonnet),在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44%。
圖/ 數位時代編輯部

註1 :以上數據皆取自論文表格(Table 3、Table 4)。
註2 :AE 為平均評估器得分(Average Evaluator score),可理解成 AI 完成任務時,答對了多少要求的平均分數。分數越高,代表 AI 不只答對大方向,連細節也做得好;AS 則為成功任務的平均步數,原則上越低代表效率越高。
註3 :對於一款優秀 AI 的理想狀況是:AS 低的同時 SR 和 AE 都高,才是又快又準的好 AI。

代理AI能力仍有限,4大瓶頸有哪些?

MCP-Universe 的評測不再讓 AI 自評,而是以「執行結果」為唯一標準,分別設有格式、靜態資料、動態資料三類評估。多數模型在格式規範上表現優異,亦即 AI 必須按照題目或系統要求,輸出特定的格式、欄位、順序或資料型態。

例如,Anthropic 的 Claude-4.0 Sonnet 在格式規範的合規率接近 98%,但一旦面對需要「查詢即時股價」、「路線規劃」等動態資訊,成功率即跌至四至六成。

GPT-5 在動態任務中的表現雖領先同儕,成功率仍僅 65.9%,也就是每三次就有一次失敗。模型在多步推理、長上下文維持、與不熟悉工具互動時常出現執行錯誤。例如,在 Yahoo Finance 伺服器查詢股價時,模型經常將應填兩個不同日期的欄位填成同一天,導致任務失敗。

總結來說,AI 代理在真實應用場景下的可靠性,主要受到以下幾個關鍵瓶頸限制:

一、長上下文挑戰
隨著任務步驟增加,AI 需要記住和處理的資訊量(token 數)急速膨脹,容易導致資訊遺失、上下文溢出,進而影響推理與決策品質。

二、工具不熟悉
AI 代理常常不熟悉 MCP 伺服器或外部工具的參數、使用方式與回傳格式,容易出現操作錯誤或無法正確完成任務。

三、跨域適應困難
當任務橫跨多個領域(如地圖、財務、程式碼等),AI 代理難以靈活切換規則與知識,導致表現不穩定或失誤率上升。

四、格式與內容雙重要求
雖然多數模型能遵守格式規範,但在內容正確性(如資料查詢、推理結果)上仍有明顯落差,這也影響了可靠性。

代理AI落地仍是未竟之志

報告同時揭示,AI 代理(Agent)所採用的架構與工具組合對效能有明顯影響。例如,ReAct(由 Meta 開發的前端 JavaScript 框架)框架在多數情境下優於 Cursor Agent,僅在瀏覽器自動化等少數場景例外。而 OpenAI 自家 Agent SDK 在金融、設計領域的表現也優於通用框架。

更值得注意的是,當任務中加入無關伺服器、增加工具雜訊後,模型成功率會大幅下滑,凸顯現有 AI 在「工具協作」與「抗干擾」能力的不足。

整體而言,MCP-Universe 基準測試證實,現有大型語言模型雖在一般任務表現優異,但在真實多工具、多領域環境下仍有明顯不足。未來模型需加強四大瓶頸,才能真正落地於企業與產業場景。

>延伸閱讀:「誰說不玩了?」宏達電靠AI眼鏡拔4根漲停,VIVE Eagle如何迎戰Meta、Google?

資料來源:Salesforce AI Researchdigitalinformationworld

本文初稿為 AI 編撰,整理.編輯/ 李先泰

往下滑看下一篇文章
總統科學獎揭曉!梁賡義院士、葉均蔚院士用創新與堅持,寫下臺灣科學光輝新頁
總統科學獎揭曉!梁賡義院士、葉均蔚院士用創新與堅持,寫下臺灣科學光輝新頁

【總統科學獎】宗旨在於提升臺灣在國際學術界之地位,獎勵數理科學、生命科學、人文及社會科學、工程科學在國際學術研究上具創新性且貢獻卓著之學者,尤以對臺灣社會有重大貢獻之基礎學術研究人才為優先獎勵對象。

2025年11月11日,總統科學獎頒獎典禮於總統府正式舉行。2001年設立、每2年頒發1次的總統科學獎,今年已邁入第13屆,本屆的2位獲獎者,分別是生命科學組的院士梁賡義、工程科學組的院士葉均蔚。2位臺灣的科研泰斗,不僅全心全意投入創新,更樹立了典範,成為所有科研人員的榜樣。

總統賴清德在致詞時,引用諾貝爾和平獎得主曼德拉(Nelson Mandela)的話指出:「在事情完成之前,一切都看似不可能。這說明了2位院士的故事,他們對未知世界保持熱情、好奇,認真從基礎研究做起,並堅持努力到最後一刻,成功終將屬於他們。」

2025年總統科學獎得主,生命科學組 梁賡義 院士(右)、工程科學組 葉均蔚 院士(左)。
2025年總統科學獎得主,生命科學組 梁賡義 院士(右)、工程科學組 葉均蔚 院士(左)。
圖/ 數位時代

梁院士開創廣義估計方程式 ,加速新藥問世,造福千萬病患

從數學跨足生物統計、再投身高等教育與國家衛生的梁院士,從小就喜歡數學的嚴謹,在美國華盛頓大學攻讀博士期間,因為接觸到當時炙手可熱的「存活分析」,進而對生物統計產生興趣,「投入『生物統計』是條不歸路,因為我發現,統計工具的發展,可以對人類健康有間接幫助。」後來,他前往美國約翰霍普金斯大學任教,又與同事Scott Zeger研發出新的統計方法「廣義估計方程式」,突破了傳統分析方法必須假設所有樣本獨立的侷限,讓長期追蹤資料的解讀更嚴謹,也成為全球健康研究不可或缺的工具。

梁院士研究做得出色,卻不只將心力擺在學術上,他更心心念念著臺灣的發展,持續關心高等教育、國家衛生等領域。他在美國任教的28年間,幾乎年年暑假,都返國舉辦研討會,分享國際生物統計和流行病學的新知。2010年,他乾脆辭去教職,回臺擔任國立陽明大學校長,將陽明大學打造成醫學、人文並重的全人大學。

數位時代
賴總統親自頒發「2025年總統科學獎」殊榮予梁院士。
圖/ 數位時代

2017年,他又接下國家衛生研究院院長一職,並在新冠肺炎爆發期間,擔任中央流行疫情指揮中心研發組組長,與阿斯特捷利康(AstraZeneca)簽約,採購1千萬劑疫苗,完成防疫任務,「所以獲得總統科學獎,不僅是個人的榮耀,更是國家對全人教育的推動、公共衛生實踐,以及任務導向的研究重要性的肯定。能在其中有一些貢獻,我深感榮幸。」

高熵合金之父葉院士,堅持不懈打破材料學定律

被譽為「高熵合金之父」的葉院士,打破材料學界以1~2種主元素為基底的傳統,開創出能讓數十種元素混合的「高熵合金」,為元素週期表注入嶄新生命力,在半導體、智慧機械、綠能科技、國防與生醫等領域帶來突破性的應用。過去合金多以單一金屬為主,再加入少量元素微調性質,金屬種類愈多反而愈脆、延展性與硬度下降,使應用受限;然而高熵合金卻反其道而行,以4、5種以上金屬融合,展現出更佳的延展性、耐腐蝕性與硬度,重新定義合金的可能性。

令人驚訝的是,30年前葉院士提出高熵合金構想時,曾被質疑「觀念錯誤、毫無可能」。他不畏質疑,透過紮實的實驗與論證,於2004年一口氣發表5篇高熵材料論文,為高熵合金命名、定義並奠定理論基礎,後續更平均每年發表逾10篇研究,提出高熵效應、嚴重晶格扭曲效應、緩慢擴散效應與雞尾酒效應等核心概念,開創全新的材料科學典範。

數位時代
賴總統親自頒發「2025年總統科學獎」殊榮予葉院士。
圖/ 數位時代

如今,高熵合金不只在學界掀起熱潮,更成功落地產業。「學以致用非常重要!」葉院士強調,學術研究不該停留在象牙塔,而應投入產業、協助解決關鍵瓶頸。他不僅與國立清華大學共同成立「高熵材料研發中心」,也創辦全球首家高熵材料公司,推動技術轉移與產業升級,讓高熵合金真正走向世界舞臺。

所有總統科學獎得獎人的科學成就及重要貢獻,不僅提升臺灣學術聲譽及國際競爭力,對於增進人類生活福祉更有深遠的影響,實為臺灣學術界的最高典範。而本屆梁院士、葉院士2位得獎人終身投入科學探索、人才培育的成果,嘉惠了整個社會,更成就跨世代的深遠影響,為臺灣科學寫下光輝一頁。

【總統科學獎委員會 廣告】

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓