AI Agent過譽了?16款LLM代理功能大PK:GPT-5達成率43%卻奪冠,為何複雜任務AI搞不定?
AI Agent過譽了?16款LLM代理功能大PK:GPT-5達成率43%卻奪冠,為何複雜任務AI搞不定?

重點一:MCP-Universe基準測試顯示,現有大型語言模型(如GPT-5)在真實企業環境下的成功率僅約四成,遠低於市場宣傳。

重點二:模型雖能遵循格式規範,但在處理動態資料、多步推理及不熟悉工具時,表現大幅下滑,暴露出多重脆弱性。

重點三:框架選擇與工具組合對AI代理效能有實質影響,僅靠提升模型規模無法解決可靠性問題。

目前市面上的各式AI代理,真的如各家AI大廠說的這麼神,甚至可以取代初階白領工作?近期的研究結果,恐怕為AI代理的任務成功率打了一個大問號。

由Salesforce AI Research主導開發的MCP-Universe基準測試,首次以連接真實伺服器、涵蓋導航、金融分析、3D設計等六大領域、共231項任務,全面檢驗16款大型語言模型(LLM)在企業應用的實戰表現,從最新的GPT-5到DeepSeek-V3都在測試之列。

測試結果顯示, 即使是最先進的 LLM(如 GPT-5、Grok-4、Claude-4.0-Sonnet),在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44% ,顯示現有模型在長上下文、多工具、跨領域等挑戰下表現有限,而其他多數模型成功率低於 20%。

以最新推出的GPT-5為例,雖在金融分析領域完成率達67.5%,在3D設計任務也超過五成(52.63%),但在導航(33.3%)與瀏覽器自動化(35.9%)等複雜多步驟任務上,失敗率反而居高不下,與宣傳中的「全能」形象形成鮮明對比。

而在特定測試項目上,Grok-4 在瀏覽器自動化(41.03%)與網頁搜尋(41.82%)具競爭力。Claude 4.0 Sonnet 則在金融(55%)表現突出;表現最佳的開源模型則為GLM-4.5(由中國AI新創Z.ai開發),任務成功率達24.68%,但與頂級商用模型仍有明顯差距。

若以效率來看,o3 完成成功任務的平均步數最少(AS 4.82),顯示較高行動效率;但整體成功率不及 GPT-5、Grok-4。

16款代理AI大PK
測試結果顯示,即使是最先進的 LLM(如 GPT-5、Grok-4、Claude-4.0-Sonnet),在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44%。
圖/ 數位時代編輯部

註1 :以上數據皆取自論文表格(Table 3、Table 4)。
註2 :AE 為平均評估器得分(Average Evaluator score),可理解成 AI 完成任務時,答對了多少要求的平均分數。分數越高,代表 AI 不只答對大方向,連細節也做得好;AS 則為成功任務的平均步數,原則上越低代表效率越高。
註3 :對於一款優秀 AI 的理想狀況是:AS 低的同時 SR 和 AE 都高,才是又快又準的好 AI。

代理AI能力仍有限,4大瓶頸有哪些?

MCP-Universe 的評測不再讓 AI 自評,而是以「執行結果」為唯一標準,分別設有格式、靜態資料、動態資料三類評估。多數模型在格式規範上表現優異,亦即 AI 必須按照題目或系統要求,輸出特定的格式、欄位、順序或資料型態。

例如,Anthropic 的 Claude-4.0 Sonnet 在格式規範的合規率接近 98%,但一旦面對需要「查詢即時股價」、「路線規劃」等動態資訊,成功率即跌至四至六成。

GPT-5 在動態任務中的表現雖領先同儕,成功率仍僅 65.9%,也就是每三次就有一次失敗。模型在多步推理、長上下文維持、與不熟悉工具互動時常出現執行錯誤。例如,在 Yahoo Finance 伺服器查詢股價時,模型經常將應填兩個不同日期的欄位填成同一天,導致任務失敗。

總結來說,AI 代理在真實應用場景下的可靠性,主要受到以下幾個關鍵瓶頸限制:

一、長上下文挑戰
隨著任務步驟增加,AI 需要記住和處理的資訊量(token 數)急速膨脹,容易導致資訊遺失、上下文溢出,進而影響推理與決策品質。

二、工具不熟悉
AI 代理常常不熟悉 MCP 伺服器或外部工具的參數、使用方式與回傳格式,容易出現操作錯誤或無法正確完成任務。

三、跨域適應困難
當任務橫跨多個領域(如地圖、財務、程式碼等),AI 代理難以靈活切換規則與知識,導致表現不穩定或失誤率上升。

四、格式與內容雙重要求
雖然多數模型能遵守格式規範,但在內容正確性(如資料查詢、推理結果)上仍有明顯落差,這也影響了可靠性。

代理AI落地仍是未竟之志

報告同時揭示,AI 代理(Agent)所採用的架構與工具組合對效能有明顯影響。例如,ReAct(由 Meta 開發的前端 JavaScript 框架)框架在多數情境下優於 Cursor Agent,僅在瀏覽器自動化等少數場景例外。而 OpenAI 自家 Agent SDK 在金融、設計領域的表現也優於通用框架。

更值得注意的是,當任務中加入無關伺服器、增加工具雜訊後,模型成功率會大幅下滑,凸顯現有 AI 在「工具協作」與「抗干擾」能力的不足。

整體而言,MCP-Universe 基準測試證實,現有大型語言模型雖在一般任務表現優異,但在真實多工具、多領域環境下仍有明顯不足。未來模型需加強四大瓶頸,才能真正落地於企業與產業場景。

>延伸閱讀:「誰說不玩了?」宏達電靠AI眼鏡拔4根漲停,VIVE Eagle如何迎戰Meta、Google?

資料來源:Salesforce AI Researchdigitalinformationworld

本文初稿為 AI 編撰,整理.編輯/ 李先泰

往下滑看下一篇文章
文策院第七期文化創業加速器啟動!院長王敏惠:從作品思維到企業化經營,助團隊邁向成長
文策院第七期文化創業加速器啟動!院長王敏惠:從作品思維到企業化經營,助團隊邁向成長

「過去創作者只專注在作品,現在要思考的是,如何成為投資人眼中具備公司治理、財務健全、商模永續的好標的。」文策院院長王敏惠如此形容她對台灣文化內容產業現況的觀察。

在 OTT 串流平台的帶動下,內容市場已進入全球「大者恆大」的競爭時代。台灣面對的課題早已不是作品能否被看見,而是團隊能否持續經營,甚至成為市場願意長期投資的企業。為此,
文策院依產業中個階段事業體,從新手到穩定經營尋求成長的團隊,提供不同的輔導資源,特別是協助事業體募資放大的加速器,為產業打造下一階段的成長路徑。

投資人為何不敢投?內容團隊具備三個關鍵條件了嗎

王敏惠分析道,台灣內容產業長期存在結構性問題。過去不少團隊以單一作品作為募資單位,這種「單片集資」雖具操作彈性,卻難以累積長期企業資本。一旦作品未如預期,團隊往往得重新尋找資源,甚至從頭再來。王敏惠形容,內容產業更像一場考驗「安打率」的競賽,每次作品推出都在重新接受市場檢驗。

#0 文策院院長 王敏惠
文策院院長 王敏惠
圖/ 數位時代

若想站穩腳步,就必須學會用投資人的語言溝通。她指出,好的投資標的必須同時具備三個要素:獲利、穩定與成長,「且這三者是必要條件、缺一不可」。為了讓團隊更理解資本市場的邏輯,王敏惠精準剖析這三個指標的商業意義。首先是「獲利」,作品不僅要有人買,賣價還要能覆蓋製作成本;其次是「穩定」,如果拍五部片只有一部賺錢,這對投資人來說就不夠穩定;最後是「成長」,公司今年賣出一個版權,明年能否賣出兩個、五個?這考驗著商業模式能否被持續複製與擴大。

她直言,在高度競爭的市場裡,錢是規格放大的工具,唯有獲取長期資金,團隊才有底氣從單點創意走向規模化競爭。「你可以花錢請人寫合約、處理會計帳,但沒有人能幫你把賺錢這件事委外。」 團隊必須清楚說明商業模式的可執行性。未來的競爭不只比創意,更比誰能把創意轉化為一門長久的生意。

第七期文化創業加速器升級:強化營運體質,全面加速募資實戰力

面對不同成熟度的團隊,第七期文化創業加速器將培力架構優化為「兩階段能力強化」,逐步銜接從經營基礎到募資實戰的關鍵能力。整體設計導入高度結構化內容,規劃 70 小時以上的經營主題課程與 7 次專屬顧問諮詢。第一階段著重於穩健團隊的商業模式與財務基礎,協助釐清營運邏輯、收益結構與成長路徑,強化可被市場驗證的經營體質;第二階段則聚焦於募資能力提升,透過實戰導向培訓與策略輔導,強化團隊在投資溝通、提案策略與資本對接上的成熟度。

此計畫並透過期中評選機制,遴選具備高度成長潛力之團隊,進入第二階段的深度陪跑,課程將完全轉向「募資對接」導向。入選團隊須具備成熟的財務預測,並在專業業師引導下,制定精準的資本策略。這不只是知識傳遞,更是高強度的提案演練;透過針對投資人評估標準的深度打磨,強化 Pitch Deck(募資提案)的說服力。王敏惠表示,文策院整合院內外與產業社群的多方資源,協助團隊完成符合資本市場期待的募資準備。最終,團隊將站上 DEMO DAY 舞台,在實戰中展現優化後的商業模型,精準對接投資需求,爭取擴大事業規格的關鍵資金。

讓創意變成生意,三大降風險策略

若想達到投資人看重的「穩定」與「成長」,前提往往不是先追求規模,而是先建立可管理的風險機制。王敏惠在第七期文化創業加速器中,也特別提醒團隊必須跳脫單一作品思維,從經營角度建立長期成長所需的底盤。

首先,是建立「投資組合」觀念。她認為,內容公司不應將資源全數押注在單一作品,而應透過多元業務與作品配置分散風險。當營收來源更分散,公司便不會因單一專案失利而大幅波動,也更有機會維持穩定現金流。

第二,是導入「工作流 SOP」。王敏惠強調這並非限制創意,而是讓創意在有效率的流程中被實現。從前期規畫、製作管理到資源配置,若能建立清楚流程,便可降低無謂耗損與成本失控,讓有限資金投入更有價值的環節。對企業而言,效率提升代表獲利空間增加,也代表面對市場變化時更具韌性。

第三,推動「買方(Buyer)先行」思維 。王敏惠主張募資前應先讓市場說話,若有客戶買單、試用或表達明確預購需求,就是商模最具公信力的背書。她指出,若能說服市場的作品,也將是生意保證,帶著市場證據尋求注資,不僅能驗證獲利能力,更能提升投資人信心。

#2 文策院院長 王敏惠
文策院院長 王敏惠
圖/ 數位時代

在王敏惠看來,台灣文化內容產業下一步,不能再停留在單打獨鬥。透過文化創業加速器串連企業資金、產業通路與外部資源,讓成熟業者帶動新創團隊,才能形成更完整的產業協作模式。她也總結,內容團隊若想在全球競爭中站穩腳步,終究得從「作品導向」走向「經營導向」。唯有當創意能被制度承接、被市場驗證、被資本放大,台灣的文化內容產業才有機會從在地市場走向更大的國際舞台。

突破規模瓶頸,實現募資願景

加入文化創業加速器
❱❱ 計畫申請平台:https://lihi1.me/RZSGw/bnext
❱❱ 申請時間:即日起至 5/22 (五) 17:00
❱❱ 詳細計劃內容:https://lihi1.me/8DmRB/bnext

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣20
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓