AI Agent過譽了?16款LLM代理功能大PK:GPT-5達成率43%卻奪冠,為何複雜任務AI搞不定?
AI Agent過譽了?16款LLM代理功能大PK:GPT-5達成率43%卻奪冠,為何複雜任務AI搞不定?

重點一:MCP-Universe基準測試顯示,現有大型語言模型(如GPT-5)在真實企業環境下的成功率僅約四成,遠低於市場宣傳。

重點二:模型雖能遵循格式規範,但在處理動態資料、多步推理及不熟悉工具時,表現大幅下滑,暴露出多重脆弱性。

重點三:框架選擇與工具組合對AI代理效能有實質影響,僅靠提升模型規模無法解決可靠性問題。

目前市面上的各式AI代理,真的如各家AI大廠說的這麼神,甚至可以取代初階白領工作?近期的研究結果,恐怕為AI代理的任務成功率打了一個大問號。

由Salesforce AI Research主導開發的MCP-Universe基準測試,首次以連接真實伺服器、涵蓋導航、金融分析、3D設計等六大領域、共231項任務,全面檢驗16款大型語言模型(LLM)在企業應用的實戰表現,從最新的GPT-5到DeepSeek-V3都在測試之列。

測試結果顯示, 即使是最先進的 LLM(如 GPT-5、Grok-4、Claude-4.0-Sonnet),在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44% ,顯示現有模型在長上下文、多工具、跨領域等挑戰下表現有限,而其他多數模型成功率低於 20%。

以最新推出的GPT-5為例,雖在金融分析領域完成率達67.5%,在3D設計任務也超過五成(52.63%),但在導航(33.3%)與瀏覽器自動化(35.9%)等複雜多步驟任務上,失敗率反而居高不下,與宣傳中的「全能」形象形成鮮明對比。

而在特定測試項目上,Grok-4 在瀏覽器自動化(41.03%)與網頁搜尋(41.82%)具競爭力。Claude 4.0 Sonnet 則在金融(55%)表現突出;表現最佳的開源模型則為GLM-4.5(由中國AI新創Z.ai開發),任務成功率達24.68%,但與頂級商用模型仍有明顯差距。

若以效率來看,o3 完成成功任務的平均步數最少(AS 4.82),顯示較高行動效率;但整體成功率不及 GPT-5、Grok-4。

16款代理AI大PK
測試結果顯示,即使是最先進的 LLM(如 GPT-5、Grok-4、Claude-4.0-Sonnet),在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44%。
圖/ 數位時代編輯部

註1 :以上數據皆取自論文表格(Table 3、Table 4)。
註2 :AE 為平均評估器得分(Average Evaluator score),可理解成 AI 完成任務時,答對了多少要求的平均分數。分數越高,代表 AI 不只答對大方向,連細節也做得好;AS 則為成功任務的平均步數,原則上越低代表效率越高。
註3 :對於一款優秀 AI 的理想狀況是:AS 低的同時 SR 和 AE 都高,才是又快又準的好 AI。

代理AI能力仍有限,4大瓶頸有哪些?

MCP-Universe 的評測不再讓 AI 自評,而是以「執行結果」為唯一標準,分別設有格式、靜態資料、動態資料三類評估。多數模型在格式規範上表現優異,亦即 AI 必須按照題目或系統要求,輸出特定的格式、欄位、順序或資料型態。

例如,Anthropic 的 Claude-4.0 Sonnet 在格式規範的合規率接近 98%,但一旦面對需要「查詢即時股價」、「路線規劃」等動態資訊,成功率即跌至四至六成。

GPT-5 在動態任務中的表現雖領先同儕,成功率仍僅 65.9%,也就是每三次就有一次失敗。模型在多步推理、長上下文維持、與不熟悉工具互動時常出現執行錯誤。例如,在 Yahoo Finance 伺服器查詢股價時,模型經常將應填兩個不同日期的欄位填成同一天,導致任務失敗。

總結來說,AI 代理在真實應用場景下的可靠性,主要受到以下幾個關鍵瓶頸限制:

一、長上下文挑戰
隨著任務步驟增加,AI 需要記住和處理的資訊量(token 數)急速膨脹,容易導致資訊遺失、上下文溢出,進而影響推理與決策品質。

二、工具不熟悉
AI 代理常常不熟悉 MCP 伺服器或外部工具的參數、使用方式與回傳格式,容易出現操作錯誤或無法正確完成任務。

三、跨域適應困難
當任務橫跨多個領域(如地圖、財務、程式碼等),AI 代理難以靈活切換規則與知識,導致表現不穩定或失誤率上升。

四、格式與內容雙重要求
雖然多數模型能遵守格式規範,但在內容正確性(如資料查詢、推理結果)上仍有明顯落差,這也影響了可靠性。

代理AI落地仍是未竟之志

報告同時揭示,AI 代理(Agent)所採用的架構與工具組合對效能有明顯影響。例如,ReAct(由 Meta 開發的前端 JavaScript 框架)框架在多數情境下優於 Cursor Agent,僅在瀏覽器自動化等少數場景例外。而 OpenAI 自家 Agent SDK 在金融、設計領域的表現也優於通用框架。

更值得注意的是,當任務中加入無關伺服器、增加工具雜訊後,模型成功率會大幅下滑,凸顯現有 AI 在「工具協作」與「抗干擾」能力的不足。

整體而言,MCP-Universe 基準測試證實,現有大型語言模型雖在一般任務表現優異,但在真實多工具、多領域環境下仍有明顯不足。未來模型需加強四大瓶頸,才能真正落地於企業與產業場景。

>延伸閱讀:「誰說不玩了?」宏達電靠AI眼鏡拔4根漲停,VIVE Eagle如何迎戰Meta、Google?

資料來源:Salesforce AI Researchdigitalinformationworld

本文初稿為 AI 編撰,整理.編輯/ 李先泰

往下滑看下一篇文章
五十年零售老店的 AI 轉型:良興攜手 Data-DI,打造專屬 AI Agent 賦能組織升級與知識傳承
五十年零售老店的 AI 轉型:良興攜手 Data-DI,打造專屬 AI Agent 賦能組織升級與知識傳承

1973 年,良興從台北光華商場一間 50 坪的電子零件行起家,半個世紀後蛻變為年營收破十億、毛利率 18% 的全通路 3C 品牌。不過,伴隨規模擴張帶來的不只是成長,還有日益加劇的管理摩擦。門市遍布全台、品項高達近萬筆,加上跨部門協作頻繁,行政耗損與知識傳承的缺口,成為這家老字號邁向下一階段的隱形天花板。

良興總經理賴志達回顧,從電子零件跨入電商、從線下擴張到 OMO 全通路、再到會員深度經營,作為 3C 零售業者,良興每一波轉型都走在同業前面。「現在輪到 AI 了。如何做到人機協作、AI 賦能,就是良興第五波轉型的核心命題。」

AI 自動化,從行政細節釋放組織戰力

轉型需要夥伴,而賴志達評估合作夥伴的標準很明確:技術能力是基本,產業知識(Domain Know-how)的深度是關鍵,回饋速度更是最終決定因素。2025 年的未來商務展上,良興選擇攜手 Data-DI,看重的正是其「策略諮詢 + AI 產品 + 落地陪跑」三軌並行的實施能力。

很快的,良興與 Data-DI 合作的第一個專案,就落在最耗費人力、卻最常被忽視的環節:會議記錄。「會議如果沒有產值、沒有效果,對企業很傷!」賴志達說,他每天參加許多會議,但跨單位協作的會議記錄長期依賴人工聆聽與逐字整理,常出現人名誤植、決策遺漏、行動項目無人追蹤,讓會議效果大打折扣。

數智聚(良興)_1.JPG
良興總經理賴志達
圖/ 數位時代

為了解決會議記錄的痛點,Data-DI 業務副總包威棣指出,在導入工具以前,團隊須先釐清三件事:場景是否具備落地價值、哪些流程節點適合 AI 介入,以及以終為始地掌握客戶真正想要的輸出樣貌。這些看似基本的提問,都決定 AI 能否精準落地。

確認方向後,良興與 Data-DI 成功導入 AI 會議記錄自動化系統,透過模糊比對技術校正語音辨識誤差,並將生成的雙版本報告直接回存至既有資料庫,不僅將行政人員從重複性作業中釋放,也為後續的 AI 應用奠定扎實的系統整合基礎。

賴志達分享,現在他去外部開會也會用這個工具,運用 AI 把錄音轉文字、再整理成簡報,很快就能完成,更令外部夥伴驚艷。「我認為這是很成功的案子!也提醒想做 AI 的老闆們,與其急著搞大架構,不如先從小工具讓公司嘗試 AI,建立理解和認同。」

AI 把資深員工大腦轉化為資產

補完行政效率的缺口後,良興接著切入更深層的營運核心:知識傳承。過去,頂尖銷售經驗長期鎖在少數資深員工身上,新人培訓耗時三個月,員工離職即帶走知識資本。與此同時,網路資訊發達,消費者進店前早已掌握基本規格,3C 通路門市人員要如何發揮更多價值?「我要門市的人不是死背規格,而是面對客人時,能用客人能理解的方式對話。」賴志達說。

為此,Data-DI 協助良興建置 AI 門市教育訓練系統。系統透過六大自動化關卡,串接教材生成、審核上架、AI 銷售對練與成績回報,主管僅需在核心節點審核;員工透過手機語音對練,系統依口吻、專業度、回應力等維度自動評分。賴志達表示,目標是將新人培訓期縮短至一個月,讓數十年累積的銷售智慧轉化為可複製、可傳承的企業資產。

然而,要讓這套系統真正運作,得先解決兩個根本問題:資料從哪裡來?以及訓練如何更準確?

「以前大數據時代,講的是資料要大、全、細、實;現在 AI 要做到的是準(準確)、合(合乎場景)。」包威棣說。良興不同廠商提供的素材品質參差不齊,Data-DI 除了整合內部資料,也補充加入外部市場評測內容以填補空缺,再透過人員審核機制過濾雜訊,搭配 agent 架構的多層步驟與知識限定,確保系統能精準提煉對應品類的訓練素材。

數智聚(良興)_2.JPG
Data-DI 業務副總包威棣
圖/ 數位時代

賴志達則看得更遠:「這些教育訓練的內容,也將成為公司未來訓練機器人很好的原料。」

Data-DI 陪跑型顧問,帶領企業 AI 轉型

良興與 Data-DI 合作的兩個專案中,雙方共同克服了長提示詞邏輯混亂、AI 幻覺污染知識庫、逐字稿讀取逾時等技術難題。邁向下一步,賴志達表示,公司各部門很早就建置 Power BI 報表,但數據豐富不等於決策清晰。「數據是土壤,如果沒有梳理,就沒有用了。」因此,他的下一個目標是活化數據資本、推動行銷自動流,以精實的人力持續驅動成長。

數智聚(良興)_3.jpg
良興攜手 Data-DI 推動 AI 落地,以小步快跑模式為企業創造變革。
圖/ 數位時代

包威棣則從顧問視角歸納兩個觀察:AI 導入需要高層認同、由上而下推進,像賴志達這樣持續引領良興走在業界前端的決策者,就是不可或缺的推手;而單點工具的價值,終究要累積成組織體質的轉變才算真正落地。「就像會議記錄改變了會議當責的結構,人員訓練改變了知識傳承的方式。從點狀應用走向企業變革,這種決策思路才是 AI 真正深入落地產生價值的關鍵。」

最後,對於仍在觀望AI應用的企業,他則建議:「未來 AI 導致的落差只會愈來愈大,人會變成超級工作者,企業會變成超級企業。開始做就對了,先做一個三個月的小任務,降低落差、再急起追上。」從痛點切入、小步快跑,讓組織在實作中累積對 AI 的理解與信任,這正是 Data-DI 的陪跑哲學。

有關更多 Data-DI 相關資訊,請查詢網站:https://www.data-di.com/

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
代理式商務連動百兆商機
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓