AI Agent過譽了?16款LLM代理功能大PK:GPT-5達成率43%卻奪冠,為何複雜任務AI搞不定?
AI Agent過譽了?16款LLM代理功能大PK:GPT-5達成率43%卻奪冠,為何複雜任務AI搞不定?

重點一:MCP-Universe基準測試顯示,現有大型語言模型(如GPT-5)在真實企業環境下的成功率僅約四成,遠低於市場宣傳。

重點二:模型雖能遵循格式規範,但在處理動態資料、多步推理及不熟悉工具時,表現大幅下滑,暴露出多重脆弱性。

重點三:框架選擇與工具組合對AI代理效能有實質影響,僅靠提升模型規模無法解決可靠性問題。

目前市面上的各式AI代理,真的如各家AI大廠說的這麼神,甚至可以取代初階白領工作?近期的研究結果,恐怕為AI代理的任務成功率打了一個大問號。

由Salesforce AI Research主導開發的MCP-Universe基準測試,首次以連接真實伺服器、涵蓋導航、金融分析、3D設計等六大領域、共231項任務,全面檢驗16款大型語言模型(LLM)在企業應用的實戰表現,從最新的GPT-5到DeepSeek-V3都在測試之列。

測試結果顯示, 即使是最先進的 LLM(如 GPT-5、Grok-4、Claude-4.0-Sonnet),在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44% ,顯示現有模型在長上下文、多工具、跨領域等挑戰下表現有限,而其他多數模型成功率低於 20%。

以最新推出的GPT-5為例,雖在金融分析領域完成率達67.5%,在3D設計任務也超過五成(52.63%),但在導航(33.3%)與瀏覽器自動化(35.9%)等複雜多步驟任務上,失敗率反而居高不下,與宣傳中的「全能」形象形成鮮明對比。

而在特定測試項目上,Grok-4 在瀏覽器自動化(41.03%)與網頁搜尋(41.82%)具競爭力。Claude 4.0 Sonnet 則在金融(55%)表現突出;表現最佳的開源模型則為GLM-4.5(由中國AI新創Z.ai開發),任務成功率達24.68%,但與頂級商用模型仍有明顯差距。

若以效率來看,o3 完成成功任務的平均步數最少(AS 4.82),顯示較高行動效率;但整體成功率不及 GPT-5、Grok-4。

16款代理AI大PK
測試結果顯示,即使是最先進的 LLM(如 GPT-5、Grok-4、Claude-4.0-Sonnet),在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44%。
圖/ 數位時代編輯部

註1 :以上數據皆取自論文表格(Table 3、Table 4)。
註2 :AE 為平均評估器得分(Average Evaluator score),可理解成 AI 完成任務時,答對了多少要求的平均分數。分數越高,代表 AI 不只答對大方向,連細節也做得好;AS 則為成功任務的平均步數,原則上越低代表效率越高。
註3 :對於一款優秀 AI 的理想狀況是:AS 低的同時 SR 和 AE 都高,才是又快又準的好 AI。

代理AI能力仍有限,4大瓶頸有哪些?

MCP-Universe 的評測不再讓 AI 自評,而是以「執行結果」為唯一標準,分別設有格式、靜態資料、動態資料三類評估。多數模型在格式規範上表現優異,亦即 AI 必須按照題目或系統要求,輸出特定的格式、欄位、順序或資料型態。

例如,Anthropic 的 Claude-4.0 Sonnet 在格式規範的合規率接近 98%,但一旦面對需要「查詢即時股價」、「路線規劃」等動態資訊,成功率即跌至四至六成。

GPT-5 在動態任務中的表現雖領先同儕,成功率仍僅 65.9%,也就是每三次就有一次失敗。模型在多步推理、長上下文維持、與不熟悉工具互動時常出現執行錯誤。例如,在 Yahoo Finance 伺服器查詢股價時,模型經常將應填兩個不同日期的欄位填成同一天,導致任務失敗。

總結來說,AI 代理在真實應用場景下的可靠性,主要受到以下幾個關鍵瓶頸限制:

一、長上下文挑戰
隨著任務步驟增加,AI 需要記住和處理的資訊量(token 數)急速膨脹,容易導致資訊遺失、上下文溢出,進而影響推理與決策品質。

二、工具不熟悉
AI 代理常常不熟悉 MCP 伺服器或外部工具的參數、使用方式與回傳格式,容易出現操作錯誤或無法正確完成任務。

三、跨域適應困難
當任務橫跨多個領域(如地圖、財務、程式碼等),AI 代理難以靈活切換規則與知識,導致表現不穩定或失誤率上升。

四、格式與內容雙重要求
雖然多數模型能遵守格式規範,但在內容正確性(如資料查詢、推理結果)上仍有明顯落差,這也影響了可靠性。

代理AI落地仍是未竟之志

報告同時揭示,AI 代理(Agent)所採用的架構與工具組合對效能有明顯影響。例如,ReAct(由 Meta 開發的前端 JavaScript 框架)框架在多數情境下優於 Cursor Agent,僅在瀏覽器自動化等少數場景例外。而 OpenAI 自家 Agent SDK 在金融、設計領域的表現也優於通用框架。

更值得注意的是,當任務中加入無關伺服器、增加工具雜訊後,模型成功率會大幅下滑,凸顯現有 AI 在「工具協作」與「抗干擾」能力的不足。

整體而言,MCP-Universe 基準測試證實,現有大型語言模型雖在一般任務表現優異,但在真實多工具、多領域環境下仍有明顯不足。未來模型需加強四大瓶頸,才能真正落地於企業與產業場景。

>延伸閱讀:「誰說不玩了?」宏達電靠AI眼鏡拔4根漲停,VIVE Eagle如何迎戰Meta、Google?

資料來源:Salesforce AI Researchdigitalinformationworld

本文初稿為 AI 編撰,整理.編輯/ 李先泰

往下滑看下一篇文章
數位時代 X 國泰金控 從百套系統上雲到 Cloud First:國泰如何把雲端變成AI成長引擎?
數位時代 X 國泰金控 從百套系統上雲到 Cloud First:國泰如何把雲端變成AI成長引擎?

2019年金融監理機關正式將雲端納入委外規範後,揭示金融業上雲時代來臨,國泰金控數數發中心成立雲端策略發展部,負責擬定集團上雲策略,並於2020年正式啟動7年集團雲端轉型計畫;在多數金融機構仍停留在單點遷移或IT現代化的現下,國泰金融集團在 2025 年即完成 100 套系統上雲,更將雲端轉型階段從 Cloud Ready、Cloud Adoption 推向 Cloud First,成為數據與人工智慧應用的關鍵引擎。

國泰金控資訊長|吳建興 James Wu
圖/ 數位時代

「百套系統上雲不僅僅是數字,更是讓國泰從『 IT 進化業務』邁向『 IT 驅動成長』的關鍵轉折。」國泰金控雲端策略發展部協理顏勝豪表示,上雲帶來的效益十分顯著,包括提升資源可用性與營運敏捷度、減輕 IT 維運負擔;同時,雲端業者多具備零碳排或綠能機房機制,亦有助於企業朝向 ESG 永續營運邁進。「金融上雲不是單純的現代化基礎設施或者是升級技術,而是為了換取速度與可靠度,讓集團可以加速創新腳步、彈性調配資源,以及培育所需人才與技能,為未來做最佳準備。」
為讓集團員工、金融同業以及有志上雲的夥伴可以進一步探討雲端轉型的各種可能,國泰金控舉辦雲端轉型成果發表會,會中除有集團子公司分享最新成果,三大公有雲平台業者也從不同技術視角共同探討在合規、資安與 AI 應用的可能。

七年、三階段,國泰金融集團將雲端內化為營運流程與創新引擎

國泰金控科技長|姚旭杰 Marcus Ya
圖/ 數位時代

為什麼國泰可以領先市場完成雲端轉型、數據與 AI 賦能業務?

顏勝豪認為,雲端轉型的起點不是直接遷移系統,而是從四個面向打底:應用系統盤點評估、雲端架構設計、雲端遷移藍圖規劃,以及組織治理框架建立,而這也是 Cloud Ready 階段最重要的事情。
「不同子公司有不同商業模式與節奏,若沒有共同語言與平台底座,上雲很容易各自為政。」顏勝豪表示,為讓所有員工可以齊步前行,國泰以雲端遷移方法論 Cathay 6R(註1)作為共同語言、用平台作為共同底座,讓轉型不只是技術選擇,而是集團行動。
完成單一系統的雲端遷移後,便進入 Cloud Adoption 階段。在這個階段中,要透過大規模遷移建立更成熟的上雲標準作業流程(SOP),透過 FinOps 機制控管與優化雲端營運成本,以及透過自動化與治理模型確認多雲環境與安全與維運穩定性,目標是將雲端內化為組織日常運營的一部分,進而邁向 Cloud First 階段:在合規前提下,新專案與系統升級預設在雲端環境開發,並善用雲原生優勢加速新產品功能開發速度。
「集團雲端策略只有一個核心原則:讓雲成為 AI 時代的成長引擎,而不是單純的基礎設施。」關於國泰的未來雲端布局,顏勝豪如是總結。

國泰金控 雲端策略發展部 協理|顏勝豪 Otto Yen
圖/ 數位時代

以雲端為 AI 資源引擎、發揮數據燃料價值,實現 AI 賦能業務應用

國泰不僅在2025年完成集團百套系統上雲,也啟動數據上雲計畫並為 GenAI 奠定基礎建設。
例如國泰金控實現數據上雲,打造資料湖倉與 GAIA 生態系統架構為 AI 賦能業務做準備:成立國泰風險聯防中心(CRC)攜手集團洗防人員強化風險控管與金融犯罪因應能力;釋出國泰員工 AI 助手–Agia–Beta
版,提供差勤、福利與權益、技術支援、職務職能與集團其他資訊等五大類別管理辦法等查詢服務;此外,亦推出集團數據共享平台、集團法規知識庫、 AI 評測中心等服務,更好發揮 Cloud First 與 AI 賦能業務應用的價值。
雲端是 AI 時代的關鍵底座、數據則是 AI 的燃料。顏勝豪指出,發展AI需要龐大的 GPU 算力,若自建 GPU 機房,不僅硬體設備昂貴、折舊速度快,光是散熱系統一年就高達兩、三千萬元的成本,若採取雲端資源,可以隨啟隨用,同時,大幅降低試錯成本。「當雲端打好基礎、AI成為能力模組,銀行、人壽、產險與證券的創新不再是單點突破,而是放大集團級綜效。」

國泰以 Cloud First + AI 持續領先市場、形塑未來樣貌

「雲端可以優化算力成本,資料則決定 AI 應用上限。」顏勝豪解釋,在 AI 新世代,AI 模型定調能力「下限」,集團子公司掌握的「獨特資料」則決定應用的「上限」,考量雲端有許多好用 AI 服務,唯有資料上雲才能發揮數據價值、用 AI 賦能集團各子公司業務。
例如國泰世華銀行將採取多公有雲策略,打造雲端智慧生態圈,並以現代化雲原生技術拓展應用場景;同時,運用 AI 與資料分析優化客戶服務體驗,並藉由跨雲整合機制支援多元業務模式,以充分發揮上雲效益。至於國泰產險,不僅在兩年半內完成13套核心系統上雲、優化營運流程,如以 Serverless 架構打造百萬級效果、萬元成本的短網址系統等,讓雲端成為產險驅動長期成長的核心引擎與標準配備。

國泰人壽則是透過雲端與 AI 滿足不同客戶需求,如以 AI Search 精準呈現關鍵字搜尋結果,讓客戶可以精準且快速的查找所需資料、大幅優化官網體驗與滿意度。至於國泰證券則是於2026年初推出「庫存管家」服務,以客戶持股為核心,應用 AI 技術打造個人化推播服務,協助投資人更有效率地掌握庫存狀況,提供更即時、系統化的投資管理體驗。
總的來說,國泰金控在集團的雲端轉型不僅是技術升級,更是思維革新,從百套系統上雲進展到 Cloud First 階段,可以預期在雲地基礎下,國泰將進一步引領 AI 時代變革,持續提升營運韌性與放大創新價值。

註1:Cathay 6R 國泰設計 Cathay 6R 雲端遷移方法論,將系統遷移方式依據上雲模式、系統開發成本分為 Rehost 、Replatform、Refactor、Rewrite、Replace 和 Retain 共6種遷移架構,並能對應到 IaaS、PaaS、SaaS 三種不同上雲模式。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
2026 大重啟
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓