AI Agent過譽了?16款LLM代理功能大PK:GPT-5達成率43%卻奪冠,為何複雜任務AI搞不定?
AI Agent過譽了?16款LLM代理功能大PK:GPT-5達成率43%卻奪冠,為何複雜任務AI搞不定?

重點一:MCP-Universe基準測試顯示,現有大型語言模型(如GPT-5)在真實企業環境下的成功率僅約四成,遠低於市場宣傳。

重點二:模型雖能遵循格式規範,但在處理動態資料、多步推理及不熟悉工具時,表現大幅下滑,暴露出多重脆弱性。

重點三:框架選擇與工具組合對AI代理效能有實質影響,僅靠提升模型規模無法解決可靠性問題。

目前市面上的各式AI代理,真的如各家AI大廠說的這麼神,甚至可以取代初階白領工作?近期的研究結果,恐怕為AI代理的任務成功率打了一個大問號。

由Salesforce AI Research主導開發的MCP-Universe基準測試,首次以連接真實伺服器、涵蓋導航、金融分析、3D設計等六大領域、共231項任務,全面檢驗16款大型語言模型(LLM)在企業應用的實戰表現,從最新的GPT-5到DeepSeek-V3都在測試之列。

測試結果顯示, 即使是最先進的 LLM(如 GPT-5、Grok-4、Claude-4.0-Sonnet),在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44% ,顯示現有模型在長上下文、多工具、跨領域等挑戰下表現有限,而其他多數模型成功率低於 20%。

以最新推出的GPT-5為例,雖在金融分析領域完成率達67.5%,在3D設計任務也超過五成(52.63%),但在導航(33.3%)與瀏覽器自動化(35.9%)等複雜多步驟任務上,失敗率反而居高不下,與宣傳中的「全能」形象形成鮮明對比。

而在特定測試項目上,Grok-4 在瀏覽器自動化(41.03%)與網頁搜尋(41.82%)具競爭力。Claude 4.0 Sonnet 則在金融(55%)表現突出;表現最佳的開源模型則為GLM-4.5(由中國AI新創Z.ai開發),任務成功率達24.68%,但與頂級商用模型仍有明顯差距。

若以效率來看,o3 完成成功任務的平均步數最少(AS 4.82),顯示較高行動效率;但整體成功率不及 GPT-5、Grok-4。

16款代理AI大PK
測試結果顯示,即使是最先進的 LLM(如 GPT-5、Grok-4、Claude-4.0-Sonnet),在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44%。
圖/ 數位時代編輯部

註1 :以上數據皆取自論文表格(Table 3、Table 4)。
註2 :AE 為平均評估器得分(Average Evaluator score),可理解成 AI 完成任務時,答對了多少要求的平均分數。分數越高,代表 AI 不只答對大方向,連細節也做得好;AS 則為成功任務的平均步數,原則上越低代表效率越高。
註3 :對於一款優秀 AI 的理想狀況是:AS 低的同時 SR 和 AE 都高,才是又快又準的好 AI。

代理AI能力仍有限,4大瓶頸有哪些?

MCP-Universe 的評測不再讓 AI 自評,而是以「執行結果」為唯一標準,分別設有格式、靜態資料、動態資料三類評估。多數模型在格式規範上表現優異,亦即 AI 必須按照題目或系統要求,輸出特定的格式、欄位、順序或資料型態。

例如,Anthropic 的 Claude-4.0 Sonnet 在格式規範的合規率接近 98%,但一旦面對需要「查詢即時股價」、「路線規劃」等動態資訊,成功率即跌至四至六成。

GPT-5 在動態任務中的表現雖領先同儕,成功率仍僅 65.9%,也就是每三次就有一次失敗。模型在多步推理、長上下文維持、與不熟悉工具互動時常出現執行錯誤。例如,在 Yahoo Finance 伺服器查詢股價時,模型經常將應填兩個不同日期的欄位填成同一天,導致任務失敗。

總結來說,AI 代理在真實應用場景下的可靠性,主要受到以下幾個關鍵瓶頸限制:

一、長上下文挑戰
隨著任務步驟增加,AI 需要記住和處理的資訊量(token 數)急速膨脹,容易導致資訊遺失、上下文溢出,進而影響推理與決策品質。

二、工具不熟悉
AI 代理常常不熟悉 MCP 伺服器或外部工具的參數、使用方式與回傳格式,容易出現操作錯誤或無法正確完成任務。

三、跨域適應困難
當任務橫跨多個領域(如地圖、財務、程式碼等),AI 代理難以靈活切換規則與知識,導致表現不穩定或失誤率上升。

四、格式與內容雙重要求
雖然多數模型能遵守格式規範,但在內容正確性(如資料查詢、推理結果)上仍有明顯落差,這也影響了可靠性。

代理AI落地仍是未竟之志

報告同時揭示,AI 代理(Agent)所採用的架構與工具組合對效能有明顯影響。例如,ReAct(由 Meta 開發的前端 JavaScript 框架)框架在多數情境下優於 Cursor Agent,僅在瀏覽器自動化等少數場景例外。而 OpenAI 自家 Agent SDK 在金融、設計領域的表現也優於通用框架。

更值得注意的是,當任務中加入無關伺服器、增加工具雜訊後,模型成功率會大幅下滑,凸顯現有 AI 在「工具協作」與「抗干擾」能力的不足。

整體而言,MCP-Universe 基準測試證實,現有大型語言模型雖在一般任務表現優異,但在真實多工具、多領域環境下仍有明顯不足。未來模型需加強四大瓶頸,才能真正落地於企業與產業場景。

>延伸閱讀:「誰說不玩了?」宏達電靠AI眼鏡拔4根漲停,VIVE Eagle如何迎戰Meta、Google?

資料來源:Salesforce AI Researchdigitalinformationworld

本文初稿為 AI 編撰,整理.編輯/ 李先泰

往下滑看下一篇文章
「國泰人壽App」全新改版,打造一站式陪伴的保險體驗
「國泰人壽App」全新改版,打造一站式陪伴的保險體驗

保險 App 過去只是數位轉型的基本門檻,如今已成為決勝使用者體驗的關鍵媒介。擁有 800 萬保戶的國泰人壽,其「國泰人壽App」 歷經多次版本演進,2024 年底再次迎來全新改版上線,不只聚焦在提供完整的售後服務流程,更進一步連結家庭保障與健康管理,成為保戶日常中不可或缺的夥伴。

「國泰人壽App」大改版,重新定義保險關係

回顧「國泰人壽 App 」的幾次重大改版,從 2017 年推出「1.0」版本、擁有 20 萬用戶起步,到 2021 年「2.0」突破百萬用戶里程碑,再到 2024 年底正式邁入「3.0」時,用戶數已突破 330 萬——隨著 App 持續演進,不變的是始終對齊一個核心命題:App 對保戶有何實質幫助?

國泰人壽數位發展部數位客戶經營科經理陳儀綸回憶:「1.0 的首要目標就是把保險售後服務做扎實,包括查詢保單、繳費、送理賠等核心功能。到了2.0,我們進一步從客戶的保險旅程去思考,保戶最關心的是什麼?如何深化體驗?」

「2.0 對團隊來說也是一個關鍵轉折點,若要真正打造以用戶為中心的數位服務,設計就不該只是畫畫畫面,而是應該成為產品思考的一部分。因此,我們開始從設計外包支援轉向長期合作的設計夥伴關係,在國泰金控「數位數據暨科技發展中心 」的集團資源協助下,國泰人壽 App團隊不僅擁有更緊密的夥伴,也具備將保險專業深度整合進產品設計的能力。」陳儀綸說明。

隨著接近一半保戶成為 App 用戶,顯見 App 已累積廣大保戶的信任與依賴。2024 年底,團隊遂啟動 App 3.0 的全新改版。陳儀綸表示:「這次,我們從個人保險出發,走向全家人的體驗。畢竟保險從來不只是自己的事,更是守護家人的責任。」開發團隊的角色也從單純的數位工具打造者,轉變為陪伴保戶的數位保險夥伴,主動在保戶之前更早一步思考使用情境、潛在困惑與期待。

三大升級一次到位:家庭保單整合、健康外溢結合、整體風格轉換

新版「國泰人壽 App」 3.0 的設計目標,是讓用戶在幾秒內完成真正想做的事。2024 年初啟動改版時,團隊從用戶 NPS 回饋與客服進線紀錄出發,系統性分析常見問題,歸納出一項關鍵洞察——保戶需要從「家庭視角」掌握保單與保障結構。

「這是很顛覆的,以往看保單都是以個人為單位,沒有家庭視角。」陳儀綸指出,「其實很多人是為家人保險,也會查詢子女、配偶的保障狀況。」因此,改版聚焦兩大目標:其一是整合分散資訊,讓用戶能快速掌握全家的保障結構,其二是進而協助保戶更清楚地「看得懂保障」,而不只是「擁有保障」。 三大關鍵升級也應運而生:

一、家庭保單管理: 作為此次改版最具突破性的亮點,用戶可切換「我的視角/家庭視角」,一站掌握全家人的保單資訊,減少逐筆整理保單的時間。國泰金控數位數據科技發展中心用戶科技發展部體驗設計科產品設計師林易蓁表示:「多數保戶其實是『為家人投保的人』。我們把視角從個人擴大到家庭,讓『誰有什麼、缺什麼』一眼就明白,並透過透過圖像化呈現類型與數量,讓資訊更直觀。」

二、健康外溢結合: 隨著保險價值從「事後補償」走向「事前預防」,此次改版特別強化外溢保單與 FitBack 健康資料的整合度,清楚呈現健康任務達標行為與保費折扣的關聯。「過去保戶搞不懂健走數據和保單有什麼關聯,現在我們清楚呈現聯動機制,幫助保戶理解自己的行動帶來什麼實際回饋。」林易蓁說明。

三、整體風格轉換: 這次改版另一個很大的重點就是整體風格的全面翻新,在國壽品牌的穩重信任感基礎上,融合互動回饋、玻璃模糊的質感、漸層與空間感,讓整體的介面看起來不只專業,也更友善、更貼近生活 。同時導入 Design Token 系統,促進設計與工程團隊的協作,讓新視覺設計落地。

「國泰人壽App」 3.0 透過家庭視角定義保險使用情境,協助用戶快速掌握自己與家人保障全貌,讓資訊一目瞭然、直觀易懂。
「國泰人壽App」 3.0 透過家庭視角定義保險使用情境,協助用戶快速掌握自己與家人保障全貌,讓資訊一目瞭然、直觀易懂。
圖/ 國泰人壽

用減法思維,打造清晰易懂的使用體驗

然而,App 改頭換面的過程中,也面臨不少挑戰,尤其是首頁設計。「每個部門都希望自己的功能能放在首頁,所以一定要先釐清:保戶真正需要的是什麼?」陳儀綸強調,首頁不能流於功能捷徑的堆疊,而應是協助用戶快速完成任務的第一站。

對此,設計團隊也從使用者旅程出發,重新架構導覽邏輯。原本五個底部功能鍵被精簡為四個,保單資訊也首次搬上首頁。陳儀綸說,「這代表我們不再一味累加功能,而是回到使用情境,設計真正好用的動線,讓使用者更直覺地完成該做的事。」林易蓁強調:「清楚、簡潔,不只是一種風格口號,而是透過減法設計思維,讓設計不只是讓資訊變得好看,而是要幫使用者減少認知負擔,讓他們在對的時機看到對的東西。」

語言上,也全面朝向「看得懂」靠攏。「我們把艱澀的保險名詞,以更貼近使用者情境方式,轉譯成使用者熟悉的語言。例如將癌症的保障項目分類成「第一次罹癌」、「因癌症需要住院時」、「因癌症需要手術時」 等,用情境的方式告訴用戶是什麼情境下的保障,整體體驗更直覺,也更容易上手。」林易蓁說明。

數位轉型思維成為基因,提升服務新價值

App 3.0 上線後,用戶數突破 330 萬、每月活躍用戶達 65 萬,相較改版前更帶動新戶成長 30%,NPS (淨推薦值) 62分、用戶滿意度達 97%。陳儀綸指出:「服務走在客戶前面,滿意度自然會上來,也有助於客服人員引導使用 App 查詢、申辦,提升處理問題的效率。」

「橫跨多部門的夥伴一起完成這次改版,對我們來說是長期思維內化的結果」。陳儀綸說,「我們不只是在技術或產品上持續精進,而是讓整個團隊—從人才培養、協作模式、思考方式都持續進化,這樣的內化改變,才是讓數位轉型能長久走下去的關鍵。技術可以解問題,但“文化”決定團隊能走多遠。」數位轉型不只是一次專案或一次改版,它是一種長期內化的文化與思維模式,更是一種「讓服務永遠走在客戶前面」的能力。

林易蓁則補充,作為隸屬國泰金控數數發中心的設計師,一直都是以集團層級支援子公司的數位產品。「我們能從更綜觀的角度思考,不只是介面設計,也包含跨產品的體驗、功能邏輯與視覺語言,打造統一的品質與風格。」而與人壽產品團隊合作這幾年下來,彼此真的培養出很深的默契,設計師已經不再只是規劃 UIUX ,轉變成參與產品方向制定的共創夥伴,讓設計團隊能以使用者為核心,提出更貼近需求的解法,進而在產品中創造實質價值。

展望未來,團隊將持續優化核心功能,關注 AI 等新技術應用潛力,透過用戶回饋與內部創意提案推動產品持續進化。正如這次改版,讓保戶真切感受到操作更直覺、資訊更清晰,國泰人壽也正持續以具體行動落實「BETTER TOGETHER」,在每一次細節中重塑保險服務的日常價值。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓