AI Agent過譽了?16款LLM代理功能大PK:GPT-5達成率43%卻奪冠,為何複雜任務AI搞不定?
AI Agent過譽了?16款LLM代理功能大PK:GPT-5達成率43%卻奪冠,為何複雜任務AI搞不定?

重點一:MCP-Universe基準測試顯示,現有大型語言模型(如GPT-5)在真實企業環境下的成功率僅約四成,遠低於市場宣傳。

重點二:模型雖能遵循格式規範,但在處理動態資料、多步推理及不熟悉工具時,表現大幅下滑,暴露出多重脆弱性。

重點三:框架選擇與工具組合對AI代理效能有實質影響,僅靠提升模型規模無法解決可靠性問題。

目前市面上的各式AI代理,真的如各家AI大廠說的這麼神,甚至可以取代初階白領工作?近期的研究結果,恐怕為AI代理的任務成功率打了一個大問號。

由Salesforce AI Research主導開發的MCP-Universe基準測試,首次以連接真實伺服器、涵蓋導航、金融分析、3D設計等六大領域、共231項任務,全面檢驗16款大型語言模型(LLM)在企業應用的實戰表現,從最新的GPT-5到DeepSeek-V3都在測試之列。

測試結果顯示, 即使是最先進的 LLM(如 GPT-5、Grok-4、Claude-4.0-Sonnet),在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44% ,顯示現有模型在長上下文、多工具、跨領域等挑戰下表現有限,而其他多數模型成功率低於 20%。

以最新推出的GPT-5為例,雖在金融分析領域完成率達67.5%,在3D設計任務也超過五成(52.63%),但在導航(33.3%)與瀏覽器自動化(35.9%)等複雜多步驟任務上,失敗率反而居高不下,與宣傳中的「全能」形象形成鮮明對比。

而在特定測試項目上,Grok-4 在瀏覽器自動化(41.03%)與網頁搜尋(41.82%)具競爭力。Claude 4.0 Sonnet 則在金融(55%)表現突出;表現最佳的開源模型則為GLM-4.5(由中國AI新創Z.ai開發),任務成功率達24.68%,但與頂級商用模型仍有明顯差距。

若以效率來看,o3 完成成功任務的平均步數最少(AS 4.82),顯示較高行動效率;但整體成功率不及 GPT-5、Grok-4。

16款代理AI大PK
測試結果顯示,即使是最先進的 LLM(如 GPT-5、Grok-4、Claude-4.0-Sonnet),在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44%。
圖/ 數位時代編輯部

註1 :以上數據皆取自論文表格(Table 3、Table 4)。
註2 :AE 為平均評估器得分(Average Evaluator score),可理解成 AI 完成任務時,答對了多少要求的平均分數。分數越高,代表 AI 不只答對大方向,連細節也做得好;AS 則為成功任務的平均步數,原則上越低代表效率越高。
註3 :對於一款優秀 AI 的理想狀況是:AS 低的同時 SR 和 AE 都高,才是又快又準的好 AI。

代理AI能力仍有限,4大瓶頸有哪些?

MCP-Universe 的評測不再讓 AI 自評,而是以「執行結果」為唯一標準,分別設有格式、靜態資料、動態資料三類評估。多數模型在格式規範上表現優異,亦即 AI 必須按照題目或系統要求,輸出特定的格式、欄位、順序或資料型態。

例如,Anthropic 的 Claude-4.0 Sonnet 在格式規範的合規率接近 98%,但一旦面對需要「查詢即時股價」、「路線規劃」等動態資訊,成功率即跌至四至六成。

GPT-5 在動態任務中的表現雖領先同儕,成功率仍僅 65.9%,也就是每三次就有一次失敗。模型在多步推理、長上下文維持、與不熟悉工具互動時常出現執行錯誤。例如,在 Yahoo Finance 伺服器查詢股價時,模型經常將應填兩個不同日期的欄位填成同一天,導致任務失敗。

總結來說,AI 代理在真實應用場景下的可靠性,主要受到以下幾個關鍵瓶頸限制:

一、長上下文挑戰
隨著任務步驟增加,AI 需要記住和處理的資訊量(token 數)急速膨脹,容易導致資訊遺失、上下文溢出,進而影響推理與決策品質。

二、工具不熟悉
AI 代理常常不熟悉 MCP 伺服器或外部工具的參數、使用方式與回傳格式,容易出現操作錯誤或無法正確完成任務。

三、跨域適應困難
當任務橫跨多個領域(如地圖、財務、程式碼等),AI 代理難以靈活切換規則與知識,導致表現不穩定或失誤率上升。

四、格式與內容雙重要求
雖然多數模型能遵守格式規範,但在內容正確性(如資料查詢、推理結果)上仍有明顯落差,這也影響了可靠性。

代理AI落地仍是未竟之志

報告同時揭示,AI 代理(Agent)所採用的架構與工具組合對效能有明顯影響。例如,ReAct(由 Meta 開發的前端 JavaScript 框架)框架在多數情境下優於 Cursor Agent,僅在瀏覽器自動化等少數場景例外。而 OpenAI 自家 Agent SDK 在金融、設計領域的表現也優於通用框架。

更值得注意的是,當任務中加入無關伺服器、增加工具雜訊後,模型成功率會大幅下滑,凸顯現有 AI 在「工具協作」與「抗干擾」能力的不足。

整體而言,MCP-Universe 基準測試證實,現有大型語言模型雖在一般任務表現優異,但在真實多工具、多領域環境下仍有明顯不足。未來模型需加強四大瓶頸,才能真正落地於企業與產業場景。

>延伸閱讀:「誰說不玩了?」宏達電靠AI眼鏡拔4根漲停,VIVE Eagle如何迎戰Meta、Google?

資料來源:Salesforce AI Researchdigitalinformationworld

本文初稿為 AI 編撰,整理.編輯/ 李先泰

往下滑看下一篇文章
以技術突圍,星路科技攜手夥伴開拓台灣低軌衛星產業新局
以技術突圍,星路科技攜手夥伴開拓台灣低軌衛星產業新局

全球衛星產業正迎來前所未有的成長契機。高盛研究報告〈The global satellite market is forecast to become seven times bigger〉預估,2025年至2030年間,全球衛星營運商將發射多達7萬顆低軌衛星,帶動從衛星發射、衛星製造、地面終端、網路管理等周邊產業蓬勃發展,市場規模將從當前的150億美元飆升至1,080億美元以上。這場衛星產業變革不僅吸引跨界國際巨擘投入,也讓星路科技等台灣業者擁有切入國際供應鏈、甚至是引領市場發展的機會。

星路科技董事長謝森芳表示:「在日常生活的每一個角落,無線通訊技術早已成為不可或缺的存在,智慧型手機、物聯網、高鐵到醫療設備都仰賴穩定的通訊網路支撐。」值得特別注意的是,過去,市場對衛星通訊的印象不外乎高成本、複雜、專用領域,但低軌衛星技術帶來的低延遲與全球覆蓋正在改變市場遊戲規則。星路科技憑藉自主研發的次世代封包交換系統–PSMA–突破傳統架構瓶頸,讓高速移動通訊成為可能,並成功參與台灣國家太空中心的標案,以及在國際市場展開關鍵布局。「隨著星路科技進入快速擴展期,資本運作必須適度調整,接下來將透過對外募資的方式,以回應市場對衛星通訊日益增長的需求。」

星路科技董事長 謝森芳
星路科技董事長 謝森芳
圖/ 數位時代

台灣衛星產業價值鏈逐漸成形,星路科技以持續創新加速全球布局

台灣的衛星通訊技術日漸成熟,從軟體技術、零組件、設備到系統整合等能力皆可接軌國際,在眾多業者中,星路科技憑藉著衛星地面站到用戶終端設備的一條龍服務能量,以及在國際合作、產品創新、營運布局與戰略聯盟四個面向的亮眼成果,成為推動全球衛星通訊產業新秩序的關鍵力量。

首先是透過國際合作展開全球佈局。星路科技宣布與印尼國家級衛星業者Telkomsat展開技術與商業服務合作,將自主研發的SkySwitch衛星通訊平台導入印尼的高通量衛星「Merah Putih 2」,未來服務將覆蓋印尼全境–17,000座島嶼與615萬平方公里海域,協助Telkomsat以更穩定、高效且具成本優勢的方式提供衛星通訊服務,並在龐大的群島市場建立新優勢。

星路科技總經理賈和凱進一步解釋:「SkySwitch衛星通訊平台的核心是PSMA系統,結合多址接取技術,讓單一數據機可同時連線多個終端節點,不僅可降低建置與營運成本,亦十分適合車輛、船舶、飛行器乃至無人載具等高速移動場景使用。」事實上,SkySwitch的卓越動態通訊能力不僅讓星路科技成功打進印尼市場,也獲得多國政府與軍方關注,成為具備戰略價值的衛星通訊解決方案供應商。

其次是持續不斷的產品創新。例如順利完成台灣國家太空中心(TASA)的公開招標案、推出首款支援Ku-band頻段的電子式相控陣列終端設備。賈和凱進一步解釋,星路科技以相控陣列技術研發的新一代電子掃描天線,不僅具備IP67防水等級、超過49dBW的發射功率、250Mbps的低軌傳輸速率,還具備不同衛星軌道與衛星波束的切換的能力,再加上隨插即用且低廉維運成本,不僅適合海事市場,亦有進入大眾市場的潛力。

星路科技總經理 賈和凱
星路科技總經理 賈和凱
圖/ 數位時代

低軌衛星世代已至,星路科技攜手台亞衛星通訊打造最佳解方

再來是與台亞衛星通訊聯合申請衛星通訊營運軌照,預計在今(2025)年底前即可提供台灣市場合法且高品質的衛星通訊商用服務,帶動衛星通訊與相關產業發展。台亞衛星通訊總經理郭育鈞表示:「星路科技的產品有助於提升頻寬效率與支援動態通訊,而我們則擅長衛星頻譜、地面站與系統整合等,雙方合作等於是將『衛星上空』到『地面應用』形成完整鏈結,可以更快速且精準的滿足市場需求。」
也因如此,雙方除在台灣聯合申請衛星通訊營運軌照,也積極布局印尼等海外市場例如,台亞衛星通訊藉由星路科技與Telkomsat共同打造的通訊生態體系,透過衛星智慧物聯網機制,在印尼提供AI驅動的遠距醫療、氣象預測、精準農業等服務。

最後,同時也是最重要的是,星路科技將與展開更深層次的合作,共同推動產業升級,提供更多元且優質的衛星通訊解決方案。對此,謝森芳認為:「全球衛星通訊迎來一個全新世代,在這個關鍵時刻,星路科技不僅會持續投入創新研發,也會從市場需求出發,攜手夥伴提供最佳方案,讓台灣不只是被看見,還可以在新一波衛星通訊變革中引領潮流。」

總的來說,在這一波低軌衛星全球競賽中,星路科技不僅僅是參與者,更是推動者,接下來,將持續透過技術創新、跨國合作、產業鏈布局等方式強化競爭優勢,攜手價值鏈夥伴一同為台灣衛星通訊產業寫下新的篇章。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓