觀點 | 專家也擋不住了?「人類最後測驗」被破解,AI正在進化成獨立代理人
觀點 | 專家也擋不住了?「人類最後測驗」被破解,AI正在進化成獨立代理人

自1956年人工智慧這個詞興起以來,研究者為何為人工智慧的試金石不斷地討論和更新。最近,「人類最後的測驗」(Humanity's Last Examination,HLE)競賽有了最新結果。在所有獨立基礎模型供應商中,Google DeepMind取得了最高分。

而不久後,Zoom透過「聯邦式架構」(federated approach)提升了成績,該方法整合了來自多個合作夥伴,包括OpenAI、Anthropic和Google的多個基礎模型,以產生更優異的結果。這清楚地預示了未來AI應用的演進方向。

什麼是「人類最後的測驗」?它是一項專門測試學術知識和推理能力的考試,其題目無法單靠原始記憶或網路搜尋來解決。

這項測驗由來自全球50多個國家、超過1,000名專家共同出題,於2025年1月正式推出。在審核測驗題目時,若該問題能透過網路搜尋找到答案,或已被現有的大型語言模型(LLM)破解,就會被剔除。其目標是挖掘出必須具備邏輯推理能力,且無法輕易透過搜尋引擎解決的難題。

此外,約14%的題目屬於多模態(multimodal),這代表AI必須理解圖表或影像才能作答。測試分為2種模式:

一、純模型模式: 不連接任何工具,單純依靠大型語言模型已有的知識。在此方法下,目前的最佳成績為37.5%。

二、外掛工具模式: 系統可使用網頁搜尋背景知識、生成程式碼並執行程式。在這種模式下,成績提升至45.8%。

這2項頂尖紀錄均由Gemini 3.5 Pro於2025年11月創下,隨後12月初,Zoom採用其聯邦式架構將分數推升至48.1%。

據估計,人類專家在各自領域的正確率可達95%。顯然,在各專業領域,AI仍不如人類專家,但進步趨勢驚人——2025年初測驗剛發布時,最高分還不到20%。

而且,若以涵蓋領域的廣度,不但沒有任何一個人可以在這項測試達到同樣的成績,即使組織一組專家團隊解題,也是一個耗費資源和時間的挑戰。如今,透過調度基礎模型的應用程式介面(API),一名獨立開發者就可能組織和領導一組AI的代理人。

這帶給我們第1個啟示:AI不再只是輔助人類執行任務的工具。 現在眾人熱議的「代理人」(Agents),正是指AI能像代理人一樣獨立承接並解決問題。它能自主調用工具,例如透過網路搜尋查找定義與知識,或撰寫並執行程式進行精確運算,而非僅僅依賴語言模型的機率預測。

AI代理人正對軟體產業產生巨大衝擊。去年,使用者習慣每月支付20美元使用聊天機器人;而2025年隨著AI代理人承擔了大部分的軟體開發任務,Anthropic Claude Code Max每月200美元的方案已在業界獲得極大回響,因為使用者實質感受到了生產力的躍升。

Claude Code
Anthropic旗下的AI編碼助手Claude Code。
圖/ Claude Code

精明調度,多模型勝過單一模型

第2個啟示:沒有任何一個基礎模型能永遠稱霸。 Zoom的聯邦式架構證明了:透過智慧化的任務編排(orchestration)與調度,並讓不同的AI代理人互相協作,可以達到更好的效果。

這對台灣尤其有參考價值。即使我們不一定能自行開發大規模的基礎模型,仍可透過聰明的調度策略,深入理解如何極大化各種模型的優勢,並結合我們在特定垂直領域(special domain)的專業知識,來優化AI模型的表現。

目前已有許多在特定任務中運用多模型的案例。例如最近的《紐約時報》播客《Hard Fork》提到,從FutureHouse拆分出來的美國公司Edison Scientific推出了名為Kosmos的AI代理人,旨在協助科學研究。使用者只須向系統描述研究問題,系統便會獨立進行約12小時的研究後回報結果。Kosmos定價高達每次提示(per prompt)200美元。公司CEO的估計是Kosmos可能達到一位科研人員3至6個月的研究成果。

若以此推算,投資200美元非常划算。像美國新創Sierra也是以調度多個基礎模型為基礎,提供代理人服務給客戶。它以新的商業模式、完成任務為指標來收費。這種以結果為準的收費模式,更好聯繫客戶及AI廠商的利益,比傳統by seat(座位制)或by API call(調用次數)更好傳達AI提供的價值。

關於HLE測驗的另一個反思是:既然AI快速達到多項里程碑(如在2024年獲得國際數學奧林匹亞銀牌後,隨即在隔年達到金牌水準),擁有一個足以挑戰AI數年之久的基準測試是件好事。但AI能力的持續飆升也對人類社會構成了挑戰。

2025年12月初,知名投資家馬克斯(Howard Marks)發表了一篇「AI是泡沫嗎?」的備忘錄。他全面總結了歷史事件(如2000年網際網路股市泡沫)及早期技術革新(如鐵路和無線電)在投資市場上的表現,並提出論點證明泡沫論的正反兩面皆有理據。他總結:「既然沒人能斷言這是否為泡沫,我建議大家不要孤注一擲,要意識到如果情況惡化,自己將面臨破產的風險。但同樣地,也不該孤注一擲,從而錯失重大的技術進步。採取適度的策略,並輔以選擇性和謹慎,似乎是最佳方案。」

令我感觸最深的是,他不只從金融投資者的角度擔心風險,更憂心AI對社會的潛在衝擊。從趨勢來看,AI導致的失業已成事實,例如Waymo在美國多個城市的自駕服務持續擴張;從軟體產業的招聘與裁員趨勢來看,初階開發職位的門檻已提高。

長期而言,我們樂觀相信社會將會適應,人們會透過學習與技能重塑(reskill)找到新機會。但在短期內,難以快速轉型的人將面臨困境。「AI給人類的考卷」是:我們該如何善用AI來極大化全人類的福祉,同時能有效控管其負面影響?

延伸閱讀:a16z年度資訊長大調查:大企業最愛用哪一家AI?這家狂追OpenAI,成最大黑馬

責任編輯:蘇柔瑋

往下滑看下一篇文章
第6屆Meet大南方倒數!352組商機媒合、六大解方展區,帶問題進場就能找到解方
第6屆Meet大南方倒數!352組商機媒合、六大解方展區,帶問題進場就能找到解方

2026年8月28日(五)至29日(六),Meet大南方將於高雄展覽館展開第6屆展會,並於即日起正式啟動招商。

近兩年,南台灣企業開始出現一種很明顯的變化。

他們不再只是「想了解AI」,而是開始問:「這個東西能不能直接解決我的問題?」

在高雄,重工業與製造業面臨缺工與淨零轉型壓力;台南的高值製造聚落,開始加速導入自動化與數位管理工具;嘉義與屏東則分別圍繞無人機、智慧農業與綠能產業,形成新的區域應用場景。

這些變化背後,其實都指向同一件事:南台灣的企業需求,正在從「理解新科技」,轉向「尋找可立即落地的解方」。

#4 2026Meet大南方徵展
在破萬人流的展會現場,企業觀展者透過第一線交流快速比較不同解方與合作可能。
圖/ Meet創業小聚

而這也讓企業尋找解方的方式,開始改變。

過去,企業與新創及科技團隊的連結,多半依賴長期業務開發、人脈介紹,或零散的展會接觸;但在決策速度加快的情況下,企業更傾向在短時間內完成資訊比較、方案評估與初步媒合。

這也是為什麼,近年愈來愈多以「解方對接」為核心的場域開始出現。

以Meet大南方為例,2025年展會共促成352組商機媒合,較前一年成長2.7倍。在相近的展商規模下,媒合效率的提升,反映的並不只是活動熱度,而是企業需求正在快速集中。

AI已經不是重點,能不能落地才是

AI、自動化、ESG,幾乎已經成為所有產業論壇都會出現的關鍵字。

但對許多企業來說,問題早已不是「知不知道」,而是「能不能用」。

例如:
- AI能不能直接改善產線良率?
- 碳管理工具能不能真的降低營運壓力?
- 數位工具能不能解決人力不足?
- 自動化系統導入後,多久能看見效率提升?

比起概念,企業開始更在意落地性與導入成本。這也讓市場需求逐漸從「趨勢理解」,轉向更務實的「問題解決」。

比起曝光,現在的企業更在意能不能合作

在這樣的背景下,展會的角色也開始改變。

過去,展會更像品牌曝光與市場宣傳的平台;但現在,愈來愈多企業是帶著具體需求走進現場,希望在短時間內找到可以評估、比較,甚至直接進入合作討論的對象。

#0 2026Meet大南方徵展
企業需求加速浮現,也讓愈來愈多解方提供者選擇透過展會與企業直接對接。
圖/ Meet創業小聚

對解方提供者而言,這也意味著另一種市場接觸方式正在形成。

相較於傳統陌生開發,透過展會、媒合機制與現場交流活動,能在更短時間內接觸到大量潛在客戶,並快速理解區域市場的需求輪廓。

Meet大南方近年所強化的,也正是這類「高密度對接」。

除了展區展示外,現場也透過企業媒合會、投資人交流、新創社群活動等形式,增加需求方與解方之間的直接互動機會。

某種程度上,展會正在從「展示技術」,轉向「協助企業尋找答案」。

企業不是為了「看AI」而來,而是想解決缺工與效率問題

2026年Meet大南方將以「Meet Your BEST Solution」為核心主軸,並將展區重新調整為六大「解方區」,直接對應企業經營現場最常見的問題情境。

展區類別包括:
- 智慧製造與產線升級
- 數位管理與企業效率
- 醫療健康與高齡照護
- 淨零碳排與綠能永續
- 品牌轉型與跨境行銷
- 未來零售與餐飲科技

#3 2026Meet大南方徵展
為貼近企業需求,展會特別規劃六大解方展區,讓企業觀展者更有效率地找到對應解方。
圖/ Meet創業小聚

相較於以技術類型區分,這樣的方式更接近企業的思考邏輯。

企業不是為了「看AI」而來,而是為了解決效率、成本、缺工與轉型問題。而對新創與解方團隊而言,也更容易在具體場景中,被真正有需求的人看見。

南台灣缺的不是需求,而是有效的對接

從半導體供應鏈、製造業升級,到淨零與數位轉型需求快速增加,南台灣正在形成一個與過去不同的產業節奏。

這裡需要的,不再只是遙遠的科技想像,而是能真正進入工廠、辦公室與營運現場的實用工具。

#1 2026Meet大南方徵展
今年Meet大南方將於8/28、8/29在高雄展覽館舉辦。
圖/ Meet創業小聚

當企業開始加速尋找答案,市場也正在重新建立需求與解方的連結方式。

2026年8月28日至29日,Meet大南方將於高雄展覽館舉辦第6屆展會。在產業轉型持續推進的背景下,這類以解方對接為核心的場域,也逐漸成為南台灣企業與科技團隊建立連結的重要入口。

展會基本資料

2026 Meet Greater South 亞灣新創大南方
時間:8/28 (五)、8/29 (六)
地點:高雄展覽館北館
官網:https://meetgreatersouth.tw/

徵展起跑!新創享專屬免費方案
早鳥優惠至6/8,報名收件至7/3  >> 瞭解詳情

關鍵字: #創新創業

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣20
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓