觀點 | 專家也擋不住了?「人類最後測驗」被破解,AI正在進化成獨立代理人
觀點 | 專家也擋不住了?「人類最後測驗」被破解,AI正在進化成獨立代理人

自1956年人工智慧這個詞興起以來,研究者為何為人工智慧的試金石不斷地討論和更新。最近,「人類最後的測驗」(Humanity's Last Examination,HLE)競賽有了最新結果。在所有獨立基礎模型供應商中,Google DeepMind取得了最高分。

而不久後,Zoom透過「聯邦式架構」(federated approach)提升了成績,該方法整合了來自多個合作夥伴,包括OpenAI、Anthropic和Google的多個基礎模型,以產生更優異的結果。這清楚地預示了未來AI應用的演進方向。

什麼是「人類最後的測驗」?它是一項專門測試學術知識和推理能力的考試,其題目無法單靠原始記憶或網路搜尋來解決。

這項測驗由來自全球50多個國家、超過1,000名專家共同出題,於2025年1月正式推出。在審核測驗題目時,若該問題能透過網路搜尋找到答案,或已被現有的大型語言模型(LLM)破解,就會被剔除。其目標是挖掘出必須具備邏輯推理能力,且無法輕易透過搜尋引擎解決的難題。

此外,約14%的題目屬於多模態(multimodal),這代表AI必須理解圖表或影像才能作答。測試分為2種模式:

一、純模型模式: 不連接任何工具,單純依靠大型語言模型已有的知識。在此方法下,目前的最佳成績為37.5%。

二、外掛工具模式: 系統可使用網頁搜尋背景知識、生成程式碼並執行程式。在這種模式下,成績提升至45.8%。

這2項頂尖紀錄均由Gemini 3.5 Pro於2025年11月創下,隨後12月初,Zoom採用其聯邦式架構將分數推升至48.1%。

據估計,人類專家在各自領域的正確率可達95%。顯然,在各專業領域,AI仍不如人類專家,但進步趨勢驚人——2025年初測驗剛發布時,最高分還不到20%。

而且,若以涵蓋領域的廣度,不但沒有任何一個人可以在這項測試達到同樣的成績,即使組織一組專家團隊解題,也是一個耗費資源和時間的挑戰。如今,透過調度基礎模型的應用程式介面(API),一名獨立開發者就可能組織和領導一組AI的代理人。

這帶給我們第1個啟示:AI不再只是輔助人類執行任務的工具。 現在眾人熱議的「代理人」(Agents),正是指AI能像代理人一樣獨立承接並解決問題。它能自主調用工具,例如透過網路搜尋查找定義與知識,或撰寫並執行程式進行精確運算,而非僅僅依賴語言模型的機率預測。

AI代理人正對軟體產業產生巨大衝擊。去年,使用者習慣每月支付20美元使用聊天機器人;而2025年隨著AI代理人承擔了大部分的軟體開發任務,Anthropic Claude Code Max每月200美元的方案已在業界獲得極大回響,因為使用者實質感受到了生產力的躍升。

Claude Code
Anthropic旗下的AI編碼助手Claude Code。
圖/ Claude Code

精明調度,多模型勝過單一模型

第2個啟示:沒有任何一個基礎模型能永遠稱霸。 Zoom的聯邦式架構證明了:透過智慧化的任務編排(orchestration)與調度,並讓不同的AI代理人互相協作,可以達到更好的效果。

這對台灣尤其有參考價值。即使我們不一定能自行開發大規模的基礎模型,仍可透過聰明的調度策略,深入理解如何極大化各種模型的優勢,並結合我們在特定垂直領域(special domain)的專業知識,來優化AI模型的表現。

目前已有許多在特定任務中運用多模型的案例。例如最近的《紐約時報》播客《Hard Fork》提到,從FutureHouse拆分出來的美國公司Edison Scientific推出了名為Kosmos的AI代理人,旨在協助科學研究。使用者只須向系統描述研究問題,系統便會獨立進行約12小時的研究後回報結果。Kosmos定價高達每次提示(per prompt)200美元。公司CEO的估計是Kosmos可能達到一位科研人員3至6個月的研究成果。

若以此推算,投資200美元非常划算。像美國新創Sierra也是以調度多個基礎模型為基礎,提供代理人服務給客戶。它以新的商業模式、完成任務為指標來收費。這種以結果為準的收費模式,更好聯繫客戶及AI廠商的利益,比傳統by seat(座位制)或by API call(調用次數)更好傳達AI提供的價值。

關於HLE測驗的另一個反思是:既然AI快速達到多項里程碑(如在2024年獲得國際數學奧林匹亞銀牌後,隨即在隔年達到金牌水準),擁有一個足以挑戰AI數年之久的基準測試是件好事。但AI能力的持續飆升也對人類社會構成了挑戰。

2025年12月初,知名投資家馬克斯(Howard Marks)發表了一篇「AI是泡沫嗎?」的備忘錄。他全面總結了歷史事件(如2000年網際網路股市泡沫)及早期技術革新(如鐵路和無線電)在投資市場上的表現,並提出論點證明泡沫論的正反兩面皆有理據。他總結:「既然沒人能斷言這是否為泡沫,我建議大家不要孤注一擲,要意識到如果情況惡化,自己將面臨破產的風險。但同樣地,也不該孤注一擲,從而錯失重大的技術進步。採取適度的策略,並輔以選擇性和謹慎,似乎是最佳方案。」

令我感觸最深的是,他不只從金融投資者的角度擔心風險,更憂心AI對社會的潛在衝擊。從趨勢來看,AI導致的失業已成事實,例如Waymo在美國多個城市的自駕服務持續擴張;從軟體產業的招聘與裁員趨勢來看,初階開發職位的門檻已提高。

長期而言,我們樂觀相信社會將會適應,人們會透過學習與技能重塑(reskill)找到新機會。但在短期內,難以快速轉型的人將面臨困境。「AI給人類的考卷」是:我們該如何善用AI來極大化全人類的福祉,同時能有效控管其負面影響?

延伸閱讀:a16z年度資訊長大調查:大企業最愛用哪一家AI?這家狂追OpenAI,成最大黑馬

責任編輯:蘇柔瑋

往下滑看下一篇文章
從「存資料」到「用知識」:網創資訊攜手浪LIVE,讓 AI 成為最懂企業的內容幫手
從「存資料」到「用知識」:網創資訊攜手浪LIVE,讓 AI 成為最懂企業的內容幫手

對已經成熟發展的企業來說,最大的挑戰不是如何創新,而是經驗無法有效傳承,而生成式 AI 的價值正在於此,它讓分散的知識從「共同保存」走向「即時運用」,使組織得以在既有經驗之上,持續累積能力並向上成長。

由旭瑞文化傳媒成立、全台最大直播平台浪LIVE,正是這種轉變的最佳寫照。「我們其實一直都有在整理內部的知識、技術文件和作業流程規範,但做法比較像是集中在倉庫裡,雖然找得到,卻不一定用得快。」旭瑞文化傳媒技術研發中心技術總監黎欣捷(James)形容。

網創X浪Live-2.jpg
浪LIVE 攜手網創資訊導入 AI 知識管理系統 NAVI,打造出一顆可以分析與調用歷史資料並產製新內容的「企業智慧大腦」
圖/ 數位時代

為此,浪LIVE 攜手網創資訊導入 AI 知識管理系統 NAVI,打造出一顆可以分析與調用歷史資料並產製新內容的「企業智慧大腦」,讓經驗不再只是被保存,而能實際參與日常營運流程。網創資訊總經理吳炳鈞進一步說明,這是因為 NAVI 將浪LIVE既有資料整理成可被運用的知識基礎,並在此基礎上生成內容,故能真正融入浪LIVE使用場景,提升文章產製與活動規劃的效率。

用 AI 提速,回應高頻、快節奏的營運需求

作為直播產業的領導平台,浪LIVE 不僅市占率超過 50%,每月活躍用戶數更高達 40-50 萬人。能夠寫下高黏著度、高互動率的成績,除了堅持以才藝直播為主軸、在市場上做出差異化特色,快速更新的內容與密集的行銷活動,同樣是浪LIVE 維繫用戶黏著度的關鍵。

網創X浪Live-3-2.png
旭瑞文化傳媒技術研發中心技術總監黎欣捷表示,透過NAVI能夠有效提升文章產出與活動企劃的效率。
圖/ 數位時代

黎欣捷表示,浪LIVE 每日都會更新社群貼文與文章內容、每個月平均規劃約 20 至 25 檔活動,不僅內容產出量龐大,對速度的要求也極高。編輯團隊在完成採訪後,必須在最短時間內產出文章,且要符合品牌的風格和版型,而營運團隊不僅要不斷發想新的玩法,還得預先估算不同設計下的投資報酬率、參與人數等機率,以確保活動能兼顧創意與成效。

這種高頻的營運節奏不僅極具挑戰性,還容易使團隊感到疲憊。因此,浪LIVE 開始思考如何利用 AI 來提升文章產出與活動企劃的效率,而 NAVI 正是思考後的最佳解答。

應用場景1:文章產製,不再從零開始

吳炳鈞進一步說明,網創資訊如何協助浪LIVE 將 NAVI 應用於文章產製與活動企劃。

先就文章產製來看,網創資訊將浪LIVE 過往累積的大量文章匯入 NAVI,由系統學習品牌文章的語氣與編排方式,及不同編輯的寫作風格並加以分類。之後,編輯只要提供採訪逐字稿或相關素材,並指定想要的文章風格,NAVI 便可依此生成初稿,再由編輯進行調整與潤飾,大幅加快整體產出速度,也讓編輯可以將更多心力投入內容品質的把關與主題發掘,用快速更新而主題有趣的文章,吸引會員持續留在平台。

網創X浪Live-4.jpg
網創資訊總經理吳炳鈞進一步說明, NAVI 將浪LIVE既有資料整理成可被運用的知識基礎,並在此基礎上生成內容,才能真正融入浪LIVE使用場景。
圖/ 數位時代

吳炳鈞強調,NAVI 不是憑空寫文章,而是根據企業過去累積的內容與規範來生成,這樣的產出結果,才會更貼近原本的品牌風格與實際需求。更重要的是,網創資訊還能根據客戶使用情境進行客製化調整。例如,NAVI 可以整合圖片和文字,生成一篇圖文並茂的文章,並同步輸出對應的 HTML 程式碼,浪LIVE 編輯只需貼至後台系統,就能完成上稿作業,不必再花費大量時間去調整版面配置。

網創X浪Live-5.jpg
網創資訊業務經理Hailey Ouyang表示,NAVI 在產出文章的同時,可以同步輸出對應的 HTML 程式碼,減輕浪LIVE 編輯的上稿作業負擔。
圖/ 數位時代

應用場景2:活動規劃,從歷史經驗找出新玩法

再就活動規劃來看,網創資訊同樣先將浪LIVE 的歷史活動範本、禮物清單與獎勵機制導入 NAVI,由系統學習營運團隊在發想活動時的思維脈絡,之後,團隊成員只要輸入關鍵字,NAVI 就能建議相應的活動方式與獎勵組合,作為活動規劃時的參考。

黎欣捷認為,NAVI 就像一位資深顧問,不僅提供更多元的視角與玩法建議,縮短活動規劃所需的時間和心力,也能即時調閱過往經驗,協助團隊跳脫個人思考盲點,避免重複規劃過去已經做過的活動內容。

吳炳鈞進一步以禮物清單為例,說明 NAVI 帶來的效益。浪LIVE每一檔活動都需要重新設計禮物或做不同的組合搭配,因此資料庫已累積上百種不同類型的禮物,這使得團隊成員在規劃活動時,常常要花很多時間去發想新禮物或搜尋資料。而在導入NAVI後,系統可以根據歷史資料提供合適的禮物搭配建議,協助團隊在規劃新活動時,更有效率地運用既有資源。

網創X浪Live-6.jpg
NAVI可以根據歷史資料提供合適的禮物搭配建議,協助浪LIVE團隊在規劃新活動時,更有效率地運用既有資源。
圖/ 網創資訊

不只生成內容:NAVI 三大特色,讓 AI 真正嵌入企業流程

在資料管理與內容生成外,網創資訊也從企業管理需求出發,規劃出以下 3 大系統特色,使 NAVI 得以真正融入企業的營運流程中。

第一,NAVI 支援至少 20種大型語言模型,能因應不同使用需求,處理文字、圖片、音訊和影片等多種形式的內容。第二,系統可部署於私有雲或地端環境,讓資料能留在企業內部,降低被外部 AI 模型使用的疑慮。第三,整合 AD 身份驗證與授權機制,可依部門和角色別去設定資料存取權限,確保 AI 在回應問題或產生內容時,只會引用該使用者可存取的資料範圍,避免誤用或資料外洩的風險。吳炳鈞補充,由於系統可進行部門切割,也能進一步統計各單位的使用量,方便企業進行內部成本分攤與管理。

「企業需要的是能嵌入流程的 AI,而不是只會回答問題的工具。」吳炳鈞指出,因此 NAVI 一開始就定位在企業知識管理系統,從而發展上述系統設計。近年來,因應 AI Agent 趨勢,網創資訊亦將相關概念融入 NAVI,使系統具備更高的主動性,能依任務需求串接不同資料庫與內部系統,協助使用者完成特定工作流程。

網創X浪Live-7.jpg
網創資訊PM Keith Hsu指出,NAVI 融入 AI Agent 概念後,具備更高的主動性,能依任務需求串接不同資料庫與內部系統,協助使用者完成特定工作流程。
圖/ 數位時代

未來,網創資訊將持續與浪LIVE 深化合作,逐步導入更多內容至系統中、拓展更多應用場景。也期待在與客戶合作的過程中,共同發掘更多具體的應用靈感,並視需求開發對應功能,持續放大知識與經驗的價值,讓技術不只停留在工具層次,而能真正轉化為企業成長的動能。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
2026 大重啟
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓