觀點 | 專家也擋不住了?「人類最後測驗」被破解,AI正在進化成獨立代理人
觀點 | 專家也擋不住了?「人類最後測驗」被破解,AI正在進化成獨立代理人

自1956年人工智慧這個詞興起以來,研究者為何為人工智慧的試金石不斷地討論和更新。最近,「人類最後的測驗」(Humanity's Last Examination,HLE)競賽有了最新結果。在所有獨立基礎模型供應商中,Google DeepMind取得了最高分。

而不久後,Zoom透過「聯邦式架構」(federated approach)提升了成績,該方法整合了來自多個合作夥伴,包括OpenAI、Anthropic和Google的多個基礎模型,以產生更優異的結果。這清楚地預示了未來AI應用的演進方向。

什麼是「人類最後的測驗」?它是一項專門測試學術知識和推理能力的考試,其題目無法單靠原始記憶或網路搜尋來解決。

這項測驗由來自全球50多個國家、超過1,000名專家共同出題,於2025年1月正式推出。在審核測驗題目時,若該問題能透過網路搜尋找到答案,或已被現有的大型語言模型(LLM)破解,就會被剔除。其目標是挖掘出必須具備邏輯推理能力,且無法輕易透過搜尋引擎解決的難題。

此外,約14%的題目屬於多模態(multimodal),這代表AI必須理解圖表或影像才能作答。測試分為2種模式:

一、純模型模式: 不連接任何工具,單純依靠大型語言模型已有的知識。在此方法下,目前的最佳成績為37.5%。

二、外掛工具模式: 系統可使用網頁搜尋背景知識、生成程式碼並執行程式。在這種模式下,成績提升至45.8%。

這2項頂尖紀錄均由Gemini 3.5 Pro於2025年11月創下,隨後12月初,Zoom採用其聯邦式架構將分數推升至48.1%。

據估計,人類專家在各自領域的正確率可達95%。顯然,在各專業領域,AI仍不如人類專家,但進步趨勢驚人——2025年初測驗剛發布時,最高分還不到20%。

而且,若以涵蓋領域的廣度,不但沒有任何一個人可以在這項測試達到同樣的成績,即使組織一組專家團隊解題,也是一個耗費資源和時間的挑戰。如今,透過調度基礎模型的應用程式介面(API),一名獨立開發者就可能組織和領導一組AI的代理人。

這帶給我們第1個啟示:AI不再只是輔助人類執行任務的工具。 現在眾人熱議的「代理人」(Agents),正是指AI能像代理人一樣獨立承接並解決問題。它能自主調用工具,例如透過網路搜尋查找定義與知識,或撰寫並執行程式進行精確運算,而非僅僅依賴語言模型的機率預測。

AI代理人正對軟體產業產生巨大衝擊。去年,使用者習慣每月支付20美元使用聊天機器人;而2025年隨著AI代理人承擔了大部分的軟體開發任務,Anthropic Claude Code Max每月200美元的方案已在業界獲得極大回響,因為使用者實質感受到了生產力的躍升。

Claude Code
Anthropic旗下的AI編碼助手Claude Code。
圖/ Claude Code

精明調度,多模型勝過單一模型

第2個啟示:沒有任何一個基礎模型能永遠稱霸。 Zoom的聯邦式架構證明了:透過智慧化的任務編排(orchestration)與調度,並讓不同的AI代理人互相協作,可以達到更好的效果。

這對台灣尤其有參考價值。即使我們不一定能自行開發大規模的基礎模型,仍可透過聰明的調度策略,深入理解如何極大化各種模型的優勢,並結合我們在特定垂直領域(special domain)的專業知識,來優化AI模型的表現。

目前已有許多在特定任務中運用多模型的案例。例如最近的《紐約時報》播客《Hard Fork》提到,從FutureHouse拆分出來的美國公司Edison Scientific推出了名為Kosmos的AI代理人,旨在協助科學研究。使用者只須向系統描述研究問題,系統便會獨立進行約12小時的研究後回報結果。Kosmos定價高達每次提示(per prompt)200美元。公司CEO的估計是Kosmos可能達到一位科研人員3至6個月的研究成果。

若以此推算,投資200美元非常划算。像美國新創Sierra也是以調度多個基礎模型為基礎,提供代理人服務給客戶。它以新的商業模式、完成任務為指標來收費。這種以結果為準的收費模式,更好聯繫客戶及AI廠商的利益,比傳統by seat(座位制)或by API call(調用次數)更好傳達AI提供的價值。

關於HLE測驗的另一個反思是:既然AI快速達到多項里程碑(如在2024年獲得國際數學奧林匹亞銀牌後,隨即在隔年達到金牌水準),擁有一個足以挑戰AI數年之久的基準測試是件好事。但AI能力的持續飆升也對人類社會構成了挑戰。

2025年12月初,知名投資家馬克斯(Howard Marks)發表了一篇「AI是泡沫嗎?」的備忘錄。他全面總結了歷史事件(如2000年網際網路股市泡沫)及早期技術革新(如鐵路和無線電)在投資市場上的表現,並提出論點證明泡沫論的正反兩面皆有理據。他總結:「既然沒人能斷言這是否為泡沫,我建議大家不要孤注一擲,要意識到如果情況惡化,自己將面臨破產的風險。但同樣地,也不該孤注一擲,從而錯失重大的技術進步。採取適度的策略,並輔以選擇性和謹慎,似乎是最佳方案。」

令我感觸最深的是,他不只從金融投資者的角度擔心風險,更憂心AI對社會的潛在衝擊。從趨勢來看,AI導致的失業已成事實,例如Waymo在美國多個城市的自駕服務持續擴張;從軟體產業的招聘與裁員趨勢來看,初階開發職位的門檻已提高。

長期而言,我們樂觀相信社會將會適應,人們會透過學習與技能重塑(reskill)找到新機會。但在短期內,難以快速轉型的人將面臨困境。「AI給人類的考卷」是:我們該如何善用AI來極大化全人類的福祉,同時能有效控管其負面影響?

延伸閱讀:a16z年度資訊長大調查:大企業最愛用哪一家AI?這家狂追OpenAI,成最大黑馬

責任編輯:蘇柔瑋

往下滑看下一篇文章
全台首創,永豐銀行將 FIDO 導入 DAWHO 多幣Debit卡,重塑行動交易安全體驗
全台首創,永豐銀行將 FIDO 導入 DAWHO 多幣Debit卡,重塑行動交易安全體驗

數位金融普及帶動交易頻率持續增長,如何在便利性與安全性間取得平衡,成為普遍銀行共同面臨的挑戰。以非約定轉帳為例,若使用者身處海外或電信訊號不良的地方,將會陷入無法進行簡訊OTP(One-Time Password)驗證的窘境,此外,使用者還可能遭遇惡意份子以先進技術側錄裝置、攔截簡訊與進行詐騙等風險,而且,銀行等金融機構還必須支付大筆費用維護簡訊OTP驗證機制的穩定性。

為解決傳統簡訊OTP驗證逐漸不敷使用的情況,同時,兼顧安全與體驗,永豐銀行領先同業,以FIDO(Fast Identity Online)技術重新設計非約定轉帳的認證流程:將 FIDO 私鑰置入晶片金融卡的晶片中,讓卡片透過 NFC (Near-Field Communication)感應與手機雙向認證,形成不依賴簡訊 OTP 的高安全交易模式。

簡訊OTP驗證機制逐漸不敷使用,永豐銀行推兼顧交易安全與使用便捷的最佳解方

「起心動念很簡單,就是為了解決客戶面臨的真實挑戰。」永豐商業銀行副總經理暨數位金融處處長嚴國瑞指出,FIDO 是全球通用的安全標準,而晶片金融卡既符合法規、客戶持有比例也高,如果將兩者合而為一,即可在不犧牲體驗的前提下提升安全強度。「客戶只要在 App 設定 FIDO 密碼,即可透過卡片 NFC 感應完成驗證。」確認產品概念後,接下來的關鍵是確認應用情境與載體。

永豐銀行會選擇DAWHO多幣Debit卡作為首波導入載體的原因也很明確:卡片客群包含頻繁往返海外的商務人士、遊學生、留學生,以及常在境外飛行、無法穩定接收台灣簡訊的空服員族群。「至於會聚焦在非約定轉帳這個應用場景的原因有二:首先是轉帳交易佔永豐銀行網銀交易的8成以上,其中,非約定轉帳又佔轉帳交易的7成以上;其次,非約定轉帳的頻率高、風險高,同時也是客戶最容易因為簡訊OTP驗證機制受阻的環節,是最適合導入高安全驗證技術的場域。」嚴國瑞副總經理如是說道。

從確認概念到產品落地,永豐銀行動員跨單位合作,並與 FIDO 聯盟及製卡公司共同開發,歷時 8 個多月完成監理門診、技術驗證、專利申請、國際認證與卡片製作等過程,於2025年 12 月正式推出。現在,所有新申辦 DAWHO 多幣 Debit 卡的客戶都可以體驗到FIDO驗證服務,後續也將逐步開放既有存戶換發。

永豐銀行
與一般晶片金融卡不同,DAWHO 多幣FIDO Debit 卡具備「FIDO密碼 + NFC感應」雙重驗證機制。即便密碼外洩,沒有卡片內的私鑰仍無法通過 FIDO 驗證,大幅降低交易安全風險。
圖/ 永豐銀行

嚴國瑞副總經理強調:「歡迎所有不易接收簡訊、有高頻非約定轉帳需求、對安全敏感度更高的客戶,以及無法使用生物辨識或接收簡訊的族群申請使用,自由選擇要以簡訊OTP或是FIDO機制進行交易認證,更好實踐『安全不設限,便利零距離』願景。」

積極滿足客戶體驗,永豐銀行以創新科技翻轉金融服務

永豐銀行秉持永豐金控持續科技創新的精神,以科技翻轉服務,滿足客戶金融服務體驗。接下來,將逐步擴大DAWHO多幣FIDO Debit卡的應用範疇,如行動銀行登入驗證、約定轉帳與跨境支付等高安全需求領域,同時,與更多元的數位金融服務整合,藉此提升整體交易安全,讓客戶在多元場景也可以享有一致且便捷的驗證體驗。

「我們的目標是讓安全成為習慣,讓驗證變得簡單。」嚴國瑞副總經理表示,永豐銀行除了以永豐DAWHO多幣FIDO Debit卡重新定義金融交易的安全與便利,也會持續從「多因子驗證」、「AI風控」、「裝置生物辨識(包含臉部、指紋等)」等面向強化交易安全,例如導入行動裝置綁定機制、以AI風險模型即時偵測異常交易,並結合生物辨識與FIDO機制打造全方位安全防護網,讓使用者在享受更及時、直覺的金融服務時,亦能確保安全無虞。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
2026 大重啟
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓