哪一款AI最會讀書?冠軍「不是ChatGPT」:5款主流AI大PK,只有「它」沒出現幻覺
哪一款AI最會讀書?冠軍「不是ChatGPT」:5款主流AI大PK,只有「它」沒出現幻覺

重點一:AI閱讀實測中,Claude以無「幻覺」的穩定表現奪冠,ChatGPT緊追在後,但整體AI得分偏低。

重點二:各家AI在文學、法律、科學及政治等不同領域的理解能力參差不齊,表現不一。

重點三:專家認為AI目前尚無法取代人類閱讀,尤其在重要文件處理上,僅能作為輔助工具。

時間來到2025年,生成式AI出現許多主打資料整合的功能,例如Google旗下的Notebook LM,抑或是各家推出的Deep Research功能皆然,其仰賴的都是AI模型的「閱讀能力」,以及輸入資料後的推理能力。

針對當前五款主流AI模型的閱讀能力 ,《華盛頓郵報》的實測結果顯示,由Anthropic公司開發的Claude表現最出色,在總體評分中奪冠,也是唯一未出現「幻覺」(hallucination,指AI捏造資訊)的AI,第二名則是OpenAI旗下的ChatGPT。

先說結論,撇除分數評級的高低,《華盛頓郵報》測試結果顯示,當前AI在深度理解與分析上仍有顯著不足,整體平均得分僅約70%,相當於學術評級中的D+,顯示AI的閱讀理解能力仍有極大進步空間。

AI閱讀各有所長:Claude擅長法律、ChatGPT較懂文學

《華盛頓郵報》本次評估了包含Claude、ChatGPT、Copilot、Meta AI,以及Google的Gemini五款AI。測試範圍涵蓋文學小說、法律合約、醫學研究及政治演說四大領域,並由各領域專家對AI的回答進行盲評,其結果如下:

文學領域:ChatGPT 7.8;Claude 7.3;Meta AI 4.3;Copilot 3.5;Gemini 2.3。
法律領域:Claude 6.9;Gemini 6.1;Copilot 5.4;ChatGPT 5.3;Meta AI 2.6。
健康科學領域:Claude 7.7;ChatGPT 7.2;Copilot 7;Gemini 6.5;Meta AI 6。
政治領域:ChatGPT 7.2;Claude 6.2;Meta AI 5.2;Gemini 5;Copilot 3.7。

總體得分而言:

Claude:69.9
ChatGPT:68.4
Gemini:49.7
Copilot:49
Meta AI:45

總結來說,Claude以些微分差勝過ChatGPT,至於Gemini、Copilot、Meta AI,則落於50分以下評級。值得一提的是,Claude為唯一未產生幻覺的AI。

本次測試的文件,在文學方面為小說《The Jackal’s Mistress》、在醫學方面為COVID-19、帕金森氏症的醫學論文、在法律方面為租賃協議及建築承包合約,在政治領域則為川普的演講文件。

結果顯示,AI在不同專業領域的表現差異甚大。例如,ChatGPT在文學和政治類別中表現較佳,但在法律文件的理解上則落後;Claude則在法律和健康科學領域取得最高分。

然而,即使是表現最好的Claude,其在文學領域的評分也非頂尖,而Gemini在文學理解方面,甚至出現了被評審形容為「不準確、誤導且草率」的解讀,甚至有種企圖矇混過關的感覺。

值得注意的是,除了Claude,其餘四款AI均在測試中出現了程度不一的資訊捏造情況。這證實了AI閱讀長文的能力仍有限,故生成摘要常有遺漏重要資訊,或過度強調正面內容而忽略負面細節的問題。

註1:原文測試時間為2025年4月至5月,所使用的AI版本為:ChatGPT-4o、Gemini 2.0 Flash、Claude 3 Sonnet、Llama 4、Copilot for Microsoft 365。

註2:評審對每個AI答案進行10分制評分,每個學科領域的得分是所有評分的平均值。總分為四個學科領域賦予同等權重,並以100分制呈現。

專家總結:AI難取代真人閱讀

儘管部分AI在特定分析性問題上展現出令人驚豔的能力,例如ChatGPT總結小說的摘要及書評,或是Claude對修訂法律文件提出的建議、協助產出醫學論文的洞察等。但整體而言,專家們對當前AI的閱讀理解能力仍持謹慎態度。

例如參與評審的企業律師Sterling Miller指出,AI在法律文件處理上的表現不夠穩定,尚不能替代專業律師;小說家Chris Bohjalian則表示,AI的回答有時像是「戴著人類面具的機器人」,假裝理解實則不然。

至於主持測試的記者則建議,若要使用AI協助閱讀,最好同時使用至少兩款工具進行比較,並且對於攸關個人權益的重要文件,仍應親自仔細閱讀。

總地來說,AI目前可作為一種輔助工具,例如協助快速掌握新主題、解讀專業術語,但不應完全依賴其結果。

延伸閱讀:中華電信不配被信任?一文解析「Google撤銷憑證」關鍵點:背後隱藏3大管理缺失
補強電商物流的關鍵拼圖:第三方物流是什麼?4大超商取貨戰力、業績一次看

責任編輯:李先泰

本文初稿為AI編撰,整理.編輯/ 李先泰

資料來源:華盛頓郵報

關鍵字: #Google #meta #openai
往下滑看下一篇文章
從競賽激發創新力,第一銀行如何以AI打造差異化競爭優勢、型塑數位生活圈?
從競賽激發創新力,第一銀行如何以AI打造差異化競爭優勢、型塑數位生活圈?

Deloitte研究指出,導入人工智慧(AI)技術不僅有助於金融業者在短時間內提升5%到7%的營收,長期來看,漲幅高達10%到15%,換言之,AI不僅是科技趨勢,更是金融業邁向永續競爭的關鍵動能。

觀察到上述趨勢,第一銀行不僅透過AI加速創新轉型能量、提出名為GALA的生成式人工智慧行動方案,更舉辦「2025年第一銀行DigitALL黑客松」競賽,吸引總、分行單位逾50隊參賽,以內部競賽方式激發創新,打造一個全行共享、員工賦能的智慧金融場景服務。

聚焦三大面向,第一銀行以AI策略加速創新轉型能量

為什麼第一銀行能夠快速回應AI浪潮並做出最佳行動?原來,第一銀行早在2014年就展開數位轉型,並將AI視作驅動業務創新與流程優化的關鍵角色、廣泛應用在風險預測、詐騙防制、精準行銷,以及法金與個金的客群洞察等領域,持續擴大創新轉型能量與產業影響力。

為極大化AI帶來的創新轉型綜效,第一銀行將AI策略聚焦在三個面向:第一,將AI定位從工具轉變為全員賦能的關鍵,讓AI融入業務流程與決策機制,成為第一銀行的數位轉型基礎設施;第二,透過自研AI模型與外部合作的方式提升技術服務能量、加速AI賦能應用服務落地;第三,將AI應用場域從提升內部效率與優化風控擴展到客戶體驗與產品創新,化身成客戶最值得信賴的銀行。

例如,針對傳統授信開發過程中面臨的客戶評估流程繁瑣等議題,第一銀行以AI建立「法金潛力客戶模型」,透過分析金流強度與上下游關係,更快速且精準的辨識潛力客戶、提升招攬效率與成功率,進而創造更高的業務成效;根據統計,該模組自2023年下半年上線至今,不僅協助中小型分行招攬企業授信新戶逾百戶,核准授信額度達十億元以上,並且持續滲透其他產品成效。

隨著生成式AI崛起,第一銀行以生成式AI與擷取增強生成(Retrieval-Augmented Generation;RAG)技術整合各單位轄下規章並推出「企業內部智能詢答」系統,透過AI強化回覆能力,不僅有效縮短行員查找作業規範與詢答時間,也讓海外分行可以無時差的進行提問,系統上線已回應逾萬筆查詢,使用者普遍給予高度肯定,顯著提升整體作業效率。

除以AI優化內部營運效率,第一銀行於理財領域建置「e-First 智能理財」系統,其資產管理規模在國內銀行業的機器人理財服務中名列前茅,有效打破傳統理財服務仰賴人工諮詢、客戶對投資組合的理解及參與度有限的問題,深受投資人青睞與信任,至於在消金領域,則是透過「AI智能鑑價」,提升客戶即時取得房屋物件預估可貸金額及每月還款金額的效率。

從GALA到黑客松,第一銀行以AI創新文化打造未來金融新樣貌

在以AI加速創新轉型的過程中,第一銀行認為,目前最重要的不是追求技術,而是讓每一位員工可與生成式AI協作,因此,於2025年展開名為Project GALA(Generative AI Liberalize & Accelerate)的生成式AI行動計畫,透過定義GenAI價值金字塔,提升個人效率、創造集體智慧、改善部門流程及推動業務創新的方式,評估每一個應用案例的價值貢獻度,進而形塑生成式AI創新文化與思維,讓員工熟悉生成式AI並且願意使用。

為鼓勵員工以AI賦能工作與流程,第一銀行首次舉辦以「AI輔助工具」為主題的內部競賽活動「2025年第一銀行DigitALL黑客松」,以高額獎金吸引員工組隊參加,並提供技術支援與專業輔導,若方案具備高度可行性與發展潛力,將有機會進一步實作、推動落地並對外展示創新成果,傳遞第一銀行「全員創新、共創未來」的數位轉型精神。

第一銀行
第一銀行鼓勵員工以AI賦能工作與流程,首次舉辦「2025年第一銀行DigitALL黑客松」,提供技術支援與專業輔導,傳遞第一銀行「全員創新、共創未來」的數位轉型精神。
圖/ 第一銀行

不僅如此,第一銀行亦評估導入具備自主學習、多模態互動的AI Agent,如以NVIDIA高效能GPU與NeMo平台整合語音、文字與影像等多模態能力建立AI Agent,由其負責日常重複性工作並輔助複雜判斷與服務溝通,讓AI輔助並補足人力缺口,並保留關鍵知識以利經驗傳承。此外,導入Microsoft 365、Copilot、Power BI、Teammate等自動化工具與協作平台以提升作業效率,讓員工得以更專注於創造高價值的核心事務上。

以AI賦能數位轉型成效,第一銀行致力建置與完善數位生活圈

除以AI強化創新轉型能量,第一銀行亦十分重視「數據治理」、「資訊架構現代化」與「數位生態圈拓展」等議題,透過系列實作提升第一銀行的數位轉型能量,更精準且快速地提供客戶所需金融服務。例如,透過「銀行即服務(BaaS)」與「銀行即平台(BaaP)」雙軌模式,以應用程式介面(API)串聯電商、旅遊、房產等異業服務,將金融服務嵌入各種生活場景,如線上分期消費、旅遊險保障與房貸鑑價等,藉此擴大客戶接觸與優化使用體驗,逐步打造與完善以「金融即生活」為核心的數位生活圈,多項產品服務更陸續獲得「傑出金融業務菁業獎」、「國家品牌玉山獎」與「臺灣金融研訓院–我國銀行業金融科技創新與數位轉型大調查–《領先者》」等肯定。

為更好的連結與發揮數位生活圈帶來的影響力,第一銀行推出一個全面展示數位金融成就與異業合作成果的「數位生活圈」資訊整合平台,讓客戶與合作夥伴能更直觀地理解銀行在創新、產品服務與數位生態策略上的發展與實績,此外,第一銀行亦透過平台提供客戶眾多好康優惠「小確幸」以減少資訊分散痛點;根據統計,迄今已累積超過120檔以上成功合作案例,平台自4月上線短短三個月即累積超過18萬次瀏覽量,顯示市場對該平台的高度興趣與接受度,有利於數位生活圈的擴展工作。

展望未來,為更好回應「Banking Everywhere, Never at a Bank」以及客戶行為日益場景化與即時化等趨勢,第一銀行將以高度敏銳的策略眼光持續關注外部監管規範與新興科技發展,攜手員工與夥伴以AI等創新技術實踐與擴大「金融即生活」願景,以兼具溫度與科技力的全新金融服務形塑未來金融新世界。

第一銀行
第一銀行攜手員工與夥伴以AI等創新技術實踐與擴大「金融即生活」願景
圖/ 第一銀行

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
蘋果能再次偉大?
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓