哪一款AI最會讀書?冠軍「不是ChatGPT」:5款主流AI大PK,只有「它」沒出現幻覺
哪一款AI最會讀書?冠軍「不是ChatGPT」:5款主流AI大PK,只有「它」沒出現幻覺

重點一:AI閱讀實測中,Claude以無「幻覺」的穩定表現奪冠,ChatGPT緊追在後,但整體AI得分偏低。

重點二:各家AI在文學、法律、科學及政治等不同領域的理解能力參差不齊,表現不一。

重點三:專家認為AI目前尚無法取代人類閱讀,尤其在重要文件處理上,僅能作為輔助工具。

時間來到2025年,生成式AI出現許多主打資料整合的功能,例如Google旗下的Notebook LM,抑或是各家推出的Deep Research功能皆然,其仰賴的都是AI模型的「閱讀能力」,以及輸入資料後的推理能力。

針對當前五款主流AI模型的閱讀能力 ,《華盛頓郵報》的實測結果顯示,由Anthropic公司開發的Claude表現最出色,在總體評分中奪冠,也是唯一未出現「幻覺」(hallucination,指AI捏造資訊)的AI,第二名則是OpenAI旗下的ChatGPT。

先說結論,撇除分數評級的高低,《華盛頓郵報》測試結果顯示,當前AI在深度理解與分析上仍有顯著不足,整體平均得分僅約70%,相當於學術評級中的D+,顯示AI的閱讀理解能力仍有極大進步空間。

AI閱讀各有所長:Claude擅長法律、ChatGPT較懂文學

《華盛頓郵報》本次評估了包含Claude、ChatGPT、Copilot、Meta AI,以及Google的Gemini五款AI。測試範圍涵蓋文學小說、法律合約、醫學研究及政治演說四大領域,並由各領域專家對AI的回答進行盲評,其結果如下:

文學領域:ChatGPT 7.8;Claude 7.3;Meta AI 4.3;Copilot 3.5;Gemini 2.3。
法律領域:Claude 6.9;Gemini 6.1;Copilot 5.4;ChatGPT 5.3;Meta AI 2.6。
健康科學領域:Claude 7.7;ChatGPT 7.2;Copilot 7;Gemini 6.5;Meta AI 6。
政治領域:ChatGPT 7.2;Claude 6.2;Meta AI 5.2;Gemini 5;Copilot 3.7。

總體得分而言:

Claude:69.9
ChatGPT:68.4
Gemini:49.7
Copilot:49
Meta AI:45

總結來說,Claude以些微分差勝過ChatGPT,至於Gemini、Copilot、Meta AI,則落於50分以下評級。值得一提的是,Claude為唯一未產生幻覺的AI。

本次測試的文件,在文學方面為小說《The Jackal’s Mistress》、在醫學方面為COVID-19、帕金森氏症的醫學論文、在法律方面為租賃協議及建築承包合約,在政治領域則為川普的演講文件。

結果顯示,AI在不同專業領域的表現差異甚大。例如,ChatGPT在文學和政治類別中表現較佳,但在法律文件的理解上則落後;Claude則在法律和健康科學領域取得最高分。

然而,即使是表現最好的Claude,其在文學領域的評分也非頂尖,而Gemini在文學理解方面,甚至出現了被評審形容為「不準確、誤導且草率」的解讀,甚至有種企圖矇混過關的感覺。

值得注意的是,除了Claude,其餘四款AI均在測試中出現了程度不一的資訊捏造情況。這證實了AI閱讀長文的能力仍有限,故生成摘要常有遺漏重要資訊,或過度強調正面內容而忽略負面細節的問題。

註1:原文測試時間為2025年4月至5月,所使用的AI版本為:ChatGPT-4o、Gemini 2.0 Flash、Claude 3 Sonnet、Llama 4、Copilot for Microsoft 365。

註2:評審對每個AI答案進行10分制評分,每個學科領域的得分是所有評分的平均值。總分為四個學科領域賦予同等權重,並以100分制呈現。

專家總結:AI難取代真人閱讀

儘管部分AI在特定分析性問題上展現出令人驚豔的能力,例如ChatGPT總結小說的摘要及書評,或是Claude對修訂法律文件提出的建議、協助產出醫學論文的洞察等。但整體而言,專家們對當前AI的閱讀理解能力仍持謹慎態度。

例如參與評審的企業律師Sterling Miller指出,AI在法律文件處理上的表現不夠穩定,尚不能替代專業律師;小說家Chris Bohjalian則表示,AI的回答有時像是「戴著人類面具的機器人」,假裝理解實則不然。

至於主持測試的記者則建議,若要使用AI協助閱讀,最好同時使用至少兩款工具進行比較,並且對於攸關個人權益的重要文件,仍應親自仔細閱讀。

總地來說,AI目前可作為一種輔助工具,例如協助快速掌握新主題、解讀專業術語,但不應完全依賴其結果。

延伸閱讀:中華電信不配被信任?一文解析「Google撤銷憑證」關鍵點:背後隱藏3大管理缺失
補強電商物流的關鍵拼圖:第三方物流是什麼?4大超商取貨戰力、業績一次看

責任編輯:李先泰

本文初稿為AI編撰,整理.編輯/ 李先泰

資料來源:華盛頓郵報

關鍵字: #Google #meta #openai
往下滑看下一篇文章
總統科學獎揭曉!梁賡義院士、葉均蔚院士用創新與堅持,寫下臺灣科學光輝新頁
總統科學獎揭曉!梁賡義院士、葉均蔚院士用創新與堅持,寫下臺灣科學光輝新頁

【總統科學獎】宗旨在於提升臺灣在國際學術界之地位,獎勵數理科學、生命科學、人文及社會科學、工程科學在國際學術研究上具創新性且貢獻卓著之學者,尤以對臺灣社會有重大貢獻之基礎學術研究人才為優先獎勵對象。

2025年11月11日,總統科學獎頒獎典禮於總統府正式舉行。2001年設立、每2年頒發1次的總統科學獎,今年已邁入第13屆,本屆的2位獲獎者,分別是生命科學組的院士梁賡義、工程科學組的院士葉均蔚。2位臺灣的科研泰斗,不僅全心全意投入創新,更樹立了典範,成為所有科研人員的榜樣。

總統賴清德在致詞時,引用諾貝爾和平獎得主曼德拉(Nelson Mandela)的話指出:「在事情完成之前,一切都看似不可能。這說明了2位院士的故事,他們對未知世界保持熱情、好奇,認真從基礎研究做起,並堅持努力到最後一刻,成功終將屬於他們。」

2025年總統科學獎得主,生命科學組 梁賡義 院士(右)、工程科學組 葉均蔚 院士(左)。
2025年總統科學獎得主,生命科學組 梁賡義 院士(右)、工程科學組 葉均蔚 院士(左)。
圖/ 數位時代

梁院士開創廣義估計方程式 ,加速新藥問世,造福千萬病患

從數學跨足生物統計、再投身高等教育與國家衛生的梁院士,從小就喜歡數學的嚴謹,在美國華盛頓大學攻讀博士期間,因為接觸到當時炙手可熱的「存活分析」,進而對生物統計產生興趣,「投入『生物統計』是條不歸路,因為我發現,統計工具的發展,可以對人類健康有間接幫助。」後來,他前往美國約翰霍普金斯大學任教,又與同事Scott Zeger研發出新的統計方法「廣義估計方程式」,突破了傳統分析方法必須假設所有樣本獨立的侷限,讓長期追蹤資料的解讀更嚴謹,也成為全球健康研究不可或缺的工具。

梁院士研究做得出色,卻不只將心力擺在學術上,他更心心念念著臺灣的發展,持續關心高等教育、國家衛生等領域。他在美國任教的28年間,幾乎年年暑假,都返國舉辦研討會,分享國際生物統計和流行病學的新知。2010年,他乾脆辭去教職,回臺擔任國立陽明大學校長,將陽明大學打造成醫學、人文並重的全人大學。

數位時代
賴總統親自頒發「2025年總統科學獎」殊榮予梁院士。
圖/ 數位時代

2017年,他又接下國家衛生研究院院長一職,並在新冠肺炎爆發期間,擔任中央流行疫情指揮中心研發組組長,與阿斯特捷利康(AstraZeneca)簽約,採購1千萬劑疫苗,完成防疫任務,「所以獲得總統科學獎,不僅是個人的榮耀,更是國家對全人教育的推動、公共衛生實踐,以及任務導向的研究重要性的肯定。能在其中有一些貢獻,我深感榮幸。」

高熵合金之父葉院士,堅持不懈打破材料學定律

被譽為「高熵合金之父」的葉院士,打破材料學界以1~2種主元素為基底的傳統,開創出能讓數十種元素混合的「高熵合金」,為元素週期表注入嶄新生命力,在半導體、智慧機械、綠能科技、國防與生醫等領域帶來突破性的應用。過去合金多以單一金屬為主,再加入少量元素微調性質,金屬種類愈多反而愈脆、延展性與硬度下降,使應用受限;然而高熵合金卻反其道而行,以4、5種以上金屬融合,展現出更佳的延展性、耐腐蝕性與硬度,重新定義合金的可能性。

令人驚訝的是,30年前葉院士提出高熵合金構想時,曾被質疑「觀念錯誤、毫無可能」。他不畏質疑,透過紮實的實驗與論證,於2004年一口氣發表5篇高熵材料論文,為高熵合金命名、定義並奠定理論基礎,後續更平均每年發表逾10篇研究,提出高熵效應、嚴重晶格扭曲效應、緩慢擴散效應與雞尾酒效應等核心概念,開創全新的材料科學典範。

數位時代
賴總統親自頒發「2025年總統科學獎」殊榮予葉院士。
圖/ 數位時代

如今,高熵合金不只在學界掀起熱潮,更成功落地產業。「學以致用非常重要!」葉院士強調,學術研究不該停留在象牙塔,而應投入產業、協助解決關鍵瓶頸。他不僅與國立清華大學共同成立「高熵材料研發中心」,也創辦全球首家高熵材料公司,推動技術轉移與產業升級,讓高熵合金真正走向世界舞臺。

所有總統科學獎得獎人的科學成就及重要貢獻,不僅提升臺灣學術聲譽及國際競爭力,對於增進人類生活福祉更有深遠的影響,實為臺灣學術界的最高典範。而本屆梁院士、葉院士2位得獎人終身投入科學探索、人才培育的成果,嘉惠了整個社會,更成就跨世代的深遠影響,為臺灣科學寫下光輝一頁。

【總統科學獎委員會 廣告】

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓