哪一款AI最會讀書?冠軍「不是ChatGPT」:5款主流AI大PK,只有「它」沒出現幻覺
哪一款AI最會讀書?冠軍「不是ChatGPT」:5款主流AI大PK,只有「它」沒出現幻覺

重點一:AI閱讀實測中,Claude以無「幻覺」的穩定表現奪冠,ChatGPT緊追在後,但整體AI得分偏低。

重點二:各家AI在文學、法律、科學及政治等不同領域的理解能力參差不齊,表現不一。

重點三:專家認為AI目前尚無法取代人類閱讀,尤其在重要文件處理上,僅能作為輔助工具。

時間來到2025年,生成式AI出現許多主打資料整合的功能,例如Google旗下的Notebook LM,抑或是各家推出的Deep Research功能皆然,其仰賴的都是AI模型的「閱讀能力」,以及輸入資料後的推理能力。

針對當前五款主流AI模型的閱讀能力 ,《華盛頓郵報》的實測結果顯示,由Anthropic公司開發的Claude表現最出色,在總體評分中奪冠,也是唯一未出現「幻覺」(hallucination,指AI捏造資訊)的AI,第二名則是OpenAI旗下的ChatGPT。

先說結論,撇除分數評級的高低,《華盛頓郵報》測試結果顯示,當前AI在深度理解與分析上仍有顯著不足,整體平均得分僅約70%,相當於學術評級中的D+,顯示AI的閱讀理解能力仍有極大進步空間。

掌握最新AI、半導體、數位趨勢!訂閱《數位時代》日報及社群活動訊息

AI閱讀各有所長:Claude擅長法律、ChatGPT較懂文學

《華盛頓郵報》本次評估了包含Claude、ChatGPT、Copilot、Meta AI,以及Google的Gemini五款AI。測試範圍涵蓋文學小說、法律合約、醫學研究及政治演說四大領域,並由各領域專家對AI的回答進行盲評,其結果如下:

文學領域:ChatGPT 7.8;Claude 7.3;Meta AI 4.3;Copilot 3.5;Gemini 2.3。
法律領域:Claude 6.9;Gemini 6.1;Copilot 5.4;ChatGPT 5.3;Meta AI 2.6。
健康科學領域:Claude 7.7;ChatGPT 7.2;Copilot 7;Gemini 6.5;Meta AI 6。
政治領域:ChatGPT 7.2;Claude 6.2;Meta AI 5.2;Gemini 5;Copilot 3.7。

總體得分而言:

Claude:69.9
ChatGPT:68.4
Gemini:49.7
Copilot:49
Meta AI:45

總結來說,Claude以些微分差勝過ChatGPT,至於Gemini、Copilot、Meta AI,則落於50分以下評級。值得一提的是,Claude為唯一未產生幻覺的AI。

本次測試的文件,在文學方面為小說《The Jackal’s Mistress》、在醫學方面為COVID-19、帕金森氏症的醫學論文、在法律方面為租賃協議及建築承包合約,在政治領域則為川普的演講文件。

結果顯示,AI在不同專業領域的表現差異甚大。例如,ChatGPT在文學和政治類別中表現較佳,但在法律文件的理解上則落後;Claude則在法律和健康科學領域取得最高分。

然而,即使是表現最好的Claude,其在文學領域的評分也非頂尖,而Gemini在文學理解方面,甚至出現了被評審形容為「不準確、誤導且草率」的解讀,甚至有種企圖矇混過關的感覺。

值得注意的是,除了Claude,其餘四款AI均在測試中出現了程度不一的資訊捏造情況。這證實了AI閱讀長文的能力仍有限,故生成摘要常有遺漏重要資訊,或過度強調正面內容而忽略負面細節的問題。

註1:原文測試時間為2025年4月至5月,所使用的AI版本為:ChatGPT-4o、Gemini 2.0 Flash、Claude 3 Sonnet、Llama 4、Copilot for Microsoft 365。

註2:評審對每個AI答案進行10分制評分,每個學科領域的得分是所有評分的平均值。總分為四個學科領域賦予同等權重,並以100分制呈現。

專家總結:AI難取代真人閱讀

儘管部分AI在特定分析性問題上展現出令人驚豔的能力,例如ChatGPT總結小說的摘要及書評,或是Claude對修訂法律文件提出的建議、協助產出醫學論文的洞察等。但整體而言,專家們對當前AI的閱讀理解能力仍持謹慎態度。

例如參與評審的企業律師Sterling Miller指出,AI在法律文件處理上的表現不夠穩定,尚不能替代專業律師;小說家Chris Bohjalian則表示,AI的回答有時像是「戴著人類面具的機器人」,假裝理解實則不然。

至於主持測試的記者則建議,若要使用AI協助閱讀,最好同時使用至少兩款工具進行比較,並且對於攸關個人權益的重要文件,仍應親自仔細閱讀。

總地來說,AI目前可作為一種輔助工具,例如協助快速掌握新主題、解讀專業術語,但不應完全依賴其結果。

延伸閱讀:中華電信不配被信任?一文解析「Google撤銷憑證」關鍵點:背後隱藏3大管理缺失
補強電商物流的關鍵拼圖:第三方物流是什麼?4大超商取貨戰力、業績一次看

責任編輯:李先泰

本文初稿為AI編撰,整理.編輯/ 李先泰

資料來源:華盛頓郵報

關鍵字: #Google #meta #openai
往下滑看下一篇文章
櫃買中心、安永攜手打造成長新引擎,推動創新企業從隱形冠軍成為明日之星
櫃買中心、安永攜手打造成長新引擎,推動創新企業從隱形冠軍成為明日之星

進入資本市場,是台灣創新企業與中小微企業走向壯大與永續經營的關鍵一步,因此,儘管挑戰重重,仍有許多企業為此而努力,而櫃買中心參考美國JOBS Act規定而建置的創櫃板,則是這些企業的強力助攻員,協助企業順利籌措資金及進入資本市場。

一如在2014年推出智慧家電相關產品的樺緯物聯,自2015年登錄創櫃板到2025年登錄興櫃時,市值便增加8倍、達19億元,展現驚人的成長力道。同樣令人矚目的還有DC直流電馬達吊扇製造商昶瑞機電,該公司只花了短短2年時間就從創櫃板走到上櫃,且市值達24億元,成長近2倍。

事實上,像樺緯物聯與昶瑞機電這樣接受創櫃板培育的企業並不少,櫃買中心董事長簡立忠引述內部數據指出,過去11年來,創櫃板已輔導超過500家創新企業,其中31家成功晉升公開發行或興櫃,更募集累計超過66億元資金,為台灣產業注入了源源不絕的成長動能。

為了進一步強化輔導能量,櫃買中心在2025年推動創櫃板升級為「創櫃板Plus」,除了與安永聯合會計師事務所深度合作,輔導創新企業建立良好的財務與內稽內控制度,更結合承銷商、專業股務機構、政府單位、研究機構、學校育成中心、企業加速器等各界資源,為創新企業量身打造企業成長藍圖,使其得以穩健邁向資本市場、站上更高的舞台。

055A3676.jpg
櫃買中心董事長 簡立忠
圖/ 數位時代

為什麼需要創櫃板Plus?

「創櫃板Plus提供了一套完整且系統化的輔導制度,避免企業在發展過程中迷失方向、也能少走一些冤枉路,」安永聯合會計師事務所所長傅文芳強調,透過創櫃板Plus與安永的合作,為新創提供正規、可信且循序漸進的專業輔導,可以讓創新企業在成長過程中同步完善各項制度,為未來踏上資本市場之旅奠定堅實基礎。

傅文芳指出,安永已連續9年蟬連創櫃板輔導卓越獎,從這些接受輔導的創新企業及中小微企業來看,其在進入資本市場時皆面臨相同的卡關點、也就是制度。

新創在成軍初期多以生存為主要目標,將重心放在找資金、研發產品與開拓市場上,容易忽略制度建置與合規要求,常常等到在規劃上市櫃時,才會發現自身制度與上市櫃的公司治理要求存在著不小差距,例如:財務透明度不足、內部控制未齊備等,甚至還會有合規風險,不僅需要耗費更高的人力、時間與費用成本來補強,更會影響後續興櫃或上市進程,甚至錯過市場成長的最佳時機。

因此,對於有志於進入資本市場的創新企業而言,在創業初期就建立健全的財會與內稽內控制度,同時完善公司治理架構和資訊透明度,不僅是必要條件,更是未來永續發展的關鍵基石。

055A3651.jpg
安永聯合會計師事務所所長 傅文芳
圖/ 數位時代

安永強力助攻,創新企業邁向資本市場首選的好夥伴

「創櫃板Plus正是協助創新企業連結資本市場的最佳平台,」簡立忠強調,與一般新創加速器偏重技術育成、營運輔導不同,創櫃板Plus更重視制度建立及公開資訊之揭露。

因此,創新企業在登錄創櫃板後,不只可以取得股票代號、提升公司的知名度之外,還能獲取成長所需的各項資源與協助,例如:導入會計與內控制度、參加ESG或智慧財產等各類經營管理專業課程,參加投資媒合會、接觸更多CVC或VC等多元投資人、共同參展等,透過這些支持,為企業鋪設一條更扎實、可行的成長之路,讓創新企業可以大幅提升市場知名度與能見度,進而增加被投資、與外界夥伴建立合作關係、開拓新客戶的機會,在公司成長的同時也持續邁向興櫃或上櫃之路。

而在創櫃板Plus輔導機制中,安永聯合會計師事務所扮演了重要角色,不僅協助新創完善財會與內稽內控制度、建立合規的作業流程,降低因制度缺失造成的風險。更能因應現今熱門的綠色永續浪潮,協助創新企業及早進行ESG規劃,滿足資本市場對綠色投資的要求,也讓產品能夠順利出口海外市場。

傅文芳表示,安永新創暨創新產業小組以全球「產業研究中心」為基礎,籌組產業服務團隊,無論新創屬於哪一類型產業,皆能快速找出與所屬產業相關的合規需求與常見風險,用最有效率的方式完成內控制度建置。不只如此,安永更整合北中南的服務能量,與台灣各地的學校育成中心、加速器、產業園區等合作夥伴建立創新生態系,協力挖掘與培育具潛力的創新企業,並提供創櫃板Plus相應資源,協助潛力新創克服營運挑戰、邁向成長高峰,包括前述提及的昶瑞機電,還有目前已在興櫃的數位服務供應商知識科技、深耕生技領域的通用幹細胞等,皆是在安永的輔導下,從登入創櫃板開始再到進入興櫃,逐步啟動公司高速成長的引擎。

就像簡立忠說的:「創櫃板Plus為創新企業厚植實力、營造充滿希望的板塊,將他們從隱形冠軍,打造成明日之星。」充份展現創櫃板Plus的核心使命,未來,櫃買中心將持續整合產官學各界力量,透過創櫃板Plus協助更多台灣創新企業與中小微企業,期望2025年達到新增輔導及登板企業至少80家的里程碑。與此同時,安永也將擴大人才布局,增加專業人員駐點於北中南各區域,主動發掘並輔導具潛力的創新企業,透過安永與櫃買中心的共同合作,不僅為台灣資本市場注入新活力,也為新創開拓更寬廣的成長與發展空間。

055A3824.jpg
安永聯合會計師事務所所長 傅文芳(左)、櫃買中心董事長 簡立忠(右)
圖/ 數位時代
追蹤我們
電商終局戰
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓