AI助理新聞摘要錯誤率達45%!BBC研究:Gemini引用品質最差、年輕世代盲信恐釀媒體信任危機
AI助理新聞摘要錯誤率達45%!BBC研究:Gemini引用品質最差、年輕世代盲信恐釀媒體信任危機

重點一: 跨國大規模研究顯示,AI助理對新聞內容的表述有高達 45% 的錯誤,此系統性問題無關語言或平台,恐危及大眾信任。
重點二: 4大主流 AI 平台中,Gemini 的表現最差,有 76% 的回覆存在重大問題,主因是其引用來源的品質不佳。
重點三: 儘管錯誤率高,但仍有許多閱聽人(尤其年輕族群)信任 AI 助理提供的新聞摘要,且AI發生錯誤時認為新聞機構責無旁貸。

歐洲廣播聯盟(EBU)、英國廣播公司(BBC)近期公布一項大型跨國研究《AI 助理在新聞中的使用與認知》,揭發AI助理在處理新聞內容時,存在嚴重的系統性錯誤。

這項橫跨 18個國家、涵蓋 14 種語言的調查顯示,無論使用哪種語言、地區或平台, ChatGPT、Copilot、Gemini 或 Perplexity等AI 助理在回覆新聞相關問題時,高達 45% 的內容至少存在一個重大錯誤,其中,31%的內容在辨識、引用或連結所使用的原始資訊來源時出現錯誤,而20%的內容含有「重大準確性問題」,包括AI幻覺或引用過時資訊

如今有愈來愈多人使用AI 助理作為獲取資訊的主要入口, 特別是 25 歲以下族群中有 15% 就使用 AI 助理看新聞 。高錯誤率不僅威脅到新聞內容的準確性,更可能動搖民眾對新聞媒體乃至民主參與的信任。

EBU 媒體總監暨副總幹事德・騰德(Jean Philip De Tender)強調,這些錯誤並非單一事件,而是「跨越國界和多語言的系統性問題」,大眾若無法信任資訊來源,最終將「什麼都不信」。

觀察一:4大平台表現評比,Gemini 來源引用最棘手

這項研究評估了 ChatGPT、Copilot、Gemini 和 Perplexity 4大主流 AI 助理平台共 3,000 多個回覆,根據準確性、來源引用、事實與觀點的區分,以及提供背景資訊等關鍵標準進行評估。

結果顯示,錯誤的分布在不同平台間存在顯著差異, 其中 Gemini 的表現最為不佳,有 76% 的回覆被判定存在重大問題,這個比率是其他 AI 助理的2倍以上 。主要症結在於 Gemini 糟糕的「來源引用」表現,整體調查中,有 31% 的回覆存在嚴重來源問題,包括引用來源遺失、具誤導性或根本錯誤。

BBC 生成式 AI 專案總監亞契(Peter Archer)表示,雖然樂見 AI 帶來的價值,但大眾必須能夠信任他們所閱讀、觀看和聽到的內容,並願意與 AI 公司合作,共同解決這些明顯存在的重大問題。

觀察二:4大AI錯誤類型,「事實錯誤」最損信任感

為了深入了解錯誤對大眾信任的實際影響,研究測試了4種常見的 AI 錯誤類型,包括事實錯誤(Factual Errors)、觀點作為事實呈現(Opinion as Fact)、來源與歸屬錯誤(Sourcing Errors)和自行加入觀點(Introduction of Opinions)。 結果表明,所有錯誤都會嚴重損害用戶的信心,其中事實錯誤最具破壞力。

高達 84% 的英國成年人表示,事實錯誤(如日期、數字不準確)將對他們對 AI 摘要的信任產生重大影響,因為準確性是用戶對新聞內容最基本的底線。

觀點作為事實呈現類型中,有 81% 的人認為這會嚴重損害信任,因其破壞了公正性讓用戶感覺 AI 系統在選邊站或有隱藏偏見。

即使是更為技術性的來源與歸屬錯誤(如錯誤引用新聞機構),也有 76% 的人表示會破壞信任,讓人質疑內容真實性。

當 AI 助理自行加入原始報導中沒有的觀點時,模糊了報導與評論的界線,有 73% 的人會因此對其信任大打折扣。

報告強調,在大家習慣快速瀏覽資訊的時代,任何一個小錯誤,都會在用戶心中留下負面印象。

觀察三:AI 錯誤回應闖禍,媒體恐背連坐黑鍋

這項研究還揭露了一個對新聞媒體來說很頭痛的問題:當AI發生錯誤時,閱聽人不僅會責怪 AI 服務提供商,也會將矛頭指向新聞提供者。

許多人錯誤地假定 AI 助理提供的新聞摘要是準確的。在英國成年人中,超過三分之一新信AI 能產生準確的摘要,而在 35 歲以下的年輕族群中,這個比例更攀升至近一半。

而當AI內容出現錯誤時,大多數英國成年人認為 AI 服務提供商 (36%) 和政府/監管機構 (31%) 應負責確保 AI 回覆的準確性。

即使錯誤是由 AI 摘要生成所致,仍有 23% 的人認為「新聞提供商」應該為與他們名稱相關聯的內容負責,有 35% 的人本能地同意新聞來源就該為 AI 摘要中的錯誤負責。這些都表明 AI 助理的失誤,可能連帶對新聞媒體的信譽造成負面影響,即使錯誤並非新聞機構所致。

報告也指出,若想恢復民眾的信任,AI 平台必須提供清楚的來源、時間和連結,並且一旦修正錯誤,要確保在所有地方都能同步更新,避免讓新聞媒體成為 AI 錯誤的替罪羔羊。

總結

這份報告警告 AI 摘要中立的「可靠表象」創造了用戶的「盲點」。由演算法帶來的虛假確定性,導致用戶在接收資訊時鬆懈了查證的本能。

如果這種情況持續,AI 的系統性錯誤不僅會讓用戶失去對技術本身的信任,還可能悄悄侵蝕用戶對整體新聞品牌的可信度與信任感,最終對整個新聞環境造成負面衝擊。

延伸閱讀:好險,AI文章還沒有占據你的世界!AI文章數量與人寫文章曾出現「黃金交叉」,現在呈55波
「只懂古典物理的LLM,無法提出相對論!」學者解密AI思維鏈:為何光寫提示詞,配不上「工程」兩字?

資料來源:BBC

本文初稿為AI編撰,整理.編輯/ 蘇柔瑋

往下滑看下一篇文章
AI貫穿保險價值鏈、提升用戶體驗,國泰重新定義保險科技
AI貫穿保險價值鏈、提升用戶體驗,國泰重新定義保險科技

國泰未來保險體驗日(Cathay InsurX Day)是國泰金控攜手國泰人壽、國泰產險,所舉辦的台灣金融業首場以保險科技為主軸的產業盛會,打造產壽險對話平台,從台灣保險產業特性出發,以技術 + 場景 + 人性三大視角,重新定義台灣的保險科技。

國泰金控資深副總經理孫至德在開場致詞中,特別提到根據國泰多年的觀察,發現客戶需要的是數位結合實體的保險體驗,因此我們希望結合數位平台與業務員能力找到新的經營模式,同時運用科技讓體驗變得更方便、透明。國泰金控副總經理林佳穎也分享,國泰持續透過場景金融、數位體驗、AI賦能三大關鍵做法,期待能成為「以金融為核心的科技公司」。她強調,保險業不是單打獨鬥,需要更多跨域協作,面對充滿挑戰的未來,「我們更要Run Faster,Better Together」,才能在挑戰中找到新機會。

3.jpg
圖/ 國泰金控

過去,保險業的數位轉型多聚焦在「流程更快速」與「服務更便捷」等領域,但在生成式人工智慧(GenAI)與代理式人工智慧(Agentic AI)技術崛起後,國泰金控旗下國泰人壽與國泰產險勇於嘗試、將AI全面滲透核心業務流程,讓 AI 不再只是單點輔助,而是貫穿保險價值鏈、提升用戶體驗的關鍵。

以 AI 重塑保險全流程:國壽以 Agentic AI 提升體驗與效率

「我們的目標是以 AI 重塑保險全流程應用。」國泰人壽數據暨人工智慧發展部協理莊淑儀以理賠流程為例解釋,國泰人壽早在許多年前就透過數位與 AI 等技術協助理賠同仁加快服務與受理、登打、派件與審理的速度,例如,以 OCR(光學字元辨識)醫療文件擷取與 ICD(國際疾病分類)/手術選碼優化登打效率、以 CRSS(理賠風險識別系統)風險分級識別理賠浮濫與詐欺等高風險案件並將之派送給可以審理的同事,以及透過智能工作台與 AI 骨折判讀加快與優化審理流程等。然而,保險陪伴客戶的時間是很長的,隨著保戶年齡逐漸提高,再加上超高齡社會來臨,理賠案件數量持續攀升,需要更多 AI 與自動化強化效率與正確性。

國泰人壽的做法是在既有的 AI 基礎上,加入GenAI 與Agentic AI等技術,以 AI全面升級理賠流程。首先是以「DocAI Agent」突破傳統 OCR 覆蓋率低與高維運成本的限制,僅需一個月調校,即能快速適配不同醫院表單,維持原本的正確率並將覆蓋率由50%提升至近100%,大幅縮短登打時間。其次是透過「Abnormal Agent」打造圖形資料庫(Graph DB)建立理賠關係網,快速標示高風險關係案件提供判斷依據及建議後續的應對方式,加速理賠人員的決策。最後是藉由「Review Assistant Agent」協助整理病歷、醫療單據、診斷證明…等複雜且可能甚至上百頁的文件,並快速歸納出重點,幫助理賠人員快速找到關鍵資訊進行交叉查證,大幅節省審理時間。

莊淑儀指出,光是理賠流程,國泰人壽已打造30個以上的AI Agents,目標是協助理賠人員化繁為簡、更快完成相關工作。在善用科技提升流程體驗的思維下,國泰人壽沒有特別打造額外的AI平台,而是將AI Agent整合至現有理賠流程各個環節,讓同仁們可以在一個介面完成所有工作,兼顧便捷、好上手與效率提升。

除了理賠,國泰人壽也將 AI 應用延伸至商品知識管理,打造業務員的行動智慧助手,從保障缺口判斷、個人化商品推薦到業務員智能對練等流程,都有AI Agent協助提高同仁效率,讓客戶的保險體驗更便利且完善。舉例來說,隨著保險商品高度複雜化,國泰人壽推出「商品知識助理」,協助業務人員快速查詢 3,000 多檔的商品保單條款及規範、醫療行為理賠項目,幫助業務員更快速採取行動,也能將時間與心力投入在更有價值的保戶互動與服務。

「我們不會為了 AI 而 AI,而是建置AI Agent 生態圈,高度整合與重塑理賠、商品服務等核心流程,藉此提升用戶體驗與營運效率。」莊淑儀進一步解釋,國泰人壽不會單純以投資報酬率(ROI)評估AI成效,將以風險控管、流程優化、員工效率與客戶體驗四個構面衡量 AI 對公司影響的廣度、深度和商業價值,並勇於在新的商業模式上進行嘗試,確保每一次的 AI 投入都能為國泰帶來有意義、有實質效益的進步。

圖4.jpg
圖/ 國泰金控

從數據到智能,國泰產險以AI強化核心競爭力

國泰產險同樣積極透過數據與AI極大化競爭優勢。國泰產險督導吳香妮指出,面對火災、地震、颱風等難以預測的風險,需要數據與AI驅動的產險保護傘填補損害,把衝擊降到最低,讓生活、經濟與社會能持續穩定運轉。在具體實務上,國泰產險是從「Enrich加值服務」、「Enhance AI輔助風險決策」,以及「Empower生成式AI賦能」這三個面向切入。

台灣交通事故逐年攀升、平均1天發生1,100件交通事故,其中,大車事故發生率是小車的2.2倍,致死率比起小車高達6倍等現況後,國泰產險開始思考,除了提供大車事故後的理賠支援,還可以從事前提供哪些服務?也因此催生了業界首創的「CarTech智能車險加值服務」,透過跟運輸業者與學校等單位的合作,針對車險承保前、中、後提供相應的風險辨識、預警與防治等加值服務。國泰產險與陽明交通大學合作建立全台首個「運輸業者健檢」流程,透過駕駛行為及行車環境等多元數據建置AI模型,即時洞悉駕駛行為及風險分析,並提供運輸業者客製化的風險改善建議,實踐以數據及AI優化損害防阻。吳香妮強調,我們的目標是不僅提供理賠,更要守護客戶,提供超越價格的價值服務。

產險的核心業務之一是再保險,國泰產險的作法是運用AI及數據,化被動為主動,以AI輔助風險決策。過去再保險業務仰賴經驗法則、手動整理資料與透過國際再保險公司提供既有方案,現在則透過數據與AI驅動,主動精準拆解業務目標,以28項風險因子預測風險發生機率與損失金額,自動輸出並比較多種方案,從中探索最適合的再保險規劃。

國泰產險也將AI導入內部流程,解決長期困擾員工的報告製作痛點,包含資料查找費時、人工編寫品質不一、專業術語翻譯困難等。透過一鍵生成報告服務的三個GenAI模組,為員工省下6到7成的手動作業時間,將時間與精力聚焦在更具策略價值的工作,以新世代人機智慧協作模式提升效率與創造嶄新競爭力。

圖5.jpg
圖/ 國泰金控

從國泰人壽與國泰產險的實作,可以清楚看到:對國泰而言,AI不僅是新技術導入,更是保險價值鏈全面進化的核心動能,將以數據與AI驅動服務實踐用戶體驗的優化,持續引領台灣保險科技體驗走向新世代。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓