AI胡說八道不是Bug?解密LLM背後的「二元評分機制」:亂猜題,遠比繳白卷更強
AI胡說八道不是Bug?解密LLM背後的「二元評分機制」:亂猜題,遠比繳白卷更強

我國中的時候,有一位同學完全放棄學習英文,每次考試時碰到英文填充題的時候,他看都不看題目,就一律填上「is」作為答案,你看到他的考卷真的整個會笑出來,大家把他的考卷當成笑料。

不過,他因此幾乎從來沒有考過英文零分,每次大概都會有個位數的分數。所以,這個策略還是有些用的。

講這個故事,也是為了講 AI,還請各位看到最後。

AI 的「正確性」和「穩定性」是兩件完全不一樣的事情。說得比較直白一點,「穩定地說同一個謊話」是可以一起展現的兩種特質,例如你碰到一個人每天都跟你說「地球是平的」,他每天的回答都非常穩定,雖然我們都知道他講的內容是錯的。

所以,上一篇文章我們談到的單純是 AI 的「穩定性」。這跟 AI 的「內建知識」無關,純粹是個物理問題罷了,主要看的現象是 AI 針對同一個問題,前後回答的答案是否一致,而不是回答的內容是否正確。

AI「一本正經地胡說八道」是另外一個關於「正確性」的大問題,這其實就是大家常常談到的「 AI 幻覺 (Hallucination)」問題:AI 會捏造不存在的事實,而且講起來還非常有自信。

最近有一篇論文也滿紅的,同樣引起相當多的討論,是由 OpenAI 發表的論文「大型語言模型為何會產生幻覺(Why Language Models Hallucinate)」。論文的核心結論是:AI 的幻覺並非什麼神秘的不可知現象,而是在我們現行的訓練與評估體制下,必然會產生的結果。作者們將 AI 比喻為一個正在參加考試的學生。非常完美解釋了幻覺的來龍去脈。

重點同樣分成兩個部分。

首先,AI 的學習始於「預訓練(pre-training)」,也就是把整個網路上的資料都讀一遍。論文指出,而在這個階段,AI 就埋下了幻覺的種子。他們巧妙地將 AI「生成正確內容」的任務,簡化為判斷「一句話是否正確」的是非題。

研究發現,AI 在處理那些稀有、孤立的「任意事實」(Arbitrary Facts) 時特別容易犯錯。論文提出了一個關鍵概念叫「單例率 (singleton rate)」。如果某個知識點(例如某位學者的冷門論文標題)在 AI 讀過的浩瀚資料中只出現過一次,那麼 AI 在被問到時,產生幻覺的機率就會非常高。這就像考生對一個只在課本角落看過一次的冷門知識點,很容易記錯或張冠李戴一樣。

簡單來說,就是「書只讀了一次所以不熟」,所以答錯了,這跟人類非常相像。

第二個重點,也跟人類學生考試的狀況幾乎一模一樣。大家都被考試荼毒過,相信一定都知道如果在考試時遇到不會的題目,隨便亂寫一些答案可能會得到一些「同情分數」,總比交白卷好。

AI 系統的設計機制,很大一部分就是按照這種邏輯來設計,所以問題就是出在 AI 的「考試制度」上。目前所有主流的 AI 評測基準 (Benchmarks),幾乎都採用「二元評分機制」:答對得 1 分,答錯或回答「我不知道」(IDK),通通都是 0 分。

「不答一定沒分,亂答可能會有分。」就跟人類學生得到的結論一模一樣:亂寫總比不寫好。

在這個遊戲規則下,AI 作為一個追求高分的「理性考生」,它的最佳策略是什麼?答案就是「猜」。因為承認不知道的得分是 0,而只要猜測就有機會矇對拿分。久而久之,AI 在一次次的優化中學會了:在不確定時,編造一個聽起來最 plausible (言之成理) 的答案,是最大化分數的最好策略。

延伸閱讀:為什麼AI會出現幻覺?OpenAI揭評測漏洞:回答「不知道」零得分,所以模型寧可瞎猜

論文分析了 10 個業界極具影響力的評測(如 MMLU-Pro、GPQA、SWE-bench 等),這些評測絕大多數都對「承認不確定」的回答給 0 分。這形成了一種可怕的「流行病」:整個 AI 產業都在無形中懲罰誠實,獎勵亂講(製造幻覺)。

因此,解決幻覺的根本之道,不是再發明什麼新演算法,這甚至根本不是一個困難的技術問題,而是我們必須進行一場「社會-技術混合 (socio-technical)」的改革。我們必須直接修改主流評測的計分方式,引入類似「倒扣分」的機制。

例如,在給 AI 的題目中明確指示:「只有當你有超過 90% 的信心時才回答。因為答錯將倒扣 9 分,答對得 1 分,回答『我不知道』得 0 分。」

是不是又跟我們以前考試的經驗很像?亂寫答案是會被倒扣的,信心不夠的話千萬不要亂猜,寧可不回答,被扣的分數會比較少。

這樣的改革,才能從根本上改變 AI 的行為,引導它從一個「愛猜題的投機考生」,轉變為一個能誠實評估自我的知識邊界的「負責任專家」。
越是深入了解 AI 系統的運作,各位就會發現,真的真的與人類社會運作有非常多雷同、甚至一模一樣的體悟和設計。

知之為知之,不知為不知,是知也。

不知道就說不知道。

科技的演進以及應該發展的方向,又再次跟古老的智慧不謀而合。

延伸閱讀:AI隨機作答「真正元兇」找到了!OpenAI前技術長團隊揪出「缺乏批次不變性」,這是什麼?

責任編輯:李先泰

關鍵字: #openai #ChatGPT
往下滑看下一篇文章
數位時代 X 國泰金控 從百套系統上雲到 Cloud First:國泰如何把雲端變成AI成長引擎?
數位時代 X 國泰金控 從百套系統上雲到 Cloud First:國泰如何把雲端變成AI成長引擎?

2019年金融監理機關正式將雲端納入委外規範後,揭示金融業上雲時代來臨,國泰金控數數發中心成立雲端策略發展部,負責擬定集團上雲策略,並於2020年正式啟動7年集團雲端轉型計畫;在多數金融機構仍停留在單點遷移或IT現代化的現下,國泰金融集團在 2025 年即完成 100 套系統上雲,更將雲端轉型階段從 Cloud Ready、Cloud Adoption 推向 Cloud First,成為數據與人工智慧應用的關鍵引擎。

國泰金控資訊長|吳建興 James Wu
圖/ 數位時代

「百套系統上雲不僅僅是數字,更是讓國泰從『 IT 進化業務』邁向『 IT 驅動成長』的關鍵轉折。」國泰金控雲端策略發展部協理顏勝豪表示,上雲帶來的效益十分顯著,包括提升資源可用性與營運敏捷度、減輕 IT 維運負擔;同時,雲端業者多具備零碳排或綠能機房機制,亦有助於企業朝向 ESG 永續營運邁進。「金融上雲不是單純的現代化基礎設施或者是升級技術,而是為了換取速度與可靠度,讓集團可以加速創新腳步、彈性調配資源,以及培育所需人才與技能,為未來做最佳準備。」
為讓集團員工、金融同業以及有志上雲的夥伴可以進一步探討雲端轉型的各種可能,國泰金控舉辦雲端轉型成果發表會,會中除有集團子公司分享最新成果,三大公有雲平台業者也從不同技術視角共同探討在合規、資安與 AI 應用的可能。

七年、三階段,國泰金融集團將雲端內化為營運流程與創新引擎

國泰金控科技長|姚旭杰 Marcus Ya
圖/ 數位時代

為什麼國泰可以領先市場完成雲端轉型、數據與 AI 賦能業務?

顏勝豪認為,雲端轉型的起點不是直接遷移系統,而是從四個面向打底:應用系統盤點評估、雲端架構設計、雲端遷移藍圖規劃,以及組織治理框架建立,而這也是 Cloud Ready 階段最重要的事情。
「不同子公司有不同商業模式與節奏,若沒有共同語言與平台底座,上雲很容易各自為政。」顏勝豪表示,為讓所有員工可以齊步前行,國泰以雲端遷移方法論 Cathay 6R(註1)作為共同語言、用平台作為共同底座,讓轉型不只是技術選擇,而是集團行動。
完成單一系統的雲端遷移後,便進入 Cloud Adoption 階段。在這個階段中,要透過大規模遷移建立更成熟的上雲標準作業流程(SOP),透過 FinOps 機制控管與優化雲端營運成本,以及透過自動化與治理模型確認多雲環境與安全與維運穩定性,目標是將雲端內化為組織日常運營的一部分,進而邁向 Cloud First 階段:在合規前提下,新專案與系統升級預設在雲端環境開發,並善用雲原生優勢加速新產品功能開發速度。
「集團雲端策略只有一個核心原則:讓雲成為 AI 時代的成長引擎,而不是單純的基礎設施。」關於國泰的未來雲端布局,顏勝豪如是總結。

國泰金控 雲端策略發展部 協理|顏勝豪 Otto Yen
圖/ 數位時代

以雲端為 AI 資源引擎、發揮數據燃料價值,實現 AI 賦能業務應用

國泰不僅在2025年完成集團百套系統上雲,也啟動數據上雲計畫並為 GenAI 奠定基礎建設。
例如國泰金控實現數據上雲,打造資料湖倉與 GAIA 生態系統架構為 AI 賦能業務做準備:成立國泰風險聯防中心(CRC)攜手集團洗防人員強化風險控管與金融犯罪因應能力;釋出國泰員工 AI 助手–Agia–Beta
版,提供差勤、福利與權益、技術支援、職務職能與集團其他資訊等五大類別管理辦法等查詢服務;此外,亦推出集團數據共享平台、集團法規知識庫、 AI 評測中心等服務,更好發揮 Cloud First 與 AI 賦能業務應用的價值。
雲端是 AI 時代的關鍵底座、數據則是 AI 的燃料。顏勝豪指出,發展AI需要龐大的 GPU 算力,若自建 GPU 機房,不僅硬體設備昂貴、折舊速度快,光是散熱系統一年就高達兩、三千萬元的成本,若採取雲端資源,可以隨啟隨用,同時,大幅降低試錯成本。「當雲端打好基礎、AI成為能力模組,銀行、人壽、產險與證券的創新不再是單點突破,而是放大集團級綜效。」

國泰以 Cloud First + AI 持續領先市場、形塑未來樣貌

「雲端可以優化算力成本,資料則決定 AI 應用上限。」顏勝豪解釋,在 AI 新世代,AI 模型定調能力「下限」,集團子公司掌握的「獨特資料」則決定應用的「上限」,考量雲端有許多好用 AI 服務,唯有資料上雲才能發揮數據價值、用 AI 賦能集團各子公司業務。
例如國泰世華銀行將採取多公有雲策略,打造雲端智慧生態圈,並以現代化雲原生技術拓展應用場景;同時,運用 AI 與資料分析優化客戶服務體驗,並藉由跨雲整合機制支援多元業務模式,以充分發揮上雲效益。至於國泰產險,不僅在兩年半內完成13套核心系統上雲、優化營運流程,如以 Serverless 架構打造百萬級效果、萬元成本的短網址系統等,讓雲端成為產險驅動長期成長的核心引擎與標準配備。

國泰人壽則是透過雲端與 AI 滿足不同客戶需求,如以 AI Search 精準呈現關鍵字搜尋結果,讓客戶可以精準且快速的查找所需資料、大幅優化官網體驗與滿意度。至於國泰證券則是於2026年初推出「庫存管家」服務,以客戶持股為核心,應用 AI 技術打造個人化推播服務,協助投資人更有效率地掌握庫存狀況,提供更即時、系統化的投資管理體驗。
總的來說,國泰金控在集團的雲端轉型不僅是技術升級,更是思維革新,從百套系統上雲進展到 Cloud First 階段,可以預期在雲地基礎下,國泰將進一步引領 AI 時代變革,持續提升營運韌性與放大創新價值。

註1:Cathay 6R 國泰設計 Cathay 6R 雲端遷移方法論,將系統遷移方式依據上雲模式、系統開發成本分為 Rehost 、Replatform、Refactor、Rewrite、Replace 和 Retain 共6種遷移架構,並能對應到 IaaS、PaaS、SaaS 三種不同上雲模式。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
2026 大重啟
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓