為什麼AI會出現幻覺？OpenAI揭評測漏洞：回答「不知道」零得分，所以模型寧可瞎猜|數位時代 BusinessNext

重點一：語言模型會產生「幻覺」的主因，在於訓練與評測機制獎勵「猜測」，而非誠實表達不確定，導致錯誤輸出持續存在。

重點二：現行主流評測標準採二元計分，對「不知道」或「不確定」的答案給予零分，促使模型傾向猜測。

重點三：研究建議修改主流評測機制，明確納入「信心門檻」與錯誤懲罰，以減少AI幻覺並提升可信度。

生成式AI無疑是人類近年最受矚目的生產力工具。但發展至今，「人工幻覺」（hallucination）——也就是AI「睜眼說瞎話」的機率仍存，這讓不少大量使用AI的工作者，仍需花費時間審核、排除AI生成的錯誤。

但絕頂聰明的AI，又為何時不時會吐出AI本身也不確定的「答案」？

針對這個問題，OpenAI於近日釋出論文〈Why Language Models Hallucinate〉， 直言人工幻覺的根本原因並非技術缺陷或人為疏忽，而是訓練與評測機制本身獎勵模型在不確定時選擇「猜答案」，而非誠實表達「不知道」。

這個情況十分類似 面對選擇題的考生 ，如果不確定答案，「合理猜測」是效益最高的方案。

評測機制是幻覺元兇：瞎猜可能得分，不猜肯定0分

這份研究主要透過「統計歸約」與「行為分析」方法，揭示AI語言模型在面對不確定問題時，為何傾向猜題，而不是考慮坦承不知道。

研究分析指出，主流語言模型評測的計分方式，由於多採用二元評分（正確=1分，錯誤或「不知道」=0分）。在這種規則下，模型如果選擇「不知道」或空白，得分必然為零；但即使隨機猜測，仍有機會獲得分數。

從期望值角度來看，這種推導不僅用於AI模型，也類比人類考試行為——只要規則懲罰空白，考生自然傾向猜題。

OpenAI以「要求AI猜測某人生日」舉例說明，若被問某人生日而不知情，隨便猜「9月10日」有 1/365 的機率碰巧正確；回答「我不知道」則保證得零分，長期下來猜測在記分板上更吃香。

根據實測數據，在 GPT-5 系統卡的 SimpleQA 測試中，GPT-5-Thinking-Mini「棄權率」52%、「錯誤率」26%；較舊的 OpenAI o4-mini「棄權率」僅 1% 但「錯誤率」高達 75%。這顯示低棄權（不肯說不知道）雖可換取些許準確率（24% 對 22%），卻伴隨大量自信錯誤，反映評分標準鼓勵猜題而非謙遜。

指標	GPT-5-Thinking-Mini	OpenAI o4-mini
棄權率	52%（未給出具體答案）	1%
準確率	22%（正確答案，越高越好）	24%
錯誤率	26%（錯誤答案，越低越好）	75%
總計	100%	100%

因此整體結論是：當評估只重準確率、不給「恰當表達不確定性」部分得分時，模型就寧願猜測而非承認不知道，導致幻覺率居高不下。

什麼是二元分類？
研究將語言模型的生成任務（即產生一段文字或答案）視為一個「二元分類」問題，也就是判斷每個生成結果到底是「有效」（正確、合理），還是「錯誤」（不正確、幻覺）。這種歸約方法稱為「Is-It-Valid（二元分類）」。

簡單來說，每個模型生成的答案都被標記為「+」（有效）或「−」（錯誤）。這樣的好處是，可用統計學和機器學習理論（如分類誤差率）來量化和解釋語言模型的錯誤來源。

OpenAI拋4解方：改革評測方式，讓AI更謙遜並坦率

論文結論指出，預防語言模型（AI）產生幻覺，不能僅靠新增幻覺檢測或後續微調，而必須從根本上改革主流評測與訓練機制。具體包括以下4大重點：

修改評測標準：在主流語言模型評測中，應明確納入「信心門檻」與錯誤懲罰。例如，要求模型僅在置信度高於某一門檻時才作答，否則應選擇「不知道」（IDK），並對錯誤答案給予分數懲罰，對IDK不扣分。

鼓勵誠實表達不確定：評測機制應獎勵模型在不確定時誠實表達，而非一味猜測。這樣可降低幻覺發生率，提升模型在實際應用中的可信度。

將改革納入主流基準：僅靠新增幻覺專用評測無法扭轉現有激勵結構，必須將上述改革納入現有主流評測（如SWE-bench、MMLU等），才能真正改變模型行為。

行為式校準（Behavioral Calibration）：推動模型在不同信心門檻下，能根據自身置信度選擇最合適的回應，並可用於客觀審計。

總結來說，只有當評測與訓練機制不再懲罰「不知道」或不確定的誠實表達，並對過度自信的錯誤給予懲罰，AI幻覺現象才有望被有效抑制，AI系統的可靠性與社會接受度才能提升。

延伸閱讀：ChatGPT是廢文製造機？英國學者揭：AI不在乎真實性，只會生成「看似可信」的文本

哪一款AI最會讀書？冠軍「不是ChatGPT」：5款主流AI大PK，只有「它」沒出現幻覺

資料來源：OpenAI、Why Language Models Hallucinate、TechChurch

本文初稿為AI編撰，整理．編輯/ 李先泰