我國中的時候,有一位同學完全放棄學習英文,每次考試時碰到英文填充題的時候,他看都不看題目,就一律填上「is」作為答案,你看到他的考卷真的整個會笑出來,大家把他的考卷當成笑料。
不過,他因此幾乎從來沒有考過英文零分,每次大概都會有個位數的分數。所以,這個策略還是有些用的。
講這個故事,也是為了講 AI,還請各位看到最後。
AI 的「正確性」和「穩定性」是兩件完全不一樣的事情。說得比較直白一點,「穩定地說同一個謊話」是可以一起展現的兩種特質,例如你碰到一個人每天都跟你說「地球是平的」,他每天的回答都非常穩定,雖然我們都知道他講的內容是錯的。
所以,上一篇文章我們談到的單純是 AI 的「穩定性」。這跟 AI 的「內建知識」無關,純粹是個物理問題罷了,主要看的現象是 AI 針對同一個問題,前後回答的答案是否一致,而不是回答的內容是否正確。
AI「一本正經地胡說八道」是另外一個關於「正確性」的大問題,這其實就是大家常常談到的「 AI 幻覺 (Hallucination)」問題:AI 會捏造不存在的事實,而且講起來還非常有自信。
最近有一篇論文也滿紅的,同樣引起相當多的討論,是由 OpenAI 發表的論文「大型語言模型為何會產生幻覺(Why Language Models Hallucinate)」。論文的核心結論是:AI 的幻覺並非什麼神秘的不可知現象,而是在我們現行的訓練與評估體制下,必然會產生的結果。作者們將 AI 比喻為一個正在參加考試的學生。非常完美解釋了幻覺的來龍去脈。
重點同樣分成兩個部分。
首先,AI 的學習始於「預訓練(pre-training)」,也就是把整個網路上的資料都讀一遍。論文指出,而在這個階段,AI 就埋下了幻覺的種子。他們巧妙地將 AI「生成正確內容」的任務,簡化為判斷「一句話是否正確」的是非題。
研究發現,AI 在處理那些稀有、孤立的「任意事實」(Arbitrary Facts) 時特別容易犯錯。論文提出了一個關鍵概念叫「單例率 (singleton rate)」。如果某個知識點(例如某位學者的冷門論文標題)在 AI 讀過的浩瀚資料中只出現過一次,那麼 AI 在被問到時,產生幻覺的機率就會非常高。這就像考生對一個只在課本角落看過一次的冷門知識點,很容易記錯或張冠李戴一樣。
簡單來說,就是「書只讀了一次所以不熟」,所以答錯了,這跟人類非常相像。
第二個重點,也跟人類學生考試的狀況幾乎一模一樣。大家都被考試荼毒過,相信一定都知道如果在考試時遇到不會的題目,隨便亂寫一些答案可能會得到一些「同情分數」,總比交白卷好。
AI 系統的設計機制,很大一部分就是按照這種邏輯來設計,所以問題就是出在 AI 的「考試制度」上。目前所有主流的 AI 評測基準 (Benchmarks),幾乎都採用「二元評分機制」:答對得 1 分,答錯或回答「我不知道」(IDK),通通都是 0 分。
「不答一定沒分,亂答可能會有分。」就跟人類學生得到的結論一模一樣:亂寫總比不寫好。
在這個遊戲規則下,AI 作為一個追求高分的「理性考生」,它的最佳策略是什麼?答案就是「猜」。因為承認不知道的得分是 0,而只要猜測就有機會矇對拿分。久而久之,AI 在一次次的優化中學會了:在不確定時,編造一個聽起來最 plausible (言之成理) 的答案,是最大化分數的最好策略。
論文分析了 10 個業界極具影響力的評測(如 MMLU-Pro、GPQA、SWE-bench 等),這些評測絕大多數都對「承認不確定」的回答給 0 分。這形成了一種可怕的「流行病」:整個 AI 產業都在無形中懲罰誠實,獎勵亂講(製造幻覺)。
因此,解決幻覺的根本之道,不是再發明什麼新演算法,這甚至根本不是一個困難的技術問題,而是我們必須進行一場「社會-技術混合 (socio-technical)」的改革。我們必須直接修改主流評測的計分方式,引入類似「倒扣分」的機制。
例如,在給 AI 的題目中明確指示:「只有當你有超過 90% 的信心時才回答。因為答錯將倒扣 9 分,答對得 1 分,回答『我不知道』得 0 分。」
是不是又跟我們以前考試的經驗很像?亂寫答案是會被倒扣的,信心不夠的話千萬不要亂猜,寧可不回答,被扣的分數會比較少。
這樣的改革,才能從根本上改變 AI 的行為,引導它從一個「愛猜題的投機考生」,轉變為一個能誠實評估自我的知識邊界的「負責任專家」。
越是深入了解 AI 系統的運作,各位就會發現,真的真的與人類社會運作有非常多雷同、甚至一模一樣的體悟和設計。
知之為知之,不知為不知,是知也。
不知道就說不知道。
科技的演進以及應該發展的方向,又再次跟古老的智慧不謀而合。
責任編輯:李先泰