AI胡說八道不是Bug?解密LLM背後的「二元評分機制」:亂猜題,遠比繳白券更強
AI胡說八道不是Bug?解密LLM背後的「二元評分機制」:亂猜題,遠比繳白券更強

我國中的時候,有一位同學完全放棄學習英文,每次考試時碰到英文填充題的時候,他看都不看題目,就一律填上「is」作為答案,你看到他的考卷真的整個會笑出來,大家把他的考卷當成笑料。

不過,他因此幾乎從來沒有考過英文零分,每次大概都會有個位數的分數。所以,這個策略還是有些用的。

講這個故事,也是為了講 AI,還請各位看到最後。

AI 的「正確性」和「穩定性」是兩件完全不一樣的事情。說得比較直白一點,「穩定地說同一個謊話」是可以一起展現的兩種特質,例如你碰到一個人每天都跟你說「地球是平的」,他每天的回答都非常穩定,雖然我們都知道他講的內容是錯的。

所以,上一篇文章我們談到的單純是 AI 的「穩定性」。這跟 AI 的「內建知識」無關,純粹是個物理問題罷了,主要看的現象是 AI 針對同一個問題,前後回答的答案是否一致,而不是回答的內容是否正確。

AI「一本正經地胡說八道」是另外一個關於「正確性」的大問題,這其實就是大家常常談到的「 AI 幻覺 (Hallucination)」問題:AI 會捏造不存在的事實,而且講起來還非常有自信。

最近有一篇論文也滿紅的,同樣引起相當多的討論,是由 OpenAI 發表的論文「大型語言模型為何會產生幻覺(Why Language Models Hallucinate)」。論文的核心結論是:AI 的幻覺並非什麼神秘的不可知現象,而是在我們現行的訓練與評估體制下,必然會產生的結果。作者們將 AI 比喻為一個正在參加考試的學生。非常完美解釋了幻覺的來龍去脈。

重點同樣分成兩個部分。

首先,AI 的學習始於「預訓練(pre-training)」,也就是把整個網路上的資料都讀一遍。論文指出,而在這個階段,AI 就埋下了幻覺的種子。他們巧妙地將 AI「生成正確內容」的任務,簡化為判斷「一句話是否正確」的是非題。

研究發現,AI 在處理那些稀有、孤立的「任意事實」(Arbitrary Facts) 時特別容易犯錯。論文提出了一個關鍵概念叫「單例率 (singleton rate)」。如果某個知識點(例如某位學者的冷門論文標題)在 AI 讀過的浩瀚資料中只出現過一次,那麼 AI 在被問到時,產生幻覺的機率就會非常高。這就像考生對一個只在課本角落看過一次的冷門知識點,很容易記錯或張冠李戴一樣。

簡單來說,就是「書只讀了一次所以不熟」,所以答錯了,這跟人類非常相像。

第二個重點,也跟人類學生考試的狀況幾乎一模一樣。大家都被考試荼毒過,相信一定都知道如果在考試時遇到不會的題目,隨便亂寫一些答案可能會得到一些「同情分數」,總比交白卷好。

AI 系統的設計機制,很大一部分就是按照這種邏輯來設計,所以問題就是出在 AI 的「考試制度」上。目前所有主流的 AI 評測基準 (Benchmarks),幾乎都採用「二元評分機制」:答對得 1 分,答錯或回答「我不知道」(IDK),通通都是 0 分。

「不答一定沒分,亂答可能會有分。」就跟人類學生得到的結論一模一樣:亂寫總比不寫好。

在這個遊戲規則下,AI 作為一個追求高分的「理性考生」,它的最佳策略是什麼?答案就是「猜」。因為承認不知道的得分是 0,而只要猜測就有機會矇對拿分。久而久之,AI 在一次次的優化中學會了:在不確定時,編造一個聽起來最 plausible (言之成理) 的答案,是最大化分數的最好策略。

延伸閱讀:為什麼AI會出現幻覺?OpenAI揭評測漏洞:回答「不知道」零得分,所以模型寧可瞎猜

論文分析了 10 個業界極具影響力的評測(如 MMLU-Pro、GPQA、SWE-bench 等),這些評測絕大多數都對「承認不確定」的回答給 0 分。這形成了一種可怕的「流行病」:整個 AI 產業都在無形中懲罰誠實,獎勵亂講(製造幻覺)。

因此,解決幻覺的根本之道,不是再發明什麼新演算法,這甚至根本不是一個困難的技術問題,而是我們必須進行一場「社會-技術混合 (socio-technical)」的改革。我們必須直接修改主流評測的計分方式,引入類似「倒扣分」的機制。

例如,在給 AI 的題目中明確指示:「只有當你有超過 90% 的信心時才回答。因為答錯將倒扣 9 分,答對得 1 分,回答『我不知道』得 0 分。」

是不是又跟我們以前考試的經驗很像?亂寫答案是會被倒扣的,信心不夠的話千萬不要亂猜,寧可不回答,被扣的分數會比較少。

這樣的改革,才能從根本上改變 AI 的行為,引導它從一個「愛猜題的投機考生」,轉變為一個能誠實評估自我的知識邊界的「負責任專家」。
越是深入了解 AI 系統的運作,各位就會發現,真的真的與人類社會運作有非常多雷同、甚至一模一樣的體悟和設計。

知之為知之,不知為不知,是知也。

不知道就說不知道。

科技的演進以及應該發展的方向,又再次跟古老的智慧不謀而合。

延伸閱讀:AI隨機作答「真正元兇」找到了!OpenAI前技術長團隊揪出「缺乏批次不變性」,這是什麼?

責任編輯:李先泰

關鍵字: #openai #ChatGPT
往下滑看下一篇文章
中華電信前進Meet大南方:以數位生態協創 引領AI時代競爭力
中華電信前進Meet大南方:以數位生態協創 引領AI時代競爭力

在新興科技快速發展的時代,企業的智慧轉型與產業的持續進化,仰賴跨域協創夥伴的協同合作。作為數位生態協創者的中華電信,近年來積極推動產業合作,並在2025 Meet Greater South亞灣新創大南方主題論壇「南方創新力:亞灣AI半導體經濟論壇」上,展示海地星空網路全面涵蓋、AI資料中心、AI運算與雲端資料庫等,彰顯其在AI時代的核心價值。此外,中華電信也分享了多項AI應用落地實績,示範如何透過Agentic AI的判斷與決策,以及各式客製化的創新流程,為產業注入新動能。

中華電信企業客戶分公司副總經理梁冠雄表示,公司自1996年民營化以來,持續深耕電信本業並大力拓展數位整合服務,如今已躍居台灣市值前十大公司。近年來更瞄準AI趨勢,積極與生態夥伴、垂直應用方案業者跨域合作,一路由電信服務提供者(CSP)、數位服務提供者(DSP)、數位服務賦能者(DSE)走向數位生態協創者(DEC)。透過不斷的業務轉型,中華電信展現了身為電信業者在數位時代的新價值,同時協助企業提升數位韌性與創新競爭力。

為此,中華電信將持續整合以AI為首的七項新興科技,包括智慧物聯網(AIoT)、大數據(BigData)、雲端(Cloud)、資訊安全(Data Security)、邊緣運算(Edge Compute)、5G(fifth Gen)及生成式AI(GenAI),為企業提供從AI基礎建設到創新應用的一站式服務,希望加速賦能百工百業發展AI應用、共同創造更大價值。

中華電信3
圖/ 數位時代

AI關鍵價值1》:海地星空與全光網路,為AI落地應用加速

梁冠雄指出,中華電信透過網路全面涵蓋、AI資料中心(AIDC)與雲平台的AI基礎建設,為企業帶來三大關鍵價值。

首先,中華電信透過「海地星空」網路,打造具高度韌性的連網環境,解決企業通訊中斷的痛點。除了全台第一的固網與行動網路外,中華電信更持續強化海纜建設,近年來投入大量資源發展衛星通訊,已具備低軌、中軌與高軌衛星的完整能量。藉此,無論國內外,中華電信都能透過海纜與衛星等高度韌性網路,為企業提供通訊雙重保障,確保暢通無虞。

同時,為因應AI大量資料傳輸的需求,中華電信亦積極佈局全光網路(All-Photonics Network,APN),2024年與日本NTT合作,以100 Gbps光傳輸頻寬進行跨國資料傳輸測試,資料往返時間僅需約為33.84毫秒,效率遠超過傳統單向傳輸需花費200~500毫秒。梁冠雄表示:「此次測試結果證明,全光網路有機會實現分散式AIDC的創新運作模式。」藉由全光網路超高速、低延遲和低功耗的傳輸特性,讓資料和運算資源可分散兩地,突破地點限制,賦予企業AI策略更高度的彈性。

中華電信4
圖/ 中華電信

AI關鍵價值2》:AI 資料中心升級,打造彈性高效的算力服務

在AI資料中心方面,中華電信已將既有的IDC升級為AIDC,並正式推出「hicloud AI算力雲」GPU雲端租賃服務,為有需求的企業提供AI算力雲租借服務。

梁冠雄強調,企業只需依照實際使用時間來支付費用,不必投入高額成本去購置硬體,即可滿足在AI高效能運算上的即時需求,大幅提升取得AI運算資源的靈活度與彈性,同時降低研發成本,快速搶佔技術先機。此外,考量到AIDC在耗能與散熱上的挑戰,中華電信亦規劃導入直接液冷與沉浸式等散熱技術,為大規模GPU部署提前做好準備。

AI關鍵價值3》:串聯台灣前四大公雲,提供AI特色服務與可靠雲端環境

中華電信完整布局公雲服務,除自有雲端品牌hicloud,亦是AWS、Azure及GCP三大國際公雲的重要合作夥伴,更自主研發各項雲平台特色服務,例如:雲網安整合的資安防護、CMX專屬電路直連雲端、CMP多雲管理平台及加密分持等,為企業打造更安全、穩定且高效的雲端運行環境。

舉例來說,企業可以透過CMP同時管理兩個以上的雲端環境,或透過加密分持服務,避免資料過度依賴單一雲端而導致的營運風險。梁冠雄說明,加密分持機制將企業的資料備份分切成三份,並分別儲存在不同公有雲上,日後若遇到資料毀損或系統停擺等情況,只要將三份資料集結起來就能恢得運作,達到高可用與高安全的效果。

此外,搭配自主研發的AI Factory平台,讓企業可以低代碼方式,開發AI模型與應用,並執行應用所需算力與雲資源。

中華電信1
圖/ 數位時代

Agentic AI應用》以數位韌性驅動智慧城市、交通與醫療創新

在AI基礎建設外,梁冠雄亦分享中華電信在智慧城市、智慧交通與智慧醫療的Agentic AI應用實例。

以智慧城市應用為例,中華電信打造的AI淹水預警及輔助決策系統,能根據影像監控自動判斷災害等級,並據此自動進行應對措施決策,例如抽水設備調度、避難指引、淹水示警等。在智慧交通管理上,中華電信結合VLM技術打造的交通壅塞預警及輔助決策系統,不僅能判斷道路壅塞或車站人潮擁擠的程度,還能偵測交通事故,並依事件的嚴重程度及提供決策建議。在智慧醫療領域,中華電信同樣投入大量心力,以AI完善病患從看診前、看診中到看診後的所有流程,不僅提升了醫療效率,也讓醫護人員能更專注於病患照護,真正展現智慧醫療的價值。

梁冠雄強調,未來中華電信將以數位韌性為核心,持續深化AI基礎建設與創新應用的雙軌布局,並期待與更多新創攜手合作,將創意與技術落地,共同打造多元共榮的產業生態系。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
蘋果能再次偉大?
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓