AI胡說八道不是Bug？解密LLM背後的「二元評分機制」：亂猜題，遠比繳白卷更強|數位時代 BusinessNext

我國中的時候，有一位同學完全放棄學習英文，每次考試時碰到英文填充題的時候，他看都不看題目，就一律填上「is」作為答案，你看到他的考卷真的整個會笑出來，大家把他的考卷當成笑料。

不過，他因此幾乎從來沒有考過英文零分，每次大概都會有個位數的分數。所以，這個策略還是有些用的。

講這個故事，也是為了講 AI，還請各位看到最後。

AI 的「正確性」和「穩定性」是兩件完全不一樣的事情。說得比較直白一點，「穩定地說同一個謊話」是可以一起展現的兩種特質，例如你碰到一個人每天都跟你說「地球是平的」，他每天的回答都非常穩定，雖然我們都知道他講的內容是錯的。

所以，上一篇文章我們談到的單純是 AI 的「穩定性」。這跟 AI 的「內建知識」無關，純粹是個物理問題罷了，主要看的現象是 AI 針對同一個問題，前後回答的答案是否一致，而不是回答的內容是否正確。

AI「一本正經地胡說八道」是另外一個關於「正確性」的大問題，這其實就是大家常常談到的「 AI 幻覺 (Hallucination)」問題：AI 會捏造不存在的事實，而且講起來還非常有自信。

最近有一篇論文也滿紅的，同樣引起相當多的討論，是由 OpenAI 發表的論文「大型語言模型為何會產生幻覺（Why Language Models Hallucinate）」。論文的核心結論是：AI 的幻覺並非什麼神秘的不可知現象，而是在我們現行的訓練與評估體制下，必然會產生的結果。作者們將 AI 比喻為一個正在參加考試的學生。非常完美解釋了幻覺的來龍去脈。

重點同樣分成兩個部分。

首先，AI 的學習始於「預訓練（pre-training）」，也就是把整個網路上的資料都讀一遍。論文指出，而在這個階段，AI 就埋下了幻覺的種子。他們巧妙地將 AI「生成正確內容」的任務，簡化為判斷「一句話是否正確」的是非題。

研究發現，AI 在處理那些稀有、孤立的「任意事實」(Arbitrary Facts) 時特別容易犯錯。論文提出了一個關鍵概念叫「單例率 (singleton rate)」。如果某個知識點（例如某位學者的冷門論文標題）在 AI 讀過的浩瀚資料中只出現過一次，那麼 AI 在被問到時，產生幻覺的機率就會非常高。這就像考生對一個只在課本角落看過一次的冷門知識點，很容易記錯或張冠李戴一樣。

簡單來說，就是「書只讀了一次所以不熟」，所以答錯了，這跟人類非常相像。

第二個重點，也跟人類學生考試的狀況幾乎一模一樣。大家都被考試荼毒過，相信一定都知道如果在考試時遇到不會的題目，隨便亂寫一些答案可能會得到一些「同情分數」，總比交白卷好。

AI 系統的設計機制，很大一部分就是按照這種邏輯來設計，所以問題就是出在 AI 的「考試制度」上。目前所有主流的 AI 評測基準 (Benchmarks)，幾乎都採用「二元評分機制」：答對得 1 分，答錯或回答「我不知道」(IDK)，通通都是 0 分。

「不答一定沒分，亂答可能會有分。」就跟人類學生得到的結論一模一樣：亂寫總比不寫好。

在這個遊戲規則下，AI 作為一個追求高分的「理性考生」，它的最佳策略是什麼？答案就是「猜」。因為承認不知道的得分是 0，而只要猜測就有機會矇對拿分。久而久之，AI 在一次次的優化中學會了：在不確定時，編造一個聽起來最 plausible (言之成理) 的答案，是最大化分數的最好策略。

延伸閱讀：為什麼AI會出現幻覺？OpenAI揭評測漏洞：回答「不知道」零得分，所以模型寧可瞎猜

論文分析了 10 個業界極具影響力的評測（如 MMLU-Pro、GPQA、SWE-bench 等），這些評測絕大多數都對「承認不確定」的回答給 0 分。這形成了一種可怕的「流行病」：整個 AI 產業都在無形中懲罰誠實，獎勵亂講（製造幻覺）。

因此，解決幻覺的根本之道，不是再發明什麼新演算法，這甚至根本不是一個困難的技術問題，而是我們必須進行一場「社會-技術混合 (socio-technical)」的改革。我們必須直接修改主流評測的計分方式，引入類似「倒扣分」的機制。

例如，在給 AI 的題目中明確指示：「只有當你有超過 90% 的信心時才回答。因為答錯將倒扣 9 分，答對得 1 分，回答『我不知道』得 0 分。」

是不是又跟我們以前考試的經驗很像？亂寫答案是會被倒扣的，信心不夠的話千萬不要亂猜，寧可不回答，被扣的分數會比較少。

這樣的改革，才能從根本上改變 AI 的行為，引導它從一個「愛猜題的投機考生」，轉變為一個能誠實評估自我的知識邊界的「負責任專家」。
越是深入了解 AI 系統的運作，各位就會發現，真的真的與人類社會運作有非常多雷同、甚至一模一樣的體悟和設計。

知之為知之，不知為不知，是知也。

不知道就說不知道。

科技的演進以及應該發展的方向，又再次跟古老的智慧不謀而合。

延伸閱讀：AI隨機作答「真正元兇」找到了！OpenAI前技術長團隊揪出「缺乏批次不變性」，這是什麼？

責任編輯：李先泰

全球影視娛樂正處在結構翻轉的臨界點。從串流平台的競合與權力再分配，到生成式AI引爆的創作革命，再到觀眾注意力被碎片化的內容浪潮瓜分，市場規則幾乎在一年之內重寫。

在這樣的動盪中，「如何永續成長」成為所有內容產業的共同焦慮。台灣擁有豐沛的創作能量，卻在規模化與國際化的路上，始終面臨結構性瓶頸。為了回應時代考驗，NMEA（新媒體暨影視音發展協會）以「RESILIENCE：韌性 · 突圍」為題，將於11月24日至25日舉行2025亞洲新媒體高峰會，邀請超過五十位國內外產業領袖對話，從組織、內容、技術與商業模式出發，探討如何讓台灣影視娛樂在不確定中，創造屬於自己的續航動能。

韌性，從衝擊中找到成長的可能

「Resilience」一詞原本源自工程學，指材料在受壓後能回彈的能力。NMEA理事長李芃君指出，當這個詞被用於產業時，它所代表的已不只是「抗壓」，而是「擁抱變化與永續成長」的能力——在巨變中快速重組關鍵資源、甚至藉由創新找到新的突破。

她觀察，全球產業變動的背後，主要受到三股力道的衝擊：地緣政治的風險、科技典範的轉移，以及氣候與疫情等帶來的自然挑戰。這些因素同樣影響著台灣文化內容產業。

以台灣一家全球背光模組大廠為例。近年隨著國際電子品牌紛紛在筆電與平板產品導入OLED顯示技術，傳統背光模組市場面臨挑戰；該企業在察覺趨勢轉向後，選擇主動調整策略，透過併購前沿技術快速推出新產品，切入車用、醫療與AR／VR顯示等新領域。李芃君指出，這樣的轉向即是韌性的展現——在技術更迭的浪潮中重新定位自己，讓企業從被動防守，轉為開創下一波成長曲線。

「這種思維放回影視娛樂也一樣。當市場被新技術和新平台顛覆，產業若仍困於單一市場、單一資金、單一合作關係，就難以應對下一次衝擊。」她強調，建立韌性不能停留在抽象的口號，必須要有具體行動，而關鍵就在「多角化」。

多角化的市場讓故事能走出台灣、觸及不同文化的觀眾；多角化的技術與人才，讓製作不再受限於傳統框架；而多角化的資金與夥伴結構，則能減少對補助與單一委製案的依賴，形成正向循環的產業體質。諸如日本《鬼滅之刃》透過IP延伸創造跨世代效應，或泰國在政府策略支持與國際平台Netflix合作，讓在地內容走向全球，都是多角化的案例。

高峰會四大主軸，挖掘韌性的潛力

「政策當然重要，但最終能否長出韌性，關鍵仍在產業本身的自覺與行動力。」李芃君表示，第七屆亞洲新媒體高峰會以「台流轉型、跨界共創、影視創新、商模躍進」四大主軸為核心，期望讓韌性不再停留於口號，而能轉化為具體實踐。不只是思考「如何生存」，更要推動產業主動探索「如何成長」。

在「台流轉型」議題中，論壇將從亞洲娛樂的整體格局出發，思考台灣內容如何在國際市場中建立辨識度與合作機制。面對串流平台競爭與區域內容崛起，產業要重新定義「台流」的價值，從單點創作走向跨國布局。

「跨界共創」則從電競、音樂、體育到AI應用，剖析影視娛樂如何走向一個多層次的體驗場域。透過多個實際案例，探討不同產業之間的協作經驗，助攻內容突破原有框架，創造新的商業能量。

「影視創新」主軸聚焦於新技術與內容形式的融合。如：短劇風潮、現象級作品及AI生成式內容等，正改變影視產業的創作邏輯。論壇將聚焦技術如何成為創意夥伴，推動人才與內容的再進化。

最後，「商模躍進」則回應內容永續與變現挑戰。當觀眾行為與平台策略不斷重組，內容不再只是作品，也是可延伸、可轉化的商業資產。論壇將引導產業思考，如何讓內容價值在不同階段持續發酵，打造可長可久的生態循環。

李芃君強調，高峰會的價值，在於讓這些不同維度的討論彼此交會；唯有當創作、技術與資本願意對話，產業的韌性才能真正落地。「我們希望產業能從危機思維轉向成長思維，在對話與合作中，激盪出新的想像與行動。」

韌性，新媒體暨影視音產業必備的DNA

自2017年成立以來，NMEA持續扮演政策倡議與產業整合的推動者。每一屆高峰會也都對應時代命題，映照產業進化軌跡。從2023年「EMPOWERING」的全面賦能、2024年「CONSOLIDATION」的整合共榮，到今年的「RESILIENCE」發揮韌性、尋求突圍，李芃君形容，這是一條從能力啟動、資源整合到體質調整的路徑，引領台灣影視娛樂邁向國際舞台。

她指出，高峰會結束後，NMEA也將以工作坊與共創計畫延續對話熱度，讓產業交流落地為實際行動。協會也積極拓展跨域合作，從企業交流、IP授權推動到媒體合作，串聯更多產業能量。

值得注意的是，自2022年起，高峰會同步啟動線上直播，三年累計已吸引超過20萬名觀眾參與，單屆觀看更突破8.1萬人次。李芃君認為，這不僅是數據表現，更代表台灣影視產業逐漸建立國際話語權。當產業以開放與創新的態度前行，才能在全球文化浪潮中，站上屬於台灣的舞台。

AI胡說八道不是Bug？解密LLM背後的「二元評分機制」：亂猜題，遠比繳白卷更強

從台流轉型到跨界共創，2025亞洲新媒體高峰會以「RESILIENCE：韌性 · 突圍」驅動產業續航

韌性，從衝擊中找到成長的可能

高峰會四大主軸，挖掘韌性的潛力

韌性，新媒體暨影視音產業必備的DNA