AI胡說八道不是Bug?解密LLM背後的「二元評分機制」:亂猜題,遠比繳白卷更強
AI胡說八道不是Bug?解密LLM背後的「二元評分機制」:亂猜題,遠比繳白卷更強

我國中的時候,有一位同學完全放棄學習英文,每次考試時碰到英文填充題的時候,他看都不看題目,就一律填上「is」作為答案,你看到他的考卷真的整個會笑出來,大家把他的考卷當成笑料。

不過,他因此幾乎從來沒有考過英文零分,每次大概都會有個位數的分數。所以,這個策略還是有些用的。

講這個故事,也是為了講 AI,還請各位看到最後。

AI 的「正確性」和「穩定性」是兩件完全不一樣的事情。說得比較直白一點,「穩定地說同一個謊話」是可以一起展現的兩種特質,例如你碰到一個人每天都跟你說「地球是平的」,他每天的回答都非常穩定,雖然我們都知道他講的內容是錯的。

所以,上一篇文章我們談到的單純是 AI 的「穩定性」。這跟 AI 的「內建知識」無關,純粹是個物理問題罷了,主要看的現象是 AI 針對同一個問題,前後回答的答案是否一致,而不是回答的內容是否正確。

AI「一本正經地胡說八道」是另外一個關於「正確性」的大問題,這其實就是大家常常談到的「 AI 幻覺 (Hallucination)」問題:AI 會捏造不存在的事實,而且講起來還非常有自信。

最近有一篇論文也滿紅的,同樣引起相當多的討論,是由 OpenAI 發表的論文「大型語言模型為何會產生幻覺(Why Language Models Hallucinate)」。論文的核心結論是:AI 的幻覺並非什麼神秘的不可知現象,而是在我們現行的訓練與評估體制下,必然會產生的結果。作者們將 AI 比喻為一個正在參加考試的學生。非常完美解釋了幻覺的來龍去脈。

重點同樣分成兩個部分。

首先,AI 的學習始於「預訓練(pre-training)」,也就是把整個網路上的資料都讀一遍。論文指出,而在這個階段,AI 就埋下了幻覺的種子。他們巧妙地將 AI「生成正確內容」的任務,簡化為判斷「一句話是否正確」的是非題。

研究發現,AI 在處理那些稀有、孤立的「任意事實」(Arbitrary Facts) 時特別容易犯錯。論文提出了一個關鍵概念叫「單例率 (singleton rate)」。如果某個知識點(例如某位學者的冷門論文標題)在 AI 讀過的浩瀚資料中只出現過一次,那麼 AI 在被問到時,產生幻覺的機率就會非常高。這就像考生對一個只在課本角落看過一次的冷門知識點,很容易記錯或張冠李戴一樣。

簡單來說,就是「書只讀了一次所以不熟」,所以答錯了,這跟人類非常相像。

第二個重點,也跟人類學生考試的狀況幾乎一模一樣。大家都被考試荼毒過,相信一定都知道如果在考試時遇到不會的題目,隨便亂寫一些答案可能會得到一些「同情分數」,總比交白卷好。

AI 系統的設計機制,很大一部分就是按照這種邏輯來設計,所以問題就是出在 AI 的「考試制度」上。目前所有主流的 AI 評測基準 (Benchmarks),幾乎都採用「二元評分機制」:答對得 1 分,答錯或回答「我不知道」(IDK),通通都是 0 分。

「不答一定沒分,亂答可能會有分。」就跟人類學生得到的結論一模一樣:亂寫總比不寫好。

在這個遊戲規則下,AI 作為一個追求高分的「理性考生」,它的最佳策略是什麼?答案就是「猜」。因為承認不知道的得分是 0,而只要猜測就有機會矇對拿分。久而久之,AI 在一次次的優化中學會了:在不確定時,編造一個聽起來最 plausible (言之成理) 的答案,是最大化分數的最好策略。

延伸閱讀:為什麼AI會出現幻覺?OpenAI揭評測漏洞:回答「不知道」零得分,所以模型寧可瞎猜

論文分析了 10 個業界極具影響力的評測(如 MMLU-Pro、GPQA、SWE-bench 等),這些評測絕大多數都對「承認不確定」的回答給 0 分。這形成了一種可怕的「流行病」:整個 AI 產業都在無形中懲罰誠實,獎勵亂講(製造幻覺)。

因此,解決幻覺的根本之道,不是再發明什麼新演算法,這甚至根本不是一個困難的技術問題,而是我們必須進行一場「社會-技術混合 (socio-technical)」的改革。我們必須直接修改主流評測的計分方式,引入類似「倒扣分」的機制。

例如,在給 AI 的題目中明確指示:「只有當你有超過 90% 的信心時才回答。因為答錯將倒扣 9 分,答對得 1 分,回答『我不知道』得 0 分。」

是不是又跟我們以前考試的經驗很像?亂寫答案是會被倒扣的,信心不夠的話千萬不要亂猜,寧可不回答,被扣的分數會比較少。

這樣的改革,才能從根本上改變 AI 的行為,引導它從一個「愛猜題的投機考生」,轉變為一個能誠實評估自我的知識邊界的「負責任專家」。
越是深入了解 AI 系統的運作,各位就會發現,真的真的與人類社會運作有非常多雷同、甚至一模一樣的體悟和設計。

知之為知之,不知為不知,是知也。

不知道就說不知道。

科技的演進以及應該發展的方向,又再次跟古老的智慧不謀而合。

延伸閱讀:AI隨機作答「真正元兇」找到了!OpenAI前技術長團隊揪出「缺乏批次不變性」,這是什麼?

責任編輯:李先泰

關鍵字: #openai #ChatGPT
往下滑看下一篇文章
從台流轉型到跨界共創,2025亞洲新媒體高峰會以「RESILIENCE:韌性 · 突圍」驅動產業續航
從台流轉型到跨界共創,2025亞洲新媒體高峰會以「RESILIENCE:韌性 · 突圍」驅動產業續航

全球影視娛樂正處在結構翻轉的臨界點。從串流平台的競合與權力再分配,到生成式AI引爆的創作革命,再到觀眾注意力被碎片化的內容浪潮瓜分,市場規則幾乎在一年之內重寫。

在這樣的動盪中,「如何永續成長」成為所有內容產業的共同焦慮。台灣擁有豐沛的創作能量,卻在規模化與國際化的路上,始終面臨結構性瓶頸。為了回應時代考驗,NMEA(新媒體暨影視音發展協會)以「RESILIENCE:韌性 · 突圍」為題,將於11月24日至25日舉行2025亞洲新媒體高峰會,邀請超過五十位國內外產業領袖對話,從組織、內容、技術與商業模式出發,探討如何讓台灣影視娛樂在不確定中,創造屬於自己的續航動能。

韌性,從衝擊中找到成長的可能

「Resilience」一詞原本源自工程學,指材料在受壓後能回彈的能力。NMEA理事長李芃君指出,當這個詞被用於產業時,它所代表的已不只是「抗壓」,而是「擁抱變化與永續成長」的能力——在巨變中快速重組關鍵資源、甚至藉由創新找到新的突破。

她觀察,全球產業變動的背後,主要受到三股力道的衝擊:地緣政治的風險、科技典範的轉移,以及氣候與疫情等帶來的自然挑戰。這些因素同樣影響著台灣文化內容產業。

以台灣一家全球背光模組大廠為例。近年隨著國際電子品牌紛紛在筆電與平板產品導入OLED顯示技術,傳統背光模組市場面臨挑戰;該企業在察覺趨勢轉向後,選擇主動調整策略,透過併購前沿技術快速推出新產品,切入車用、醫療與AR/VR顯示等新領域。李芃君指出,這樣的轉向即是韌性的展現——在技術更迭的浪潮中重新定位自己,讓企業從被動防守,轉為開創下一波成長曲線。

「這種思維放回影視娛樂也一樣。當市場被新技術和新平台顛覆,產業若仍困於單一市場、單一資金、單一合作關係,就難以應對下一次衝擊。」她強調,建立韌性不能停留在抽象的口號,必須要有具體行動,而關鍵就在「多角化」。

多角化的市場讓故事能走出台灣、觸及不同文化的觀眾;多角化的技術與人才,讓製作不再受限於傳統框架;而多角化的資金與夥伴結構,則能減少對補助與單一委製案的依賴,形成正向循環的產業體質。諸如日本《鬼滅之刃》透過IP延伸創造跨世代效應,或泰國在政府策略支持與國際平台Netflix合作,讓在地內容走向全球,都是多角化的案例。

高峰會四大主軸,挖掘韌性的潛力

「政策當然重要,但最終能否長出韌性,關鍵仍在產業本身的自覺與行動力。」李芃君表示,第七屆亞洲新媒體高峰會以「台流轉型、跨界共創、影視創新、商模躍進」四大主軸為核心,期望讓韌性不再停留於口號,而能轉化為具體實踐。不只是思考「如何生存」,更要推動產業主動探索「如何成長」。

在「台流轉型」議題中,論壇將從亞洲娛樂的整體格局出發,思考台灣內容如何在國際市場中建立辨識度與合作機制。面對串流平台競爭與區域內容崛起,產業要重新定義「台流」的價值,從單點創作走向跨國布局。

「跨界共創」則從電競、音樂、體育到AI應用,剖析影視娛樂如何走向一個多層次的體驗場域。透過多個實際案例,探討不同產業之間的協作經驗,助攻內容突破原有框架,創造新的商業能量。

「影視創新」主軸聚焦於新技術與內容形式的融合。如:短劇風潮、現象級作品及AI生成式內容等,正改變影視產業的創作邏輯。論壇將聚焦技術如何成為創意夥伴,推動人才與內容的再進化。

最後,「商模躍進」則回應內容永續與變現挑戰。當觀眾行為與平台策略不斷重組,內容不再只是作品,也是可延伸、可轉化的商業資產。論壇將引導產業思考,如何讓內容價值在不同階段持續發酵,打造可長可久的生態循環。

李芃君強調,高峰會的價值,在於讓這些不同維度的討論彼此交會;唯有當創作、技術與資本願意對話,產業的韌性才能真正落地。「我們希望產業能從危機思維轉向成長思維,在對話與合作中,激盪出新的想像與行動。」

韌性,新媒體暨影視音產業必備的DNA

自2017年成立以來,NMEA持續扮演政策倡議與產業整合的推動者。每一屆高峰會也都對應時代命題,映照產業進化軌跡。從2023年「EMPOWERING」的全面賦能、2024年「CONSOLIDATION」的整合共榮,到今年的「RESILIENCE」發揮韌性、尋求突圍,李芃君形容,這是一條從能力啟動、資源整合到體質調整的路徑,引領台灣影視娛樂邁向國際舞台。

NMEA
NMEA理監事集結產業代表,共思壯大台灣內容產業之道。
圖/ NMEA

她指出,高峰會結束後,NMEA也將以工作坊與共創計畫延續對話熱度,讓產業交流落地為實際行動。協會也積極拓展跨域合作,從企業交流、IP授權推動到媒體合作,串聯更多產業能量。

值得注意的是,自2022年起,高峰會同步啟動線上直播,三年累計已吸引超過20萬名觀眾參與,單屆觀看更突破8.1萬人次。李芃君認為,這不僅是數據表現,更代表台灣影視產業逐漸建立國際話語權。當產業以開放與創新的態度前行,才能在全球文化浪潮中,站上屬於台灣的舞台。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓