白話科技|模型崩潰Model collapse是什麼?為什麼AI「近親繁殖」對模型訓練有毒?
白話科技|模型崩潰Model collapse是什麼?為什麼AI「近親繁殖」對模型訓練有毒?

假如有一天人類全面擁抱人工智慧,開始大量使用生成式AI產出圖像及文字,那麼在未來的史書上,這一天可能會被記載為AI的「末日」。

一項研究指出,當網路上存在越來越多生成式AI產出的內容,最終會導致各個模型被污染、無法正常運轉,只能吐出無意義內容,陷入「模型崩潰」危機。

「模型崩潰」意思是什麼?

模型崩潰(Model collapse)指的是「使用由AI模型生成的內容來訓練AI。」但英國研究團隊在《自然》期刊上發布的研究揭露,這樣的作法會導致模型快速退化,漸漸從產出失真內容惡化到生成無意義的亂碼,最終變得毫無用處。

研究團隊在實驗中,不斷讓AI模型使用上一代模型生成的內容接受訓練,結果不出10代的時間裡,AI模型產出的內容已經從最初輸入的中世紀建築資料,偏離成討論各種大野兔的種類。

「我們發現如果在訓練中不加區分地使用模型產生的內容,會導致模型出現不可逆的缺陷,我們稱之為『模型崩潰』。」團隊在開頭的摘要中提到。

換句話說,隨著生成式AI技術越趨成熟, 越來越多AI生成的內容出現在網路上,AI模型反倒會陷入難以取得合適訓練資料,甚至一不小心誤食「毒物」的窘境

廣告禁用_Reddit_shutterstock_1078645505Resize 1280.jpg
目前AI訓練材料多是從網路上爬取,Reddit執行長近來就抱怨,要禁止微軟等AI公司爬取他們的資料是很痛苦的一件事。
圖/ Shutterstock

這對AI公司可不是好消息,包括ChatGPT在內眾多模型都依靠爬取網路上的資料進行訓練。稍早社群平台Reddit執行長史蒂夫.霍夫曼(Steve Huffman)才公開表示,阻止微軟等AI公司爬取他們的資料是最痛苦的一件事。

圖解模型崩潰:AI間的「近親繁殖」,為什麼會導致AI模型退化?

為什麼AI生成的內容,對模型本身卻是劇毒?

《TechCrunch》指出,這要回到生成式AI的原理,它們會在訓練資料中學習各種模式(pattern),然後將提示詞與相應的模式進行配對,持續預測最有可能的下個字。問題是模型通常會給出最普遍的答案,假如要求生成一隻狗,那麼模型只會給出黃金獵犬、拉布拉多等常見犬種,不會生成稀有品種出來。

美國杜克大學學者艾蜜莉.溫格(Emily Wenger)就在一篇相關論文中,利用狗狗圖像生成變化解釋了AI模型退化的過程(如下圖)。

圖片中有著各式各樣的犬種,但經由AI訓練生成後,原先比例較高的黃金獵犬會佔據更大比例,而較稀有的犬種如法國鬥牛犬、柯基從中消失。假如利用AI生成的圖像再餵給AI模型,那麼黃金獵犬的比例變得更高,並且最終圖像失真不成犬型。

model collapse.jpg
AI會放大訓練材料中的偏向,進而導致內容失真,甚至模型崩潰。
圖/ Natrue

這也是研究團隊在論文中提到的「早期模型崩潰」,原先在訓練材料中占比較高者會被進一步放大,而少數群體的比例則會減少,變得更為極端化。

而到了「晚期模型崩潰」,模型已經幾乎和原始材料沒有任何相似之處。

模型崩潰有解方嗎?

倘若不採取任何手段,那麼隨AI生成內容充斥網路,模型崩潰將註定發生,但要防止模型被AI生成的內容污染,或許不是沒有辦法。溫格指出,科技公司可以在AI生成內容中嵌入浮水印,以將此排除在訓練材料之外,不過這需要各個公司間協調合作,才能避免誤食外部模型生成的內容。

另外,模型崩潰的現象也揭示一件事:人類生成的訓練材料會越來越珍貴。這意味著建立 AI模型可能有著「先驅優勢」,在生成式AI大量誕生前建立的AI模型,可以從網路上取得更純粹、反映現實的訓練材料,後來者將難以取得訓練資源,或者必須花費心力剔除AI生成的內容

「隨著時間移轉,我們認為訓練模型會越來越困難。」研究團隊表示,「雖然我們可能有更多資料,但很難找到一批沒有偏見的資料。」

延伸閱讀:繼漂綠後,又有新名詞「漂AI」!AI Washing指的是什麼?

資料來源:TechCrunchFinancial TimesNature

關鍵字: #AI #白話科技
往下滑看下一篇文章
2025年總統科學獎〉跨界40年!梁賡義院士在產官學研間,搭建科技、人文間橋樑
2025年總統科學獎〉跨界40年!梁賡義院士在產官學研間,搭建科技、人文間橋樑

2025年總統科學獎得主梁賡義院士,即便同時擔任逢甲大學春雨講座教授、浩鼎生技董事長,還為了協助國立臺東大學設立護理系而大力奔走,三不五時要環島、全臺走透透,日子忙得不得了,但他始終精神抖擻、滿懷熱情,只因他做的,是有益臺灣、社會發展的事。

事實上,梁院士從數學跨足生物統計,再投身高等教育與國家衛生,不僅以「廣義估計方程式」(Generalized Estimating Equations,GEE)改寫了縱貫式數據分析的規則,更以獨到的人文關懷,影響無數學子與政策制定。

從小,梁院士就喜歡數學的嚴謹與邏輯,1973年,他自國立清華大學數學系畢業後,便赴美深造,並在美國南卡羅萊納大學取得統計所碩士;接著,他又轉往美國華盛頓大學,攻讀生物統計博士學位。

從數學到生物統計,帶出數據背後的人性關懷

在研讀博士期間,他接觸到了當時炙手可熱的「存活分析」,意識到生物統計能直接幫助科學家、臨床醫師回答有意義的科學問題,對人類健康產生間接但深遠的助益,就此便踏上生物統計的「不歸路」。

教學界的老友們來到頒獎典禮,為梁院士祝賀殊榮。
教學界的老友們來到頒獎典禮,為梁院士祝賀殊榮。
圖/ 數位時代

1986年,已在美國約翰霍普金斯大學(Johns Hopkins University)任教職的他,與同事Scott Zeger研發出新的統計方法「廣義估計方程式」。梁院士解釋,不論是實驗室、世代流行病學或臨床試驗,只要是縱貫式硏究(longitudinal study),產學研界都會用到GEE,進行統計分析。尤其在國際大藥廠最常用的「前後測臨床試驗」(pre-post design for clinical trial designs)中,GEE讓全球臨床醫師能準確評估癌症、心臟血管和糖尿病等新藥的療效,進而獲得各國食藥署通過,造福千萬病患。GEE發表至今,已被引用逾22,000次,並納入R、STATA、SAS、SPSS等主要統計軟體中。

雖然在約翰霍普金斯大學任教長達28年,梁院士卻幾乎年年暑假,都返國舉辦研討會,分享國際生物統計和流行病學的新知。也因為始終心繫臺灣,讓梁院士在2010年,毅然辭去在美教職,回臺擔任國立陽明大學校長。

一方面,梁院士成功為學校爭取5年500億的計畫經費,成立腦科學中心、腫瘤免疫中心和高齡健康研究中心,將陽明大學打造成研究型大學,並在國際間嶄露頭角。另一方面,為了培育年輕人才,他選擇停下個人研究,建立起由資深教師帶領年輕教師的「師徒制」,鼓勵經驗傳承,「組織要永續發展,有賴於年輕人才的成長。」像是他自己儘管平常公務繁忙,仍活躍於社群,默默留心學生的大小事;他並邀請學生前往校長宿舍,定期舉辦「與校長有約」活動,這讓學生與他之間「零距離」,大至職涯規劃、小至生活瑣事,都樂於與他分享。

最重要的是,梁院士相當看重全人教育,因此廣泛開設人文講座、藝術文化等通識課程,尤其陽明大學以醫科見長,「所謂視病如親,醫護人員在專業之外,更需要具備人文素養,才能真正關懷病患。」

梁院士於頒獎典禮現場發表感言。
梁院士於頒獎典禮現場發表感言。
圖/ 數位時代

2017年,梁院士接下國家衛生研究院院長一職。這時,他又迅速轉換角色,每週檢視國際文獻、提供數十件政策建言,充分發揮國衛院的智庫功能。新冠肺炎爆發期間,他再度臨危受命,擔任中央流行疫情指揮中心研發組組長,帶領國衛院在15天內,完成公克級瑞德西韋合成,並與阿斯特捷利康(AstraZeneca)簽約,預採購1千萬劑疫苗,達成防疫、安定民心的任務。

不斷跨界,帶著使命感堅定前行

一輩子都在「跨領域」的梁院士,堅信創新不僅來自技術,也來自跨域合作帶來的新思維。他在美國求學、教書時,不是發表完論文就沒事了,他還持續思考,自己的研究能如何被用在臨床,因此他積極參與思覺失調症、強迫症研究等多項計畫,與基因學家、精神科和流行病學醫師腦力激盪、挑戰彼此。但梁院士特別提醒莘莘學子們,「跨領域」固然重要,大學時期仍應先在一個領域「站穩腳跟」,如此才能擁有與不同領域對話、欣賞的紮實基礎。

在產官學界耕耘逾40年,梁院士絲毫未停下前進的腳步。如今,他仍在杏壇作育英才,也深入業界,期望將研究成果更直接應用在藥物,以造福病患,「這是我一直鼓勵學生進入藥廠的原因!因為他們對人類的貢獻,可能比發表文章更直接。」近來,他心心念念的最大任務,是以自身人脈連結資源,為臺東大學爭取設立護理系,填補偏鄉地區的醫護缺口。

賴總統親自頒發「2025年總統科學獎」殊榮予梁院士。
賴總統親自頒發「2025年總統科學獎」殊榮予梁院士。
圖/ 數位時代

每一個統計數字背後,都承載著真實的生命重量;每一次跨領域的嘗試,都可能為人類帶來新的希望曙光。梁院士在統計學的精準座標中,繪製出一幅幅影響深遠的生命藍圖,持續為臺灣乃至全球的健康與福祉努力。

梁賡義 院士
專長:生物統計、流行病學
現職:逢甲大學春雨講座教授
成就:研發「廣義估計方程式」,讓全球臨床醫師得以正確評估許多如癌症、心臟血管及糖尿病等新藥的療效,造福嘉惠全球數以千萬計的病患;橫跨產官學界,為臺灣貢獻所長

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓