自生成式AI技術崛起後,大量AI生成的內容如雨後春筍般誕生,讓許多人擔心人類創作的內容將被淹沒。近期有研究指出,AI已經在過去5年裡新發表的文章中占據半片江山,目前貢獻了52%的新內容。
SEO諮詢公司Graphite在最新報告中,分析了從2020年1月到2025年5月間,隨機採樣的65,000篇英文文章,發現在2024年11月,AI生成文章的數量一度超越了人類撰寫的文章,出現「黃金交叉」。
不過,這個消息並沒有想像中那麼糟。最新數據顯示,AI生成和人類撰寫的內容比例目前穩定在五五波,截至今年五月,AI文章的佔比約為52%。
自生成式AI量產的內容湧現時,曾有研究人員擔心大型語言模型(LLM)會「自食其果」,因訓練資料充斥低品質AI內容而崩潰。2022年歐洲刑警組織曾在一份報告中預測,到了2026年網路上有90%的內容將由AI生成 。
AI內容飆升後進入平穩期,與人寫文章五五開
在2022年11月ChatGPT推出之前,AI生成的文章佔比大約只有10%左右。但隨著這項技術的普及,AI文章的比率迅速增加,在短短12個月內,就達到了39% 。到了2024年,這個比率更是一度飆升至40%以上,並在2024年11月達到高峰,數量首次超越了人類撰寫的內容。
然而,這種爆炸性的成長態勢並沒有持續下去。過去一年來,AI生成文章的比例已經相對穩定。雖然AI內容在今年5月以52%的微弱優勢略勝人類一籌,但整體來說,兩者的發布數量已經進入了一個相對平衡的狀態。Graphite的研究人員認為,AI內容的增長停滯,可能是因為內容業者發現這些由AI大量產出的文章,在Google搜尋等管道中的表現不佳。
Graphite的另一份報告證實了這個說法。Google搜尋結果中,86%的文章都是由人類撰寫,AI生成的僅佔14%。同樣的情況也出現在聊天機器人引用的文章中,ChatGPT和Perplexity引用的人類文章比率高達82%
這顯示搜尋引擎和聊天機器人似乎更傾向於推薦人類創作的內容,這也意味著那些企圖透過AI內容農場快速獲利的網站,並沒有得到搜尋引擎的青睞。
人類與 AI 協作更密切,什麼是 AI 生成內容越來越難定義
儘管Graphite的報告提供了重要的見解,但他們也承認,要精準計算網路上的AI內容比率,在目前的工具和定義下是不可能的。其中一個主要限制在於,這項研究是基於開源的網頁資料庫Common Crawl進行的。
由於許多大型語言模型(LLM)的訓練資料來源於Common Crawl,一些設有付費牆、內容由人類撰寫的網站,為了保護其內容不被AI掠奪,已經開始阻止Common Crawl爬蟲。因此,這些被排除在資料集之外的人類文章,可能會導致Graphite的數據低估了人類創作內容的真實比例。
另一個挑戰是「人類與AI協作」所帶來的界線模糊。隨著越來越多的作者在創作過程中利用AI聊天機器人或其他工具來輔助,像是先用AI生成初稿再由人類編輯或重寫,這使得傳統的 AI偵測器很難判斷文章的最終歸屬。
洛杉磯加大電腦科學教授兼AWS副總裁斯特凡諾.索亞托(Stefano Soatto)向《Axios》表示,「這是一種共生關係,而不是二元對立。」
Graphite在研究中使用了名為Surfer的AI偵測器,並將超過50%內容由大型語言模型撰寫的文章定義為AI生成。他們也提醒,這項研究並未評估「AI生成、人類編輯」的文章數量,這類內容的實際普及程度可能更高。就像是本文也是AI生成初稿,由人類編輯。
責任編輯:林美欣