LLM需要資料進行訓練,而這些資料來自網路。但LLM的運作方式跟常見的「剪下、貼上」操作方式不同,後者在數位媒體中已經成為標準慣例了。
LLM不會搜尋文字、複製它們的內容,然後再一字不差地將該素材再製。因此,如果像諾姆.喬姆斯基(Noam Chomsky)在一次訪談中所說的(EduKitchen 2023),ChatGPT基本上是「高科技抄襲」,這種說法並不正確。
正如我們在前一章節所見,LLM從訓練資料中擷取可見的規律模式、藉此生成新的文字內容,並非只是拿這些素材來剪下、貼上。
不過,在主張抄襲的異議中確實也存有一點道理,因為生成內容可能仍有部分會跟模型用來訓練的既有文字一模一樣,或者甚至有很大一部分很類似。雖然在這些文字當中,有些屬於公有領域的文件,但其他還有許多可能受到版權保護,所以在沒有取得原創的人類藝術家或作者同意的情況下,這種再利用並不可行。
法律上的版權保護的是文字寫法,而不是想法
在這方面,將版權和抄襲議題加以區分是很重要的。版權講的是保護特定的措辭表達,也就是一組特定的單字序列。
它是「一種智慧財產權,用以保護作者的原創作品;一旦作者以有形的表達形式來修訂作品即立刻生效」(US Copyright Office 2024),授予持有人於有限時間內,得以複製、散佈、改編、展示與展演某一特定作品的獨佔法定權利。
侵犯版權是一種針對版權持有人(可能是原創作者,也可能不是)的犯罪行為,而且通常的假設是在未事先取得版權持有人許可的情況下、使用版權保護內容。
相較之下,抄襲講的是竊取想法。這個術語源自拉丁文的plagiarius,意思是「綁架者」(見Gunkel 2016, 52)。因此,它是關於侵吞、挪用別人的想法,然後再把它呈現成好像是你自己的,完全沒有注明原創作者。所以,這是一種針對作者的法定創始人身分的犯罪行為、違反學術與藝術規範,以及涉及作者道德權利的智慧財產情事。
於是,抄襲屬於倫理議題,不見得會牽涉到法律。這意味著,即使犯了抄襲也可能不侵犯版權,而在沒有抄襲情事的狀況下,侵犯版權也有可能發生。
如何避免踩雷?使用 AI 必須懂的「3C 原則」
假如LLM訓練資料並未確實地注意到其中有些素材可能受到版權保護,而毫無區別地從網路進行擷取,那侵權的疑慮就會變得非常真切且確鑿,因為版權內容的再利用通常會要求必須符合前文曾提及的「3C」,亦即取得許可、注明出處並支付酬償。
人們應該避免「抄襲」—這句話看起來也是對的。如果想表達的想法跟原始出處有大量相似之處,就應該使原始出處的資訊透明化且可辨識。要達成這件事不見得有什麼難處或成本昂貴,但要處理這其中的一些議題,可能需要—舉例來說—讓LLM揭示它們的資料來源、在原始內容加上浮水印、利用科技追蹤並定位再利用的足跡,或是為藝術家或作者建立補償辦法。
不過,即使做了這些預防措施,我們必須承認,對於未來的創造與創新,轉化再利用通常是必要的。舉例來說,在學術研究領域內,直接引述(quotation)與引用(citation)過去已出版的材料,算是學術中一個至關重要的層面;在部落格和線上溝通的範疇內,轉發過去已發表的內容是標準的運作程序;在音樂、電影與文學中,「剪下、貼上」的拼貼手法和重新混製,被廣泛視為建立全新原創素材的方式。
正如柯比.費格遜(Kirby Ferguson 2014)在他的網路紀實系列《一切都是重混》(Everything Is a Remix)中所訂定的公式,「一切創作行為都採用了三個基本的操作:複製、轉化、結合」(見圖2.1)。而那些開發並使用LLM科技的跨國企業,例如OpenAI,為了支持它們對於網路內容的挪用,已經再利用了這些概念—它們尋求美國版權法的合理使用例外作為保護,並且論道,如果針對使用原創藝術家的內容進行補償,成本將會昂貴得令人卻步,進而阻礙創新(Gunkel 2025)。
侵權責任到底算誰的?從《紐約時報》提告看未來的法律大戰
這一切進一步引出關於責任的重要問題。更確切來說,確保版權的適當保護,以及管制或至少控制抄襲,這些是誰的責任?應該交由原創作者或藝術家來監控LLM內容嗎?針對LLM用來訓練的資料,開發並使用這些科技的公司是否有責任在區分不同資料類型方面做得更好?或是由使用者來確保他們的提示詞不會導致AI生成違反既存版權的內容?
這些問題非常可能只會等到在法律方面遇到挑戰之後,才會開始建構答案,例如《紐約時報》向OpenAI與微軟所提出的挑戰(Grynbaum and Mac 2023)。
不過,仰賴創意工作維生的藝術家與內容創作者沒辦法如此奢侈地等候這些決定。於是,現在已經有一些由藝術家主導的創新倡議,旨在建立保護內容的實際機制。
例如音樂家荷莉.亨頓(Holly Herndon)與麥特.德萊賀斯特(Mat Dryhurst)於二○二四年推出Spawning.ai,其中包含「禁止訓練工具組」(Do Not Train Tool Suite),「強化與『禁止訓練登錄檔』(Do Not Train Registry)相關的機器可讀選擇退出方法」(Spawning.ai 2024)。於執行上,Spawning.ai提供創作者一套線上工具,以控制自己的藝術作品是否想被納入生成式AI的訓練資料集內,以及何時、如何納入。這絕不是什麼一勞永逸的靈丹妙藥,但卻是針對為LLM科技早期模樣定調的權力不對稱現象、邁向重新平衡的一步。
真假難辨的信任危機
另外一個複雜的討論是,那些與人類寫作材料互相競爭的機器生成文字的增殖。這是美國編劇工會(Writers’ Guild of America)於二○二三年發起罷工時,跟好萊塢夢工場(Hollywood Studios)的合約談判中的其中一個爭論點(Watercutter 2023)。
此外,亞馬遜網站上大量湧出由LLM生成的新書作品,有時候甚至冒用真實人類作者的名號、在他們不知情的情況下進行販售—這也引發了同樣的疑慮。雖然這些既不是侵犯版權、也不是抄襲的情事,但它們都可能造成大眾對出版文字的真實性感到困惑。
在LLM的時代裡,即使書本封面印了名字,但我們該如何確定它真的是那位人類作者所寫的呢?
本文授權轉載自《當AI取得話語權,人類還剩下什麼?:以當代哲學與溝通理論探討AI的語言、意識與作者權威性問題》,Mark Coeckelbergh, David J. Gunkel,商周出版
責任編輯:蘇柔瑋
