20萬本盜版書都在「book 3」,AI巨頭從這偷數據!這是什麼?上傳者為何沒在怕?
20萬本盜版書都在「book 3」,AI巨頭從這偷數據!這是什麼?上傳者為何沒在怕?

為了訓練大型語言模型,OpenAI、Meta、谷歌、微軟等公司未經許可,從網路上收割了數百萬受版權保護的作品,在版權法的灰色地帶中遊移。

如今,OpenAI 目前正面臨大量的官司,原告稱該公司訓練數據集中的大多數書籍來自盜版來源和非授權網站。一旦被判侵權,公司有可能將面臨巨額罰款或重構算法的局面。這也導致,如今 AI 公司越來越不願意分享 AI 訓練數據的詳細訊息。

但一些公開的盜版語料庫已經被盯上。

近日,有人發現一個叫Book3 的數據集,包含近20 萬本書籍,囊括村上春樹、史蒂芬·金等暢銷書作家的著作,這個數據集被用在了訓練AI 模型上,最近遭到反盜版組織的攻擊。

版權問題這把利刃,正懸在 AI 公司們的頭上,有搖搖欲墜之勢。

Books3,AI 公司的秘密

一直以來,對於 AI 模型的訓練數據並不完全透明。今年,多名美國作家針對 OpenAI 提起了集體訴訟,指控其使用盜版書籍來訓練語言模型,侵犯版權並違反了多項法律。

這些作家主張的證據很簡單,因為些他們從未同意 OpenAI 使用他們的作品,然而 ChatGPT 卻能提供他們作品的準確摘要,這讓他們認為這些訊息肯定是從某個地方獲取的。

根據早期 GPT 版本的研究論文,其訓練數據集有部分來自於「兩個基於網路的書籍語料庫」,它們被簡單地稱為「Books1」和「Books2」,這些數據集具體包含哪些作品比較含糊。 Books1 似乎是 bookcorpus,裡面有數百本書明確聲明「不得以商業或非商業複製和分發」。 Book2 則成為一個謎團,大多人猜測它們來自於「臭名昭著的影子圖書館網站」,如 Library Genesis、Z-Library、Sci-Hub 和 Bibliotik。

其中,Z-Library 成立於 2008 年,是網路最大的盜版電子書庫之一。2022 年 11 月,美國政府起訴兩名運營該網站的俄羅斯公民,這兩人在阿根廷被逮捕。

至於 GPT-4 的 45TB 訓練數據,其中包含什麼內容的訊息更加有限,OpenAI 多年來逐漸減少了其訓練數據的披露。

儘管目前沒有直接證據證明OpenAI 使用盜版網站來培訓 ChatGPT,但一些 AI 模型此前已經明確在盜版書籍上進行了訓練,包括使用「Books3」數據集的 AI 模型。

EleutherAI 的 Pythia 研究論文中提到,Pythia 是使用 Pile 數據集進行訓練的,而 Pile 數據集包含多個英語文本集,其中之一就是名為「Books3」的數據集。

Books3 是用於訓練 AI 的最著名的盜版書籍庫之一,最初是由 AI 開發人員和知名開源 AI 支持者 Shawn Presser 於 2020 年上傳。它包含 37 GB 的文本,包括 196640 本純文本格式的書籍,並在盜版網站 bibliotik 上託管。

「假設你想訓練一個世界級的GPT 模型,就像OpenAI 一樣。怎麼做?你沒有數據。現在你可以做到,現在每個人都這樣做。為你呈現『books3』,又名『all of bibliotik』」。 Shawn Presser 最早在社交平台上寫道。

開源AI支持者Shawn Presser於2020年上傳「books3」
開源AI支持者Shawn Presser於2020年上傳「books3」。
圖/ X(Twitter)

反盜版組織出手,Books3頻被下架

然而,反盜版組織也在採取行動,代表相關利益群體,試圖限制未經授權的 AI 訓練數據的使用。

這段時間,反盜版組織 Rights Alliance 發送刪除通知後,相關網站已將 Books3 數據集下線,導致嘗試訪問該數據集的用戶會看到 404 錯誤。 Rights Alliance 還聯繫了 AI 模型託管平台 Hugging Face(該網站託管了 Books3 下載連結)以及 EleutherAI。然而,儘管一些連結被下架,該數據集的副本並未消失,仍然在其他地方出現。

遭到針對後,Shawn Presser 繼續發布新的下載連結,他稱,除非反對者打算讓ChatGPT 下線,或者通過訴訟將其告到滅亡,否則,他希望每個人都能夠製作自己的ChatGPT,他還稱自己 「很樂意入獄10 個月(海盜灣創始人服過的最高刑期),因為我推動了科學進步並賦予了你們複製ChatGPT 的能力。」

「複製ChatGPT這樣的模型的唯一方法,是建立像Books3 這樣的數據集。」Shawn Presser 稱:「每個營利性公司都會秘密地這樣做,不會將數據集發布給公眾。」「沒有Books3,我們就生活在一個只有OpenAI 和其他兆元等級公司才能訪問這些書籍的世界中,這意味著你不能製作自己的ChatGPT。沒有人能。只有巨頭公司才有資源做到這一點。」

包括 Meta 在內的一些公司曾經使用過 Book3,另外,Meta、谷歌都使用過的 C4 訓練數據集也被詬病過,現在這些公司對其語言模型中的內容更為保密。

Meta 的Llama 2 增加了40%的數據,但在其白皮書中,該公司對其最新的大語言模型使用了什麼數據更為猶豫,唯一提到的是「一個新的混合的公開可用在線數據」。隨著 AI 和版權之間的摩擦升溫,公司越來越不願意分享 AI 訓練數據的詳細訊息。

萬名作家聯名反對

超過一萬名作家已經在敦促 AI 公司停止未經許可使用其作品,他們不希望 AI 模仿其作品並學會寫作,除非科技公司為此付費。

美國的作家協會已經向巨頭們發了一封公開信,包括OpenAI、谷歌、Meta、Stability AI、IBM 和微軟公司的各大CEO,要求他們停止未經許可使用他們的作品,或對使用作品進行補償。

其中包括《達文西密碼》作者丹·布朗、《飢餓遊戲》作者蘇珊·柯林斯、《使女的故事》作者瑪格麗特·阿特伍德、《自由》作者喬納森·弗蘭岑等人都簽署了這封公開信,簽署的作家名單長達100 多頁。

目前,該作家協會正嘗試先在不提起訴訟的情況下解決爭端,因為「訴訟需要大量的資金,而且需要很長時間。」

作家連署抗議
作家連署抗議。
圖/ 美國作家協會

但也有一些文學界人士願意直接在法庭上與科技公司對抗,控訴 Meta 或 OpenAI 等使用盜版來訓練他們的 AI。此外,文學經紀人們正在與出版商商討,要更新出版合約條款,禁止未經授權的 AI 訓練用途,大部分出版商都願意限制 AI 使用他們的出版物。

根據美國作家協會的調查,90% 的作家認為,作家應該獲得對其作品用於訓練生成式人工智慧的補償,65% 的作家支持建立一個集體授權制度,以補償作者的作品被用於訓練生成式AI。

此外,69% 的作家認為他們的職業受到生成式 AI 的威脅,70% 的作家認為出版商將開始使用 AI 來完全或部分生成書籍,取代人類作者。

作家們要求立法,保障哪些權益?

除了發公開信、打官司、完善合約,出版業還在進一步尋求立法。

美國作家協會的人正在遊說制定相關法律、法規和政策:在同意方面,要求在生成式人工智慧中使用作家作品時獲得許可;在補償方面,為那些希望允許其作品用於生成式人工智慧培訓的作家提供補償;在透明度方面,要求人工智慧開發者透明披露他們用於培訓其人工智慧的作品。

他們也期望,生成式 AI 的輸出使用到作家的作品時,要獲得許可並建立相應的補償機制,或者當在提示中使用作家的姓名、身份或作品標題時,也應獲得許可。此外,他們要求作者、出版商、平台和市場標明 AI 生成的作品,並在作品很大一部分(例如超過 10-20%)由 AI 生成時進行標識。

「我們需要確保人類創作者得到補償,這不僅是為了創作者本身,而是為了確保我們的書籍和藝術繼續反映出我們的真實和想像的經驗,開拓我們的思維方式,教導我們新的思維方式,並推動我們社會的發展,而不是重複舊觀念。」該作家協會在官方聲明中稱。

NYT VS OpenAI

除了作家和藝術家,其他類型的內容創作者,也紛紛加入起訴 AI 公司的行列,一些新聞機構批評科技公司未經授權或補償,就使用他們的內容。

比如,紐約時報正在考慮對 OpenAI 提起訴訟,稱 OpenAI 的ChatGPT使用了該報的數據進行訓練,而未經紐約時報許可。在過去的幾個月裡,OpenAI 和紐約時報一直在試圖達成一項有關紐約時報內容的許可協議。但談判還未有結果,存在破裂的可能。

在最近對其服務條款政策的更改中,紐約時報明確禁止將其龐大的媒體檔案用於訓練「任何軟件程序,包括但不限於訓練機器學習或人工智慧(AI)系統」的目的。該政策適用於紐約時報的文本內容、照片、影片和數據,並明確禁止網絡爬蟲訪問,來訓練專有產品。

這裡做一個假設,如果法院判定OpenAI 等AI 公司的訓練行為屬於侵權,OpenAI 可能會被迫停止使用受版權保護的數據,並在不使用受版權保護的數據的前提下,重新構建其算法,這會引發多大的麻煩?

科技公司也試圖與新聞媒體建立關係。谷歌曾試圖爭取像紐約時報、華盛頓郵報等新聞機構的支持,向他們推銷 AI 工具。還有 AI 公司向新聞非營利機構提供微薄的慈善捐款。

期間,也有新聞機構不那麼強硬。美聯社今年就與OpenAI達成了一項為期兩年的許可協議,同意將美聯社的內容授權給 OpenAI 使用訓練。作為回報,OpenAI 提供了美聯社訪問「OpenAI 的技術和產品專業知識」的權利。

《紐約時報》
圖/ 《紐約時報》

懸在AI公司們頭上的利刃

AI 公司抓取海量網路數據,已經導致法律問題的出現,起訴 AI 公司的人正在變得越來越多。

今年,美國一間律師事務所相繼對 OpenAI、Meta 等巨頭提起訴訟,指控他們未經同意、未經授權或未經補償地佔用成千上萬名作家的作品,來訓練他們的大語言模型。行業預計訴訟規模將很龐大,因為其他內容創作者也有可能受此啟發採取法律行動。

其他生成 AI 公司,如 AI 圖像生成工具 Stable Diffusion 背後的 Stability AI,也惹上版權官司。 Stable Diffusion 是在 LAION-5B 數據集上進行訓練的,數據集包含 58.5 億個圖像文本對,大多數都受版權保護。 Getty Images 正在起訴 Stability AI,指控其未經授權在超過 1200 萬張 Getty Images 上訓練 AI 圖像生成模型。

許多藝術家和利益相關者也表示不滿,對 Stability AI、DeviantArt 和 Midjourney 等公司提起訴訟,指控他們侵犯版權、侵犯肖像權、不正當競爭和不正當獲利,尋求賠償和禁令。

微軟推出的編碼工具 Copilot 也面臨集體訴訟。 Copilot 是 GitHub 與 OpenAI 合作開發的基於人工智慧的自動編碼產品,主要利用 GitHub 上的公共代碼庫,在數十億行公開可用的代碼上進行了訓練,能通過簡單提示替用戶編寫代碼。開源程式設計師和律師指控他們從事開源軟件盜版,被告包括 GitHub、微軟及其人工智慧技術合作夥伴 OpenAI。

AI公司的利器:公平使用原則

如果要打官司,AI公司可能會援引所謂的「公平使用原則」來為其辯護,該原則允許在某些情況下,無需許可即可使用作品,包括教學、批評、研究和新聞報導。問題是,AI 訓練是否適用「公平使用原則」。

幾年前,美國作家協會也曾起訴谷歌,理由是谷歌未購買「圖書館」項目中收錄的書籍,當時,聯邦上訴法院判決認為,谷歌為其圖書館項目掃描了數百萬本書的數字副本,是合法的「公平使用」,而非侵犯版權。關鍵在於,谷歌的數字圖書館並沒有為這些書創造出「重大市場替代品」,這意味著它與原作並無競爭關係。

目前,各國政府正努力將生成式 AI 納入立法範疇。歐盟也在制訂一項 AI 法案,該法案將迫使公司將訓練模型訊息透明化。上半年,美國作家協會已兩次訪問國會山莊,討論生成式 AI 和作家保護措施的問題,涉及的問題包括集體授權和版權保護、反壟斷豁免權以及 AI 標籤和透明度要求。

「除非國會採取干預措施,以確保生成式人工智慧技術的開發和使用受到監管,否則驅動原創表達並豐富我們文化交流的重要版權激勵,將變得毫無意義。 」該作家協會在官方聲明中稱。

從現有輿論看,雖然一些人擔心訓練AI 可能會引發版權問題,但也有人認為,OpenAI 等AI 公司不需要特別許可來訓練模型,版權擔憂不利於AI 發展進步;有人則認為,取得作者的同意是至關重要的,創作者應該有拒絕的權利,或者,AI 公司至少應該購買訓練數據的書籍。

技術正在做人類歷史上從未發生過的事情,AI 訓練數據方面的開源精神應該有底線嗎?未來的法律是掣肘還是保護?如何平衡 AI 的發展與尊重人類創作權益,可能是和「通用人工智慧何時到來」是同樣重要的問題。

延伸閱讀:《紐約時報》擋OpenAI爬蟲,8千作家也怒討版權費

本文授權轉載自:極客公園

責任編輯:錢玉紘

關鍵字: #openai
往下滑看下一篇文章
從 Raise Day 出發,方睿科技如何打造商用地產的 AI 企業服務生態系?
從 Raise Day 出發,方睿科技如何打造商用地產的 AI 企業服務生態系?

AI 與數據正快速落地至各行各業,從製造、金融、電信、醫療到零售,應用速度不斷加快。但在每年交易規模至少新台幣 1900 億元的商用地產領域,卻長期受到數據破碎且不透明的限制,只能仰賴人力蒐集資訊,再憑直覺和經驗去解讀資訊、做出決策,使 AI 潛在價值難以真正發揮。為回應產業轉型的核心痛點,方睿科技首度舉辦「商用地產生態系年會 2026 Raise Day」,以開放式平台為核心,串聯專業地產服務商、空間相關企業服務商、產業專業人士等多元角色,勾勒出 B2B 企業服務生態系的全貌,希望能透過科技促進數據流動,為商用地產企業協作模式開啟新的可能性。

方睿科技
方睿科技首度舉辦 2026 Raise Day,以開放式平台為核心串聯多元角色,推動商用地產邁向產業共好的新階段。
圖/ 數位時代

方睿科技雙軌策略,讓 AI 成為商用地產的決策引擎

方睿科技創辦人暨執行長吳健宇指出,在 AI 時代,人應該專注於「最有價值」的工作;然而在商用地產業中,專業人士卻有約 70% 的時間耗費在資料蒐集與整理上,真正用於判斷與決策的時間僅約 10%。方睿科技希望翻轉這樣的時間分配,讓人力從低價值的資料處理中解放,將更多心力投入在判斷、溝通與決策等創造價值的商業活動。

方睿科技
方睿科技創辦人暨執行長 吳健宇
圖/ 數位時代

為此,方睿科技提出兩條實踐路徑。第一條是建構出具備完整性、易用性與進化性的商用地產智慧平台,運用 AI 技術,將過去產業中破碎、非結構化的資料,重塑為可被運算、可驗證的標準化數據,並結合圖表與互動式介面,讓使用者能夠快速得到完整市場資訊,實現「用戶即專家」的目標。

第二條則是推動生態系聯盟,將不動產視為企業服務的核心載體,串聯設計、家具、搬遷、清潔等多元服務夥伴,使空間不再只是靜態標的,而是承載案例、服務與數據回饋的生態系節點。透過生態系夥伴累積的實務資料與服務紀錄,平台得以發展「資料即推薦」模式,推動商用地產從單點交易,邁向可擴張的 B2B 服務網絡。

獨創「資料飛輪」機制,實現用戶即專家目標

在 AI 模型日益普及的當下,真正的競爭關鍵已不在模型本身,而是能否有效率地收集資料、提高資料品質,並將其與實際決策流程緊密結合。為此,方睿科技獨家設計出一個由「資料收集、資料精煉、專家把關、決策反饋」組成的資料飛輪,回應商用地產長期面臨的資料破碎與決策效率低落問題,成為方睿科技實踐願景的第一條路徑。

方睿科技技術長郭彥良進一步說明,資料飛輪機制的運作架構。首先在資料收集階段,必須系統性蒐集公開資料、內部檔案與報告,並透過 AI 協作將圖片等非結構化資訊轉換為可用的結構化數據。接著進入資料精煉,透過資料清洗與實體對齊,將原始資訊從單純的可閱讀升級為可比較、可推論的決策依據。第三步專家把關,則引入不動產專家進行校正與產業判讀,補上模型難以理解的規則與慣例,確保關鍵數據的正確性。最後的決策反饋階段,藉由收集使用者提問與行為,檢視現有資料是否足夠精準,再回到專家校正與補齊流程,使整個系統能隨使用頻率提升而持續進化。

在資料飛輪的運作基礎上,方睿科技正積極研發商用地產智慧平台 PickPeak。郭彥良表示,PickPeak 並非單純的物件搜尋工具,而是結合深度資料與 AI 的決策輔助平台。使用者可透過自然語言互動,提出人數、預算、區位、產業屬性等多重條件,再由系統動態生成可比較、可驗證的選址方案,真正將 AI 從「回答問題的工具」,轉化為「陪伴決策的數位專家」。

方睿科技
方睿科技技術長 郭彥良
圖/ 數位時代

創新 Data to win 模式,讓 AI 深入商用地產各階段決策流程

不過,單靠數據整合與 AI 應用仍不足以支撐產業全面升級,因此,方睿科技提出的第二條路就是,推動產業生態系聯盟,整合商用地產市場上不同角色的數據,讓 AI 能夠真正成為商用地產決策時的智慧引擎。

方睿科技不動產知識創新中心總監曾凡綱指出,目前在企業、房東或物業主與各類服務供應商之間,缺乏有效的整合機制,導致企業在選址與空間規劃過程中,難以快速找到真正合適的服務與解決方案,形成明顯的產業斷點。

為解決這些斷點,方睿科技提出「Data to win」模式,以資料取代傳統「Pay to win(付費買廣告)」思維,讓真正具備經驗與實績的服務夥伴,在適當的決策節點被看見。

曾凡綱說明,在廣告投放效益越來越低的情況下,企業服務商面臨的問題已不只是「如何曝光」,而是「如何在對的地方被看見」,這將是未來的市場勝出指標;而 Data to win 正好可以協助企業服務商建立此能力,方睿科技將生態系夥伴所擁有的案例、服務紀錄與產業知識等資料,經過去識別化與結構化處理後,再嵌入企業決策流程中,讓推薦不再來自廣告投放,而是真實、可被驗證的使用經驗,透過這樣的機制,不僅提升企業決策的準確度,也能同步放大生態系夥伴在合作中的實質價值。

舉例來說,方睿科技整合辦公傢俱夥伴 Backbone 班朋實業長期累積的辦公室規劃案例與平面圖資料,讓企業在選址階段,就能同步評估空間規劃方案,加速決策流程。又如,整合出行服務夥伴 USPACE 悠勢科技的服務資料,並呈現在地圖上,協助企業評估辦公據點的交通便利性,優化員工日常通勤與出行體驗。此外,平台也可整合大樓的 ESG 認證、公共設施與服務層資訊,協助企業快速篩選符合需求的辦公大樓,提升進駐媒合效率。

方睿科技
方睿科技不動產知識創新中心總監 曾凡綱
圖/ 數位時代

「Raise Day 只是這場變革的起點。」吳健宇強調,方睿科技已經透過投資與合夥模式,將布局延伸至專業地產服務與空間經營領域,至今旗下已有商用不動產仲介、顧問與估價等專業服務的宇豐睿星,以及聚焦商用地產代銷市場的希睿創新置業。透過直接參與第一線實務運作,方睿得以更深入理解產業真實痛點,讓科技不只是工具,而能真正回應實際決策與服務需求。

此外,方睿科技未來也將持續擴大「商用地產 x 企業服務生態系」聯盟,目前包括 Backbone、USPACE、IKEA For Business、潔客幫等企業服務夥伴已率先加入;接下來,方睿科技將邀請更多擁有關鍵數據與專業能力的企業服務商加入,讓數據在安全、可控的前提下流動,進一步釋放商用地產在選址、營運與企業服務等全生命週期中的結構性價值,為產業轉型啟動下一個關鍵階段。

方睿科技
右起方睿科技共同創辦人暨營運長陳致瑋、USPACE悠勢科技共同創辦人暨執行長宋捷仁 、Backbone班朋實業創辦人暨執行長廖家葳,透過企業服務生態系合作共同為產業啟動下一個關鍵階段。
圖/ 數位時代

方睿科技官網: https://www.funraise.com.tw

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
2026 大重啟
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓