輝達遭爆大規模盜用YouTube訓練AI！每日消耗片量「多到數不盡」燒出版權爭議|數位時代 BusinessNext

《404 Media》獲得的內部 Slack 聊天、電子郵件和文件顯示， Nvidia從 YouTube 和其他幾個來源抓取影片，以編纂其人工智慧產品的訓練數據。

當被問及使用受版權保護的內容來訓練AI模型的法律和道德問題時，Nvidia為自己的行為辯護，聲稱他們 「完全遵守版權法的條文與精神」 。然而，404 Media 檢視 Nvidia 的內部對話後發現，當 參與專案的員工對使用學術研究資料集和 YouTube 影片的合法性提出質疑時，管理層卻告訴他們，這些內容的使用已獲得公司最高層的許可。

輝達前員工爆料：公司曾要求員工從「抓影片訓練AI」

一位不願透露姓名的Nvidia前員工向404 Media透露， Nvidia曾要求員工從Netflix、YouTube和其他來源抓取影片，用以訓練其AI模型。 這個AI模型將應用於Nvidia的Omniverse 3D世界生成器、自駕車系統和「數位人」等產品。該專案在內部被稱為Cosmos（但與該公司現有的Cosmos深度學習產品不同），尚未公開發表。

從專案領導發給員工的電子郵件顯示，Cosmos 的目標是建立一個最先進的影片基礎模型，該模型「將光傳輸、物理和智慧的模擬整合在一起，以釋放對 Nvidia 至關重要的各種下游應用程式」。

Nvidia研究部副總裁暨Cosmos專案負責人Ming-Yu Liu在5月份的一封電子郵件中表示：「我們正在完成v1數據流程，並確保必要的運算資源，以建立一個每天能產出相當於人類一生視覺體驗的訓練數據的影像數據工廠。」

來自 Nvidia 內部的對話和指示顯示，該公司設計了推動生成 AI 繁榮的晶片和 API，其員工在考慮法律和倫理問題時，面臨挑戰。這也強調了包括 Runway 和 OpenAI 在內的行業巨頭對用於訓練其 AI 模型的內容的無限需求。

Nvidia發言人在一封電子郵件中告訴《404 Media》：「我們尊重所有內容創作者的權利，並相信我們的模型和研究工作完全符合版權法的文字和精神。版權法保護特定的表達方式，但不保護事實、想法、數據或訊息。任何人都可以從其他來源自由學習事實、想法、數據或訊息，並用它們來做出自己的表達。合理使用也保護了將作品用於轉化目的的能力，例如模型訓練。」

當被問及Nvidia使用YouTube影片作為其模型訓練數據時，Google發言人告訴《404 Media》，該公司「先前的評論仍然有效」，並連結到2024年4月彭博社的一篇文章，其中YouTube執行長Neal Mohan表示，如果OpenAI使用YouTube影片來改進其AI影片生成器Sora，那將「明顯違反」YouTube的使用條款。

Netflix未與輝達簽訂內容使用協議

Netflix發言人告訴《404 Media》，Netflix 沒有與 Nvidia 簽訂內容使用協議，該平台的服務條款不允許抓取內容。

從事該專案的員工提出的關於法律問題的質疑，常常被專案經理駁回，他們說，未經許可抓取影片的決定是「高層決定」，他們無需擔心；對於什麼構成合理、合乎道德的受版權保護內容和學術、非商業用途資料集的使用，被視為一個「開放的法律問題」，他們將來會解決。

我們的調查凸顯了科技公司在將大量受版權保護的內容抓取到資料集中，用於訓練一些世界上最有價值的人工智慧模型時所持有的「不徵求許可」的態度。

輝達Slack曾討論「影片訓練AI有用論」

2024 年 2 月，Nvidia 公司的首席科學家 Francesco Ferroni 在 Nvidia 公司的 Slack 頻道 #cosmos-dataset-creation 中寫道：「大家好，@Sanja Fidler 向我提到一個收集大量策劃影片數據集以進行生成建模的計劃。我們認為，首先嘗試編輯所有可用的內部和已下載的影片數據集是有用的。」Sanja Fidler 是 Nvidia 的 AI 研究副總裁。

Ferroni接著連結了一個包含資料集連結的電子表格，其中包括MovieNet，一個包含6萬個電影預告片的數據庫；WebVid，一個從圖片庫編譯的Github影像資料集，在Shutterstock發出停止和終止通知後，已被其創建者刪除；InternVid-10M，一個Github上可用的1000萬個YouTube影片ID的資料集；以及幾個內部捕獲的電子遊戲片段的資料集。

《404 Media》已從Slack對話的螢幕截圖中刪去了低階員工的姓名。我們保留了幾位參與該專案的高級工程師和高階主管的姓名，因為他們是人工智慧行業的領導者，具有公眾形象。

資料庫只能學術使用？條款難阻科技巨頭訓練AI

在2月份後來的討論中，工程師們談到了他們已經提取的資料集，包括HD-VG-130M，一個包含1.3億個YouTube影片的資料集。

該資料集由中國北京大學的研究人員所建立，其使用授權聲明該資料集僅供學術使用。

該資料集的Github頁面說：「透過下載或使用數據，您理解、承認並同意以下協議中的所有條款。僅限學術使用。HD-VG-130M資料集中的任何內容僅可用於學術研究。您同意不以任何商業目的重製、複製、拷貝、交易或利用數據集中的內容。禁止散播。尊重原始來源個人訊息的隱私。未經版權持有人許可，不得對數據集內容進行任何形式的傳播、修改或其他類似行為。」

在項目過程中，由研究人員和學者編輯公開的資料集被認為可以自由使用於 Nvidia 的模型中。AI 研究人員越來越關注其公開資料集的合理使用，包括倫理和法律方面的考量。

麻省理工學院數據來源計劃的 Robert Mahari 告訴 404 Media，在過去一年中，他們看到越來越多的研究數據集被授予非商業用途授權，顯示出學術界試圖限制其工作的商業用途。為研究用途編輯的數據集有不同於商業用途的目的。

Mahari說：「當學者們發布公共資料集，特別是針對特定任務時，我們並不檢查這些數據是否存在某些類型的偏見或西方中心主義等等。如果這不是工作的重點，那麼就不會檢查這些數據。因此，如果一位學者在授權條款上寫著：『這僅用於學術用途』，或者『請不要以非預期的方式使用這些數據』，我覺得有很強的理由應該聽從這一點。因為這些數據可能並不適合商業用途，在其他類型的背景下可能無法很好地工作。」

像許多其他科技巨頭一樣，Nvidia也僱用從事和發表學術研究的人。然而，《404 Media》看到的Nvidia內部對話清楚地表明，Cosmos旨在加強該公司在競爭激烈的AI行業中加強其商業產品的努力。

公開可用的研究資料集通常以一組URL或YouTube ID的形式分發，這是出於實際原因——數百萬個完整的影片或圖像文件分享起來太麻煩——但也是出於法律和道德原因。例如，如果有人刪除他們的YouTube影片或推文，副本就不會在所有者不知情或未經許可的情況下繼續存在於資料集中。

為了獲得實際文件，專案經理讓員工使用下載器和 AWS 伺服器抓取影片並將其合併成 Nvidia 自己的專有數據集。

Nvidia 員工在專案中的一封電子郵件中說：「這些文件的實際檔案只能由你自己下載。無法從數據集 URL 列表中下載檔案。」

Mahari 說，抓取 YouTube 和其他來源的內容作為 AI 模型的訓練數據，不僅對數據集製作者提出了問題，還對抓取數據的公司提出了倫理和法律問題。「顯然，這是不可接受的做法」，Mahari 說。「我們需要一個過程，以便有意圖地解決這些問題。」

輝達高層授權「不用擔心合理使用問題」

在一個行業內部的 Slack 頻道中， 項目經理稱，抓取影片以建立 Cosmos 是由 Nvidia 高層做出的決策。員工被告知不必擔心關於合理使用的問題。

華盛頓大學計算語言學實驗室教授兼主任艾米莉·班德（Emily Bender）告訴《404 Media》：「這感覺有點像是一種法律上的變通辦法，不直接分發數據集，其他人可以構建數據集，然後將其用於自己的目的。」

使用電影片段訓練AI，早有風氣

3月，一位研究科學家在Slack上開始了一個關於OpenAI的Sora影片生成器可能在其訓練數據中使用《阿凡達》和《魔戒》等好萊塢電影的話題。

他們說：「電影實際上是一個很好的資料來源，可以獲得類似遊戲的3D一致性和虛構內容，但品質更好。這兩個角色都是完全的CGI，現在許多真人場景也是CGI。」有人回答說，團隊應該用探索頻道的電影來訓練。

Liu說：「我們需要一個志願的人來下載所有的電影。」

最初提出電影的研究科學家補充說：「雖然他們正在做的事情非常清楚，但我們必須非常小心好萊塢對AI的過度敏感。在SD（Stable Diffusion）發表後，藝術家社群發生的事情，在好萊塢/VFX也正在發生。」

然後，他們在聊天中貼了兩個連結：一個是《好萊塢報導者》的一篇文章，內容關於泰勒‧派瑞在看到OpenAI的Sora後，暫停8億美元工作室擴張計畫；另一篇則是《名利場》關於2023年SAG-AFTRA罷工的文章。

Liu回應說（強調是他們的）：「我們在這裡做的事情不會導致任何出版物。我們會先用所有能下載到的數據進行實驗。鑑於我們不會發表任何東西，不會導致負面情緒。」這位與《404 Media》交談的前員工解釋說，「出版」是指研究出版物方面。

提出「過度敏感」的人回答說：「如果我們在全公司範圍內這樣做，應該廣泛溝通，因為像他們那樣展示一個例子可能會適得其反。」Liu回答說：「會的。」

YouTube影片也成訓練素材

3月，Ferroni在另一個與專案相關的Slack頻道中寫道：「發現了一個需要高優先級下載的文件列表。原來我們擁有的HDVILA（高解析度影片語言）資料集中缺少了230萬個原始影片！」他們指的是微軟的HD-VILA-100M，一個大規模、高解析度和多樣化的影片語言資料集。他們發送了一個Google Drive檔案的連結，並說：「這裡是缺少的youtube連結」，然後，「讓我們把這個放到下載流程中！」

HD-VILA-100M的使用許可聲明：

您同意僅將數據用於非商業研究的運算用途。這項限制意味著您可以從事非商業研究活動（包括由商業實體承擔或資助的非商業研究），但您不得在任何商業產品中使用數據或任何結果，包括作為您使用或提供給他人的產品或服務的一部分（或用於改進任何產品或服務）。

另一位工程師回覆說：「讓我們建立一個我們已經下載的URL數據庫。Youtube影片有唯一的ID，我們可以用那些作為參考（'?v='之後的ID）嗎？我們將來會多次進行 URL 差異比較和合併。」Ferroni回答說：「是的，我們現在正在用Hive做這個，設置基礎設施」，這意味著他們正在把它加入到專案管理工具Hive中。

Nvidia員工還討論了YouTube封鎖IP位址的問題；如果平台檢測到有類似爬蟲的東西被用來下載大量的內容，他們可以封鎖單個IP位址的造訪。有人問：「關於Youtube封鎖IP，你考慮過像https://brightdata.com/for IP rotation這樣的東西嗎？我們現在正在考慮用它來抓取LLM數據，如果你想試試，我有一個帳戶可以把你加進去。」

他們標記的人，在Omniverse團隊工作，回答說：「我們在AWS上，重啟一個『虛擬機』就會得到一個新的公共IP。所以，所以到目前為止這不是問題。」

在#cosmos-dataset-creation的Slack討論中，關於如何最好地為專案尋找影片，員工偶爾會提出關於他們正在做的事情的法律和道德問題。2月，在有人提到使用YouTube-8M（一個由Google編譯的YouTube ID研究資料集）後，Ferroni問道：「我們可能不能將[YT8M]用於非研究目的吧？」

YouTube-8M的論文和專案頁面沒有提到權利問題，但論文確實表明它是為了促進機器學習研究而創建的：「我們希望這個資料集能為學術界研究人員提供公平的競爭環境，縮小與大規模標記影音資料集的差距，並顯著加速影像理解的研究。我們希望這個資料集能被證明是一個開發新的影像表徵學習算法的試驗台，特別是有效處理嘈雜或不完整標籤的方法，」論文指出。

對於Ferroni關於在Cosmos專案中使用它的問題，一位Nvidia員工回答說：

「是的，從Google那裡出來的出口成本很高。然而，從Nvidia內部調度10000個核心傳統上是很困難的。此外，Nvidia到雲端的頻寬限制增加了很大的變數，並可能造成問題。從Google Cloud上下載意味著每個工作都能獲得可預測的、高頻寬的YouTube連接。

更重要的是，下載 YouTube 視頻是違反 YouTube 服務條款的。因此，為了下載YouTube 8m，我們提前與Google/YouTube清楚地溝通了下載事宜，並以我們將使用Google Cloud為誘餌。畢竟，一般情況下，對於800萬個影片，他們會得到大量的廣告印象，這是他們在下載用於訓練時失去的收入，所以他們應該從中得到一些錢。支付每下載一個影片0.00625美元似乎仍然很划算。」

Ferroni回答說：「好吧，大概這些數據只能用於研究目的吧？據我所知，Google YouTube API可以用來查詢每個影片的授權條款。你能否也說明一下ACAV100M、YouTube8M的使用條款？」

「據我所知，YouTube 的服務條款禁止下載，不管授權內容是什麼；這些限制是關於他們損失的廣告收入，而不是授權條款，」另一位員工回答說。他們繼續說：

「我不知道Google在創建資料集時使用了什麼授權條款過濾；我們只是下載了他們列出的資料集中包含的任何內容（他們發表了功能，加上原始影片的連結）。我下載的YouTube 8m數據包含完整的元數據，所以你可以檢查每個影片。我還得看看ACAV100M資料集。一般來說，CC或公共領域當然總是最好的。然而，是否可以使用受版權保護的材料進行訓練是一個開放的法律問題；大多數公司似乎認為是可以的。我相信我們的法律團隊已經批准了這種用於LLM訓練的事情，也可能批准用於影片訓練。」

麻省理工學院媒體實驗室的博士生Shayne Longpre告訴《404 Media》：「我認為，在未經他人同意的情況下將某樣東西商業化，與基於已公開在網上的東西研究生成式AI的能力之間，存在著巨大的差距。」

在Cosmos Slack頻道中關於YouTube服務條款的問題並不是最後一次在頻道內出現法律問題。後來，另一位員工說：「嗨，團隊。我們是否正在使用https://research.google.com/youtube8m/download.html？如果是的話，我們是否有法律批准？在一個專案中，法律部門否認使用它，因為個別影片的許可優先於yt8m上共享的許可。」

Liu回答說：「這是一個行政決定。我們對所有數據都有總體批准。」

「好的，謝謝你！」問這個問題的人回答說。

輝達遊走灰色地帶

班德告訴《404 Media》，Nvidia正在利用受版權保護的內容用於訓練數據的法律灰色地帶。

她說：「在我看來，確實存在一種文化，即『如果我們能抓到，我們就可以使用』，這很大程度上基於人們希望是真實的，而不是基於仔細的工作、查看其合法性，或深入思考它如何影響人們。」

Mahari說，使用受版權保護的內容來訓練AI「絕對不是一個確定的法律」。他說，法律制度還沒有確定使用訓練數據來開發AI模型是否具有足夠的變革性，特別是模型已被證明可以記憶或回憶訓練數據作為輸出。「我的觀點（部分總結在這篇科學文章中）是，訓練AI模型很可能構成合理使用，但這並不意味著生成與訓練數據的特定專案相似的輸出不是侵權。在這種情況下，目前還不清楚是基礎模型的提供者還是創建輸出的特定使用者會侵權（這可能取決於具體情況）。」

5月，一位研究科學家在Cosmos Slack頻道中分享了一些Youtube頻道的連結，並說：「如果你們仍在考慮可以下載的 YouTube 頻道，這裡有幾個可能值得考慮的頻道。」這些頻道包括Expedia和Architectural Digest的官方頻道，以及The Critical Drinker和Marques Brownlee (MKBHD)等個人的內容創作者。一位專案經理感謝他們的建議，並說他們會將這些建議傳遞給團隊，而Fidler回答說：「你們還包括教學影片嗎？天文學？醫學？」

Cosmos訓練數據團隊還討論了使用Netflix來訓練生成器。Liu在Slack頻道中說：「在今天的會議上，我們得到了下載所有類型數據的授權。我們也應該下載整個Netflix嗎？我們要如何操作呢？」

有人回答說：「我們應該下載完整的探索頻道！」

Liu說：「我們需要一個PIC（專案訊息協調人）來做這件事。誰願意一邊看電影一邊螢幕截圖？」

Liu繼續說：「我們應該從這裡得到很多高品質的人臉影片。」Omniverse基礎設施團隊的某人被標記到發文中，並指出他們願意幫助「操作這個」，因為他們有在「其他大公司建立大型資料集」的經驗。

該團隊還考慮了如何最好的在訓練數據中加入遊戲畫面。Nvidia的高級研究科學家Jim Fan提到了在捕捉生活遊戲影片時涉及的「工程和監管」障礙。

Fan寫道：「更新：我一直在與 GeForce Now（GFN）的人會面，並將與他們制定一個數據計劃。我們將與 GFN 和相關工程團隊密切合作，以設置實況遊戲數據捕獲，擴大管道，並處理它們以用於訓練。高品質的遊戲影片將是我們Sora工作的一個非常有用的補充。我們還沒有統計數據或影片檔案，因為還沒有建立基礎設施來擷取大量的即時遊戲影片和動作。這裡有工程和監管方面的障礙需要克服。但一旦GFN數據來了，我們就會將清理和處理後的GFN數據加到team-vfm中。」

3月，該專案達到了一個里程碑：下載了10萬個影片，Nvidia在兩周內完成了這項工作 。一位員工在討論這個里程碑的發文中提到Ferroni擁有一個他們正在使用的下載器，Ferroni確認他們一直在下載聲音和影片。

Liu回答說：「驚人的進展。現在的問題是，我們如何能得到大量的、高品質的URL。」

5月下旬，一封關於影片數據戰略的電子郵件發送給了專案團隊成員，宣布他們已經編譯了3850萬個影片URL。「在我們衡量所需分佈時，下週的重點仍然是電影、無人機拍攝、自我中心視角、一些旅遊和自然內容，」郵件說。它還包含了一個圖表，顯示了他們下載的內容類型的百分比。

在這封電子郵件中，一位產品經理建議將另外四個資料集加到模型的訓練數據中。他們寫道：

1. Ego-Exo4D：一個多樣化、大規模、多模式、多視角的影片資料集和基準測試，由全球13個城市的740名佩戴攝影者收集，捕捉了1286.3小時的熟練人類活動影片。 

2. Ego4D：一個大規模的、以自我為中心的資料集和基準測試套件，在全球74個地點和9個國家收集，有超過3670小時的日常生活活動影片。 

3. HOI4D：一個大規模的4D以自我為中心的資料集，具有豐富的註釋，以促進人和不同類別的物體互動方式的研究。

4. GeForce Now：遊戲數據。」

HOI4D是由清華大學、北京大學和上海齊智研究所的研究人員創建的，在CC BY-NC 4.0許可下，禁止商業使用。

Bender說：「在我看來，如果一家公司將一個僅用於研究目的的資料集用於研究，他們仍然遵守該資料集的許可。但為了做到這一點，他們必須非常小心地在他們作為研究的工作和他們在構建產品的工作之間設置一個防火牆。」

在另一封5月份的更新電子郵件中，Liu說：「研究團隊現在正在用許多不同的配置來訓練一個1B模型，每個配置有16個節點。這是進一步擴大規模之前的一個重要的調試步驟。我們計劃在幾周內得出結論，然後再擴大到10B模型。」

Nvidia執行長黃仁勳回覆該郵件說：「很好的更新。許多公司必須建立影片FM（基礎模型）。我們可以提供一個完全加速的流程。」

6月，員工們討論了在保持AI行業競爭力的背景下，模型中的哪些類型的內容對Nvidia的產品最有用。

Liu說：「Nvidia擁有機器人、AV（自動駕駛汽車）、OV（Omniverse）和Avatar，這些都是大多數內容公司所沒有的。為了最大限度提升公司的影響力，我們策劃的數據必須能很好地用於這些殺手級應用。」

一位產品經理回答說：「我了解對機器人和AV有影響的數據。誰能分享對OV和Avatar用例有影響的數據的細節？」

Liu回答說：「這將是關於人類如何與物體互動的影片。比如家具安裝。切水果，疊衣服。」

雖然Nvidia確實為學術研究做出了貢獻，但《404 Media》獲得的對話和電子郵件顯示，Cosmos團隊正在開發的模型是用於其多個產品的商業用途。

在法律對如何編制訓練數據建立先例，或者要求公司讓這些數據保持透明之前，企業將會繼續利用抓取版權保護的訓練數據這一法律灰色地帶。像這樣被洩露出來的內部對話，是任何人能夠知道自己的作品是否被用來訓練模型的唯一方式，而這些模型為Nvidia、Runway 或 OpenAI 等公司帶來了數十億美元的收益。

多年來，人工智慧行業一直在推動提高透明度，無論是透過政府監管還是行業標準。「了解用於訓練模型的資料集中的內容以及它們是如何被編譯的至關重要，」麻省理工學院的Jack Hardinges、Elena Simperl和Nigel Shadbolt在今年早些時候寫道。「沒有這些訊息，開發者、研究人員和倫理學家解決數據中的偏見或刪除有害內容的工作就會受到阻礙。有關訓練數據的訊息對立法者評估基礎模型是否攝入了個人數據或受版權保護的材料也至關重要。在更下游，如果AI系統的預期操作者和受其使用影響的人了解它們是如何開發的，他們就更有可能信任它們。」

立法者在過去一年中提出了幾項法案來解決這個問題，包括去年12月提出的《AI基礎模型透明度法案》，該法案將要求創建基礎AI模型的公司與FTC和版權局等聯邦機構合作，制定透明度標準，包括要求他們向消費者公開某些訊息。4月提出的《生成式AI版權披露法案》將要求資料集製造商向登記處提交「對使用的任何受版權保護作品的足夠詳細的摘要」，否則將面臨罰款。

Mahari說：「從技術上講，很難確定你的東西是否被用於訓練。公司的最佳政策，從激勵的角度來看，是不告訴人們你訓練了什麼，因為任何第三方都很難真正進行審計並找出答案。所以，只要你不告訴任何人，就很難證明。」

延伸閱讀：快換掉純數字密碼！實測NVIDIA顯卡解碼時長，最複雜密碼「頂多撐1小時」

本文授權轉載自：T客邦

責任編輯：李先泰