GPT-4新數據來源：100萬小時YT影片！文字已經不夠用了嗎？有違反版權嗎？|數位時代 BusinessNext

為了訓練AI，據傳OpenAI把目標指向了YouTube。

根據《紐約時報》的報導，OpenAI對語言模型訓練的素材需求大增，目前網路上的文字內容已經不夠，OpenAI利用語音轉文字工具「Whisper」轉錄了100萬小時的YouTube影片內容來訓練GPT-4。

YouTube變GPT-4新飼料？Google怎麼看？

Google發言人馬特・布萊恩（Matt Bryant）表示對OpenAI的做法一無所知，並且強調禁止「未經授權抓取或下載YouTube內容」。YouTube執行長尼爾．莫漢（Neal Mohan）日前在《彭博社》受訪時提到，目前並沒有證據指出OpenAI違規使用YouTube的影音內容，但若屬實，的確會違反YouTube平台的使用條款。

尼爾．莫漢提到：「從影片創作者的角度來看，創作者將他們辛苦創作的作品上傳到YouTube，一定會有期待受到服務條款的保障。這個服務條款就是： 不允許下載文字記錄或影片片段內容等 。這（指使用YouTube的影音內容來訓練模型）明顯違反了服務條款。」

也就是說，目前還不能證實OpenAI是否真的利用YouTube來訓練AI模型，但似乎也不讓人意外。

為什麼OpenAI、Meta、Google需要這麽多數據？

約翰霍普金斯大學（Johns Hopkins University）理論物理學家賈里德．卡普蘭尼（Jared Kaplany），同時也是AI新創公司Anthropic的創始人之一，在2020時發表的論文指出，語言模型讀取的資料越多，效能就越好。

也就是說，開發大型語言模型（LLM）最重要的環節就是「餵食」AI模型大量的資料。根據《彭博社》報導指出，隨著OpenAI、Google和其他公司競相開發更強大的人工智慧，他們正在尋求更多的資料內容來訓練他們的人工智慧模型，以獲得更好的品質。

研究機構Epoch提到，AI公司使用數據的速度比生成數據的速度還要快。Meta的內部資料中，Meta生成式AI副總裁艾哈邁德．達赫勒（Ahmad Al-Dahle）表示，「除非獲得更多數據，否則Meta無法追趕上OpenAI。」

科技巨頭為了AI數據，正著手修改服務條款

如何取得大量的資料成為大型語言模型公司的發展命脈。研發AI大型語言模型的公司如OpenAI、Google、Meta等公司正透過更改服務條款來取得現有用戶的資料。

《紐約時報》提到，2023年Google曾要求隱私權管理部門擴大使用服務條款，內容是允許Google利用公開的Google文件、Google地圖上的餐廳評論等來訓練開發中的AI語言模型。Meta也於2023年討論收購出版社Simon&Schuster（美國六大出版商之一），以取得長篇作品，並討論從網路上搜集受版權保護的內容。

而Google也表示，其語言模型使用了「部分YouTube影音內容」進行訓練，並取得了影片創作者的許可。

Meta也表示，已經「積極投資」將AI整合到Instagram和Facebook的服務中，並且取得數10億的公開共享圖像和影音來訓練模型。

根據《紐約時報》，目前AI使用網路上的資料訓練，已經使用超過3兆字，大約是牛津大學博德利圖書館（英國第二大的圖書館）的藏書文字的2倍。

你的資料，終究有一天被AI用！如何保護自己？

而當科技巨頭們對數據無限的需求，也引發了許多創作者對於版權問題的疑慮和訴訟。

《紐約時報》去年起訴OpenAI和微軟，稱其在未經許可的情況下使用受版權保護的新聞文章來訓練語言模型。OpenAI和微軟表示，使用這些文章是「合理使用」，是版權法所允許的。

為了解決數據不足的問題，許多語言模型公司正在開發人工智慧生成的文本（合成數據）來訓練AI語言模型，除了減少對於版權資料的依賴，也可以開發出更好的AI模型版本，以提升競爭優勢。

但此合成數據仍然處於爭議階段。使用合成數據來訓練語言模型也可能導致強化語言模型的偏見和錯誤，OpenAI的研發人員表示，這種方法可能會導致語言模型的故障，因此語言模型公司仍在嘗試其他新的做法。

在找到更好的方法之前，想必各家科技巨頭還會持續想出獲取數據的方式，換個角度說，在「數據量大等於好」的前提沒有破解前，數據戰爭還會持續下去。

延伸閱讀：聯發科推出台版ChatGPT！最懂繁體中文的「達哥」有多厲害？

資料來源：The New York Times、The Wall Street Journal、Bloomberg

責任編輯：林美欣