GPT-4新數據來源:100萬小時YT影片!文字已經不夠用了嗎?有違反版權嗎?
GPT-4新數據來源:100萬小時YT影片!文字已經不夠用了嗎?有違反版權嗎?

為了訓練AI,據傳OpenAI把目標指向了YouTube。

根據《紐約時報》的報導,OpenAI對語言模型訓練的素材需求大增,目前網路上的文字內容已經不夠,OpenAI利用語音轉文字工具「Whisper」轉錄了100萬小時的YouTube影片內容來訓練GPT-4。

YouTube變GPT-4新飼料?Google怎麼看?

Google發言人馬特・布萊恩(Matt Bryant)表示對OpenAI的做法一無所知,並且強調禁止「未經授權抓取或下載YouTube內容」。YouTube執行長尼爾.莫漢(Neal Mohan)日前在《彭博社》受訪時提到,目前並沒有證據指出OpenAI違規使用YouTube的影音內容,但若屬實,的確會違反YouTube平台的使用條款。

尼爾.莫漢提到:「從影片創作者的角度來看,創作者將他們辛苦創作的作品上傳到YouTube,一定會有期待受到服務條款的保障。這個服務條款就是: 不允許下載文字記錄或影片片段內容等 。這(指使用YouTube的影音內容來訓練模型)明顯違反了服務條款。」

也就是說,目前還不能證實OpenAI是否真的利用YouTube來訓練AI模型,但似乎也不讓人意外。

為什麼OpenAI、Meta、Google需要這麽多數據?

約翰霍普金斯大學(Johns Hopkins University)理論物理學家賈里德.卡普蘭尼(Jared Kaplany),同時也是AI新創公司Anthropic的創始人之一,在2020時發表的論文指出,語言模型讀取的資料越多,效能就越好。

也就是說,開發大型語言模型(LLM)最重要的環節就是「餵食」AI模型大量的資料。根據《彭博社》報導指出,隨著OpenAI、Google和其他公司競相開發更強大的人工智慧,他們正在尋求更多的資料內容來訓練他們的人工智慧模型,以獲得更好的品質。

研究機構Epoch提到,AI公司使用數據的速度比生成數據的速度還要快。Meta的內部資料中,Meta生成式AI副總裁艾哈邁德.達赫勒(Ahmad Al-Dahle)表示,「除非獲得更多數據,否則Meta無法追趕上OpenAI。」

科技巨頭為了AI數據,正著手修改服務條款

如何取得大量的資料成為大型語言模型公司的發展命脈。研發AI大型語言模型的公司如OpenAI、Google、Meta等公司正透過更改服務條款來取得現有用戶的資料。

《紐約時報》提到,2023年Google曾要求隱私權管理部門擴大使用服務條款,內容是允許Google利用公開的Google文件、Google地圖上的餐廳評論等來訓練開發中的AI語言模型。Meta也於2023年討論收購出版社Simon&Schuster(美國六大出版商之一),以取得長篇作品,並討論從網路上搜集受版權保護的內容。

而Google也表示,其語言模型使用了「部分YouTube影音內容」進行訓練,並取得了影片創作者的許可。

Meta也表示,已經「積極投資」將AI整合到Instagram和Facebook的服務中,並且取得數10億的公開共享圖像和影音來訓練模型。

根據《紐約時報》,目前AI使用網路上的資料訓練,已經使用超過3兆字,大約是牛津大學博德利圖書館(英國第二大的圖書館)的藏書文字的2倍。

你的資料,終究有一天被AI用!如何保護自己?

而當科技巨頭們對數據無限的需求,也引發了許多創作者對於版權問題的疑慮和訴訟。

《紐約時報》去年起訴OpenAI和微軟,稱其在未經許可的情況下使用受版權保護的新聞文章來訓練語言模型。OpenAI和微軟表示,使用這些文章是「合理使用」,是版權法所允許的。

為了解決數據不足的問題,許多語言模型公司正在開發人工智慧生成的文本(合成數據)來訓練AI語言模型,除了減少對於版權資料的依賴,也可以開發出更好的AI模型版本,以提升競爭優勢。

但此合成數據仍然處於爭議階段。使用合成數據來訓練語言模型也可能導致強化語言模型的偏見和錯誤,OpenAI的研發人員表示,這種方法可能會導致語言模型的故障,因此語言模型公司仍在嘗試其他新的做法。

AI database
圖/ <a href="https://www.freepik.com/free-photo/ai-mac

在找到更好的方法之前,想必各家科技巨頭還會持續想出獲取數據的方式,換個角度說,在「數據量大等於好」的前提沒有破解前,數據戰爭還會持續下去。

延伸閱讀:聯發科推出台版ChatGPT!最懂繁體中文的「達哥」有多厲害?

資料來源:The New York TimesThe Wall Street JournalBloomberg

責任編輯:林美欣

往下滑看下一篇文章
用數據串起亞洲市場,Vpon 為品牌開啟跨境成長新航線
用數據串起亞洲市場,Vpon 為品牌開啟跨境成長新航線
2025.10.29 |

近年來,台灣零售、金融、服務等 B2C 產業,正面臨營運成長放緩的挑戰。一來本地市場規模趨於飽和,品牌間競爭日益激烈;二來會員結構逐漸高齡化,而年輕族群的忠誠度與黏著度又難以維繫。若想突破現況,企業勢必要尋找新的成長路徑——或是積極佈局海外市場,擴大營運版圖;或是吸引外國觀光客增加消費,創造跨境商機;又或者,精準洞察會員需求與偏好,重新打造客戶關係。

無論選擇哪條路,數據整合與 AI 應用都是推動轉型的重要關鍵。威朋大數據(Vpon)執行長篠原好孝正是看見了這樣的市場契機,提出「以數據串起亞洲市場」的核心願景,善用 Vpon 在數據、AI 與數位廣告上的整合能力和經驗,協助品牌描繪顧客行為軌跡,從而制定更個人化的商品推薦與行銷策略,同時亦能協助企業掌握跨境商機,加速日本品牌深耕台灣市場,也讓更多台灣企業能以數據為翼,飛向更廣闊的亞洲舞台。

三大特色構築 Vpon 數據競爭力:多維數據 × 廣告行銷 × 隱私保護

要實現「以數據串起亞洲市場」的願景,背後靠的不只是理想,更需要完整的跨境數據與嚴謹的治理機制,而這正是 Vpon 第三方數據庫的核心競爭力所在。

篠原好孝認為, Vpon 第三方數據庫具備三大特色。第一是提供多維且全方位的消費者洞察。除了透過 App 廣告聯播網收集數據, Vpon 亦以電子發票數據為基礎,並結合政府開放數據,擴大數據收集的維度,使數據庫涵蓋線下消費傾向、地理位置、族群輪廓、興趣偏好、App 使用行為等多元面向。透過多維度數據整合分析,為企業建立涵蓋「人、事、時、地、物」的完整市場視圖。

第二是整合廣告行銷專業。提供從數據收集、受眾分析到廣告投放的一條龍式解決方案,協助企業將數據洞察轉化為具體行銷策略,並精準觸及目標客群,提高廣告行銷的成效。

第三為重視隱私保護與數據合規。 Vpon 的數據收集範圍橫跨亞洲多個國家,考量到各國政府及企業客戶對個資保護的高度要求, Vpon 從一開始就堅持不收集使用者的姓名、電話或其他可識別個人身分的數據,數據庫內僅有匿名化的裝置使用行為數據,除此之外 Vpon 更通過 ISO 27001 資訊安全管理系統認證,從數據收集原則到營運流程全面保障消費者隱私安全及數據使用的合法合規。

Vpon 威朋
威朋大數據(Vpon)執行長 篠原好孝
圖/ 數位時代

以數據助攻國家戰略:從 Cool Japan 到 Cool Taiwan

憑藉在數據整合與分析上的深厚實力, Vpon 成功引起日本政府與企業的關注和採用,包括日本政府觀光局(JNTO)、關西觀光本部、大阪觀光局、AEON MALL 等,皆導入 Vpon 數據解決方案進行精準行銷。

日本政府在 2010 年開始推動 Cool Japan 戰略,在政策推進過程中,適逢 Vpon 進軍日本市場,與日本觀光局合作進行大數據分析,藉由 Vpon 數據解決方案整合與分析海外旅客的觀光旅遊數據,不僅吸引更多海外旅客造訪日本,也帶動日本百貨業者、日本特色食品與文化商品的海外銷售業績成長。近年來,日本觀光局更依據 Vpon 的數據洞察結果精準投放廣告,推動海外遊客到東京、大阪或京都等知名景點以外的地區旅遊,促進地方觀光與產業均衡發展。

Cool Japan 的成功經驗,讓 Vpon 看見跨境數據應用的巨大潛力。因此於 2024 年啟動 Cool Taiwan 計畫,此計畫的兩個重點,一是吸引外國觀光客來台旅遊,二是支援海外企業佈局台灣市場,持續以數據為核心,打造更緊密的亞洲經濟網絡。

篠原好孝舉例指出,若日本品牌要在台灣舖設實體通路,可以透過 Vpon 數據庫了解各個商圈的人流特性、消費習慣與潛在顧客的生活圈,進而判斷哪些地點最適合開設新店。「從店舖開設前的市場評估、選址決策,到開幕後的廣告行銷與宣傳活動,都能藉由 Vpon 的數據洞察持續優化。」篠原好孝強調。

更重要的是,這套數據應用機制不僅能「順向操作」,協助日本品牌登台拓點,也能「逆向操作」,協助台灣企業前進日本市場,同時提升入境(inbound)和境外(outbound)的收入。像佳音英語在佈局日本市場時,便借助 Vpon 的廣告與數據專業,在日本主要城市的戶外看板投放廣告,成功建立品牌知名度。另外,桃園觀光局也與 Vpon 合作,於日本實體展會進行宣傳與曝光,吸引日本民眾來台旅遊。

從第三方到第一方: Vpon 以 CCDP 助企業重掌數據主導權

除了以數據串聯亞洲市場, Vpon 更進一步透過可組合式顧客數據管理平台(Composable CDP;CCDP),推動企業「回到自身」,善用自有數據資產,打造內部數據的增值循環。

篠原好孝表示, Vpon CCDP 以 Google Analytics 4(GA4)技術為核心,協助企業收集網站與 App 的使用者行為數據,並整合品牌自有的會員數據庫。如此一來,企業就能更全面掌握顧客的數位行為軌跡,據此進行更精準的分眾分群,進一步去提升會員活躍度與終身價值。

目前包括中國信託、遠東商銀、ABC Mart 等零售與金融業者,皆已導入 Vpon CCDP 解決方案,在符合法規與隱私保護要求的前提下,有效整合分散的數據資產,並透過 AI 模型進行預測與建模,找出轉換率最高的潛在客群,或是進行個人化商品推薦、優化廣告投放策略等,實現更精準且高效的行銷決策。

展望未來, Vpon 將持續「以數據串起亞洲」的願景,深化在日本、台灣、香港等東亞市場的整合布局,並計畫於東京上市,以取得更多資源推動全球化發展,例如:拓展、越南、歐洲等東亞地區以外的新市場,打造連結亞洲、放眼世界的數據生態版圖。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓