GPT-4新數據來源:100萬小時YT影片!文字已經不夠用了嗎?有違反版權嗎?
GPT-4新數據來源:100萬小時YT影片!文字已經不夠用了嗎?有違反版權嗎?

為了訓練AI,據傳OpenAI把目標指向了YouTube。

根據《紐約時報》的報導,OpenAI對語言模型訓練的素材需求大增,目前網路上的文字內容已經不夠,OpenAI利用語音轉文字工具「Whisper」轉錄了100萬小時的YouTube影片內容來訓練GPT-4。

YouTube變GPT-4新飼料?Google怎麼看?

Google發言人馬特・布萊恩(Matt Bryant)表示對OpenAI的做法一無所知,並且強調禁止「未經授權抓取或下載YouTube內容」。YouTube執行長尼爾.莫漢(Neal Mohan)日前在《彭博社》受訪時提到,目前並沒有證據指出OpenAI違規使用YouTube的影音內容,但若屬實,的確會違反YouTube平台的使用條款。

尼爾.莫漢提到:「從影片創作者的角度來看,創作者將他們辛苦創作的作品上傳到YouTube,一定會有期待受到服務條款的保障。這個服務條款就是: 不允許下載文字記錄或影片片段內容等 。這(指使用YouTube的影音內容來訓練模型)明顯違反了服務條款。」

也就是說,目前還不能證實OpenAI是否真的利用YouTube來訓練AI模型,但似乎也不讓人意外。

為什麼OpenAI、Meta、Google需要這麽多數據?

約翰霍普金斯大學(Johns Hopkins University)理論物理學家賈里德.卡普蘭尼(Jared Kaplany),同時也是AI新創公司Anthropic的創始人之一,在2020時發表的論文指出,語言模型讀取的資料越多,效能就越好。

也就是說,開發大型語言模型(LLM)最重要的環節就是「餵食」AI模型大量的資料。根據《彭博社》報導指出,隨著OpenAI、Google和其他公司競相開發更強大的人工智慧,他們正在尋求更多的資料內容來訓練他們的人工智慧模型,以獲得更好的品質。

研究機構Epoch提到,AI公司使用數據的速度比生成數據的速度還要快。Meta的內部資料中,Meta生成式AI副總裁艾哈邁德.達赫勒(Ahmad Al-Dahle)表示,「除非獲得更多數據,否則Meta無法追趕上OpenAI。」

科技巨頭為了AI數據,正著手修改服務條款

如何取得大量的資料成為大型語言模型公司的發展命脈。研發AI大型語言模型的公司如OpenAI、Google、Meta等公司正透過更改服務條款來取得現有用戶的資料。

《紐約時報》提到,2023年Google曾要求隱私權管理部門擴大使用服務條款,內容是允許Google利用公開的Google文件、Google地圖上的餐廳評論等來訓練開發中的AI語言模型。Meta也於2023年討論收購出版社Simon&Schuster(美國六大出版商之一),以取得長篇作品,並討論從網路上搜集受版權保護的內容。

而Google也表示,其語言模型使用了「部分YouTube影音內容」進行訓練,並取得了影片創作者的許可。

Meta也表示,已經「積極投資」將AI整合到Instagram和Facebook的服務中,並且取得數10億的公開共享圖像和影音來訓練模型。

根據《紐約時報》,目前AI使用網路上的資料訓練,已經使用超過3兆字,大約是牛津大學博德利圖書館(英國第二大的圖書館)的藏書文字的2倍。

你的資料,終究有一天被AI用!如何保護自己?

而當科技巨頭們對數據無限的需求,也引發了許多創作者對於版權問題的疑慮和訴訟。

《紐約時報》去年起訴OpenAI和微軟,稱其在未經許可的情況下使用受版權保護的新聞文章來訓練語言模型。OpenAI和微軟表示,使用這些文章是「合理使用」,是版權法所允許的。

為了解決數據不足的問題,許多語言模型公司正在開發人工智慧生成的文本(合成數據)來訓練AI語言模型,除了減少對於版權資料的依賴,也可以開發出更好的AI模型版本,以提升競爭優勢。

但此合成數據仍然處於爭議階段。使用合成數據來訓練語言模型也可能導致強化語言模型的偏見和錯誤,OpenAI的研發人員表示,這種方法可能會導致語言模型的故障,因此語言模型公司仍在嘗試其他新的做法。

AI database
圖/ <a href="https://www.freepik.com/free-photo/ai-mac

在找到更好的方法之前,想必各家科技巨頭還會持續想出獲取數據的方式,換個角度說,在「數據量大等於好」的前提沒有破解前,數據戰爭還會持續下去。

延伸閱讀:聯發科推出台版ChatGPT!最懂繁體中文的「達哥」有多厲害?

資料來源:The New York TimesThe Wall Street JournalBloomberg

責任編輯:林美欣

往下滑看下一篇文章
從競賽激發創新力,第一銀行如何以AI打造差異化競爭優勢、型塑數位生活圈?
從競賽激發創新力,第一銀行如何以AI打造差異化競爭優勢、型塑數位生活圈?

Deloitte研究指出,導入人工智慧(AI)技術不僅有助於金融業者在短時間內提升5%到7%的營收,長期來看,漲幅高達10%到15%,換言之,AI不僅是科技趨勢,更是金融業邁向永續競爭的關鍵動能。

觀察到上述趨勢,第一銀行不僅透過AI加速創新轉型能量、提出名為GALA的生成式人工智慧行動方案,更舉辦「2025年第一銀行DigitALL黑客松」競賽,吸引總、分行單位逾50隊參賽,以內部競賽方式激發創新,打造一個全行共享、員工賦能的智慧金融場景服務。

聚焦三大面向,第一銀行以AI策略加速創新轉型能量

為什麼第一銀行能夠快速回應AI浪潮並做出最佳行動?原來,第一銀行早在2014年就展開數位轉型,並將AI視作驅動業務創新與流程優化的關鍵角色、廣泛應用在風險預測、詐騙防制、精準行銷,以及法金與個金的客群洞察等領域,持續擴大創新轉型能量與產業影響力。

為極大化AI帶來的創新轉型綜效,第一銀行將AI策略聚焦在三個面向:第一,將AI定位從工具轉變為全員賦能的關鍵,讓AI融入業務流程與決策機制,成為第一銀行的數位轉型基礎設施;第二,透過自研AI模型與外部合作的方式提升技術服務能量、加速AI賦能應用服務落地;第三,將AI應用場域從提升內部效率與優化風控擴展到客戶體驗與產品創新,化身成客戶最值得信賴的銀行。

例如,針對傳統授信開發過程中面臨的客戶評估流程繁瑣等議題,第一銀行以AI建立「法金潛力客戶模型」,透過分析金流強度與上下游關係,更快速且精準的辨識潛力客戶、提升招攬效率與成功率,進而創造更高的業務成效;根據統計,該模組自2023年下半年上線至今,不僅協助中小型分行招攬企業授信新戶逾百戶,核准授信額度達十億元以上,並且持續滲透其他產品成效。

隨著生成式AI崛起,第一銀行以生成式AI與擷取增強生成(Retrieval-Augmented Generation;RAG)技術整合各單位轄下規章並推出「企業內部智能詢答」系統,透過AI強化回覆能力,不僅有效縮短行員查找作業規範與詢答時間,也讓海外分行可以無時差的進行提問,系統上線已回應逾萬筆查詢,使用者普遍給予高度肯定,顯著提升整體作業效率。

除以AI優化內部營運效率,第一銀行於理財領域建置「e-First 智能理財」系統,其資產管理規模在國內銀行業的機器人理財服務中名列前茅,有效打破傳統理財服務仰賴人工諮詢、客戶對投資組合的理解及參與度有限的問題,深受投資人青睞與信任,至於在消金領域,則是透過「AI智能鑑價」,提升客戶即時取得房屋物件預估可貸金額及每月還款金額的效率。

從GALA到黑客松,第一銀行以AI創新文化打造未來金融新樣貌

在以AI加速創新轉型的過程中,第一銀行認為,目前最重要的不是追求技術,而是讓每一位員工可與生成式AI協作,因此,於2025年展開名為Project GALA(Generative AI Liberalize & Accelerate)的生成式AI行動計畫,透過定義GenAI價值金字塔,提升個人效率、創造集體智慧、改善部門流程及推動業務創新的方式,評估每一個應用案例的價值貢獻度,進而形塑生成式AI創新文化與思維,讓員工熟悉生成式AI並且願意使用。

為鼓勵員工以AI賦能工作與流程,第一銀行首次舉辦以「AI輔助工具」為主題的內部競賽活動「2025年第一銀行DigitALL黑客松」,以高額獎金吸引員工組隊參加,並提供技術支援與專業輔導,若方案具備高度可行性與發展潛力,將有機會進一步實作、推動落地並對外展示創新成果,傳遞第一銀行「全員創新、共創未來」的數位轉型精神。

第一銀行
第一銀行鼓勵員工以AI賦能工作與流程,首次舉辦「2025年第一銀行DigitALL黑客松」,提供技術支援與專業輔導,傳遞第一銀行「全員創新、共創未來」的數位轉型精神。
圖/ 第一銀行

不僅如此,第一銀行亦評估導入具備自主學習、多模態互動的AI Agent,如以NVIDIA高效能GPU與NeMo平台整合語音、文字與影像等多模態能力建立AI Agent,由其負責日常重複性工作並輔助複雜判斷與服務溝通,讓AI輔助並補足人力缺口,並保留關鍵知識以利經驗傳承。此外,導入Microsoft 365、Copilot、Power BI、Teammate等自動化工具與協作平台以提升作業效率,讓員工得以更專注於創造高價值的核心事務上。

以AI賦能數位轉型成效,第一銀行致力建置與完善數位生活圈

除以AI強化創新轉型能量,第一銀行亦十分重視「數據治理」、「資訊架構現代化」與「數位生態圈拓展」等議題,透過系列實作提升第一銀行的數位轉型能量,更精準且快速地提供客戶所需金融服務。例如,透過「銀行即服務(BaaS)」與「銀行即平台(BaaP)」雙軌模式,以應用程式介面(API)串聯電商、旅遊、房產等異業服務,將金融服務嵌入各種生活場景,如線上分期消費、旅遊險保障與房貸鑑價等,藉此擴大客戶接觸與優化使用體驗,逐步打造與完善以「金融即生活」為核心的數位生活圈,多項產品服務更陸續獲得「傑出金融業務菁業獎」、「國家品牌玉山獎」與「臺灣金融研訓院–我國銀行業金融科技創新與數位轉型大調查–《領先者》」等肯定。

為更好的連結與發揮數位生活圈帶來的影響力,第一銀行推出一個全面展示數位金融成就與異業合作成果的「數位生活圈」資訊整合平台,讓客戶與合作夥伴能更直觀地理解銀行在創新、產品服務與數位生態策略上的發展與實績,此外,第一銀行亦透過平台提供客戶眾多好康優惠「小確幸」以減少資訊分散痛點;根據統計,迄今已累積超過120檔以上成功合作案例,平台自4月上線短短三個月即累積超過18萬次瀏覽量,顯示市場對該平台的高度興趣與接受度,有利於數位生活圈的擴展工作。

展望未來,為更好回應「Banking Everywhere, Never at a Bank」以及客戶行為日益場景化與即時化等趨勢,第一銀行將以高度敏銳的策略眼光持續關注外部監管規範與新興科技發展,攜手員工與夥伴以AI等創新技術實踐與擴大「金融即生活」願景,以兼具溫度與科技力的全新金融服務形塑未來金融新世界。

第一銀行
第一銀行攜手員工與夥伴以AI等創新技術實踐與擴大「金融即生活」願景
圖/ 第一銀行

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
蘋果能再次偉大?
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓