GPT-4新數據來源:100萬小時YT影片!文字已經不夠用了嗎?有違反版權嗎?
GPT-4新數據來源:100萬小時YT影片!文字已經不夠用了嗎?有違反版權嗎?

為了訓練AI,據傳OpenAI把目標指向了YouTube。

根據《紐約時報》的報導,OpenAI對語言模型訓練的素材需求大增,目前網路上的文字內容已經不夠,OpenAI利用語音轉文字工具「Whisper」轉錄了100萬小時的YouTube影片內容來訓練GPT-4。

YouTube變GPT-4新飼料?Google怎麼看?

Google發言人馬特・布萊恩(Matt Bryant)表示對OpenAI的做法一無所知,並且強調禁止「未經授權抓取或下載YouTube內容」。YouTube執行長尼爾.莫漢(Neal Mohan)日前在《彭博社》受訪時提到,目前並沒有證據指出OpenAI違規使用YouTube的影音內容,但若屬實,的確會違反YouTube平台的使用條款。

尼爾.莫漢提到:「從影片創作者的角度來看,創作者將他們辛苦創作的作品上傳到YouTube,一定會有期待受到服務條款的保障。這個服務條款就是: 不允許下載文字記錄或影片片段內容等 。這(指使用YouTube的影音內容來訓練模型)明顯違反了服務條款。」

也就是說,目前還不能證實OpenAI是否真的利用YouTube來訓練AI模型,但似乎也不讓人意外。

為什麼OpenAI、Meta、Google需要這麽多數據?

約翰霍普金斯大學(Johns Hopkins University)理論物理學家賈里德.卡普蘭尼(Jared Kaplany),同時也是AI新創公司Anthropic的創始人之一,在2020時發表的論文指出,語言模型讀取的資料越多,效能就越好。

也就是說,開發大型語言模型(LLM)最重要的環節就是「餵食」AI模型大量的資料。根據《彭博社》報導指出,隨著OpenAI、Google和其他公司競相開發更強大的人工智慧,他們正在尋求更多的資料內容來訓練他們的人工智慧模型,以獲得更好的品質。

研究機構Epoch提到,AI公司使用數據的速度比生成數據的速度還要快。Meta的內部資料中,Meta生成式AI副總裁艾哈邁德.達赫勒(Ahmad Al-Dahle)表示,「除非獲得更多數據,否則Meta無法追趕上OpenAI。」

科技巨頭為了AI數據,正著手修改服務條款

如何取得大量的資料成為大型語言模型公司的發展命脈。研發AI大型語言模型的公司如OpenAI、Google、Meta等公司正透過更改服務條款來取得現有用戶的資料。

《紐約時報》提到,2023年Google曾要求隱私權管理部門擴大使用服務條款,內容是允許Google利用公開的Google文件、Google地圖上的餐廳評論等來訓練開發中的AI語言模型。Meta也於2023年討論收購出版社Simon&Schuster(美國六大出版商之一),以取得長篇作品,並討論從網路上搜集受版權保護的內容。

而Google也表示,其語言模型使用了「部分YouTube影音內容」進行訓練,並取得了影片創作者的許可。

Meta也表示,已經「積極投資」將AI整合到Instagram和Facebook的服務中,並且取得數10億的公開共享圖像和影音來訓練模型。

根據《紐約時報》,目前AI使用網路上的資料訓練,已經使用超過3兆字,大約是牛津大學博德利圖書館(英國第二大的圖書館)的藏書文字的2倍。

你的資料,終究有一天被AI用!如何保護自己?

而當科技巨頭們對數據無限的需求,也引發了許多創作者對於版權問題的疑慮和訴訟。

《紐約時報》去年起訴OpenAI和微軟,稱其在未經許可的情況下使用受版權保護的新聞文章來訓練語言模型。OpenAI和微軟表示,使用這些文章是「合理使用」,是版權法所允許的。

為了解決數據不足的問題,許多語言模型公司正在開發人工智慧生成的文本(合成數據)來訓練AI語言模型,除了減少對於版權資料的依賴,也可以開發出更好的AI模型版本,以提升競爭優勢。

但此合成數據仍然處於爭議階段。使用合成數據來訓練語言模型也可能導致強化語言模型的偏見和錯誤,OpenAI的研發人員表示,這種方法可能會導致語言模型的故障,因此語言模型公司仍在嘗試其他新的做法。

AI database
圖/ <a href="https://www.freepik.com/free-photo/ai-mac

在找到更好的方法之前,想必各家科技巨頭還會持續想出獲取數據的方式,換個角度說,在「數據量大等於好」的前提沒有破解前,數據戰爭還會持續下去。

延伸閱讀:聯發科推出台版ChatGPT!最懂繁體中文的「達哥」有多厲害?

資料來源:The New York TimesThe Wall Street JournalBloomberg

責任編輯:林美欣

往下滑看下一篇文章
「國泰人壽App」全新改版,打造一站式陪伴的保險體驗
「國泰人壽App」全新改版,打造一站式陪伴的保險體驗

保險 App 過去只是數位轉型的基本門檻,如今已成為決勝使用者體驗的關鍵媒介。擁有 800 萬保戶的國泰人壽,其「國泰人壽App」 歷經多次版本演進,2024 年底再次迎來全新改版上線,不只聚焦在提供完整的售後服務流程,更進一步連結家庭保障與健康管理,成為保戶日常中不可或缺的夥伴。

「國泰人壽App」大改版,重新定義保險關係

回顧「國泰人壽 App 」的幾次重大改版,從 2017 年推出「1.0」版本、擁有 20 萬用戶起步,到 2021 年「2.0」突破百萬用戶里程碑,再到 2024 年底正式邁入「3.0」時,用戶數已突破 330 萬——隨著 App 持續演進,不變的是始終對齊一個核心命題:App 對保戶有何實質幫助?

國泰人壽數位發展部數位客戶經營科經理陳儀綸回憶:「1.0 的首要目標就是把保險售後服務做扎實,包括查詢保單、繳費、送理賠等核心功能。到了2.0,我們進一步從客戶的保險旅程去思考,保戶最關心的是什麼?如何深化體驗?」

「2.0 對團隊來說也是一個關鍵轉折點,若要真正打造以用戶為中心的數位服務,設計就不該只是畫畫畫面,而是應該成為產品思考的一部分。因此,我們開始從設計外包支援轉向長期合作的設計夥伴關係,在國泰金控「數位數據暨科技發展中心 」的集團資源協助下,國泰人壽 App團隊不僅擁有更緊密的夥伴,也具備將保險專業深度整合進產品設計的能力。」陳儀綸說明。

隨著接近一半保戶成為 App 用戶,顯見 App 已累積廣大保戶的信任與依賴。2024 年底,團隊遂啟動 App 3.0 的全新改版。陳儀綸表示:「這次,我們從個人保險出發,走向全家人的體驗。畢竟保險從來不只是自己的事,更是守護家人的責任。」開發團隊的角色也從單純的數位工具打造者,轉變為陪伴保戶的數位保險夥伴,主動在保戶之前更早一步思考使用情境、潛在困惑與期待。

三大升級一次到位:家庭保單整合、健康外溢結合、整體風格轉換

新版「國泰人壽 App」 3.0 的設計目標,是讓用戶在幾秒內完成真正想做的事。2024 年初啟動改版時,團隊從用戶 NPS 回饋與客服進線紀錄出發,系統性分析常見問題,歸納出一項關鍵洞察——保戶需要從「家庭視角」掌握保單與保障結構。

「這是很顛覆的,以往看保單都是以個人為單位,沒有家庭視角。」陳儀綸指出,「其實很多人是為家人保險,也會查詢子女、配偶的保障狀況。」因此,改版聚焦兩大目標:其一是整合分散資訊,讓用戶能快速掌握全家的保障結構,其二是進而協助保戶更清楚地「看得懂保障」,而不只是「擁有保障」。 三大關鍵升級也應運而生:

一、家庭保單管理: 作為此次改版最具突破性的亮點,用戶可切換「我的視角/家庭視角」,一站掌握全家人的保單資訊,減少逐筆整理保單的時間。國泰金控數位數據科技發展中心用戶科技發展部體驗設計科產品設計師林易蓁表示:「多數保戶其實是『為家人投保的人』。我們把視角從個人擴大到家庭,讓『誰有什麼、缺什麼』一眼就明白,並透過透過圖像化呈現類型與數量,讓資訊更直觀。」

二、健康外溢結合: 隨著保險價值從「事後補償」走向「事前預防」,此次改版特別強化外溢保單與 FitBack 健康資料的整合度,清楚呈現健康任務達標行為與保費折扣的關聯。「過去保戶搞不懂健走數據和保單有什麼關聯,現在我們清楚呈現聯動機制,幫助保戶理解自己的行動帶來什麼實際回饋。」林易蓁說明。

三、整體風格轉換: 這次改版另一個很大的重點就是整體風格的全面翻新,在國壽品牌的穩重信任感基礎上,融合互動回饋、玻璃模糊的質感、漸層與空間感,讓整體的介面看起來不只專業,也更友善、更貼近生活 。同時導入 Design Token 系統,促進設計與工程團隊的協作,讓新視覺設計落地。

「國泰人壽App」 3.0 透過家庭視角定義保險使用情境,協助用戶快速掌握自己與家人保障全貌,讓資訊一目瞭然、直觀易懂。
「國泰人壽App」 3.0 透過家庭視角定義保險使用情境,協助用戶快速掌握自己與家人保障全貌,讓資訊一目瞭然、直觀易懂。
圖/ 國泰人壽

用減法思維,打造清晰易懂的使用體驗

然而,App 改頭換面的過程中,也面臨不少挑戰,尤其是首頁設計。「每個部門都希望自己的功能能放在首頁,所以一定要先釐清:保戶真正需要的是什麼?」陳儀綸強調,首頁不能流於功能捷徑的堆疊,而應是協助用戶快速完成任務的第一站。

對此,設計團隊也從使用者旅程出發,重新架構導覽邏輯。原本五個底部功能鍵被精簡為四個,保單資訊也首次搬上首頁。陳儀綸說,「這代表我們不再一味累加功能,而是回到使用情境,設計真正好用的動線,讓使用者更直覺地完成該做的事。」林易蓁強調:「清楚、簡潔,不只是一種風格口號,而是透過減法設計思維,讓設計不只是讓資訊變得好看,而是要幫使用者減少認知負擔,讓他們在對的時機看到對的東西。」

語言上,也全面朝向「看得懂」靠攏。「我們把艱澀的保險名詞,以更貼近使用者情境方式,轉譯成使用者熟悉的語言。例如將癌症的保障項目分類成「第一次罹癌」、「因癌症需要住院時」、「因癌症需要手術時」 等,用情境的方式告訴用戶是什麼情境下的保障,整體體驗更直覺,也更容易上手。」林易蓁說明。

數位轉型思維成為基因,提升服務新價值

App 3.0 上線後,用戶數突破 330 萬、每月活躍用戶達 65 萬,相較改版前更帶動新戶成長 30%,NPS (淨推薦值) 62分、用戶滿意度達 97%。陳儀綸指出:「服務走在客戶前面,滿意度自然會上來,也有助於客服人員引導使用 App 查詢、申辦,提升處理問題的效率。」

「橫跨多部門的夥伴一起完成這次改版,對我們來說是長期思維內化的結果」。陳儀綸說,「我們不只是在技術或產品上持續精進,而是讓整個團隊—從人才培養、協作模式、思考方式都持續進化,這樣的內化改變,才是讓數位轉型能長久走下去的關鍵。技術可以解問題,但“文化”決定團隊能走多遠。」數位轉型不只是一次專案或一次改版,它是一種長期內化的文化與思維模式,更是一種「讓服務永遠走在客戶前面」的能力。

林易蓁則補充,作為隸屬國泰金控數數發中心的設計師,一直都是以集團層級支援子公司的數位產品。「我們能從更綜觀的角度思考,不只是介面設計,也包含跨產品的體驗、功能邏輯與視覺語言,打造統一的品質與風格。」而與人壽產品團隊合作這幾年下來,彼此真的培養出很深的默契,設計師已經不再只是規劃 UIUX ,轉變成參與產品方向制定的共創夥伴,讓設計團隊能以使用者為核心,提出更貼近需求的解法,進而在產品中創造實質價值。

展望未來,團隊將持續優化核心功能,關注 AI 等新技術應用潛力,透過用戶回饋與內部創意提案推動產品持續進化。正如這次改版,讓保戶真切感受到操作更直覺、資訊更清晰,國泰人壽也正持續以具體行動落實「BETTER TOGETHER」,在每一次細節中重塑保險服務的日常價值。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓