GPT-4新數據來源：100萬小時YT影片！文字已經不夠用了嗎？有違反版權嗎？|數位時代 BusinessNext

為了訓練AI，據傳OpenAI把目標指向了YouTube。

根據《紐約時報》的報導，OpenAI對語言模型訓練的素材需求大增，目前網路上的文字內容已經不夠，OpenAI利用語音轉文字工具「Whisper」轉錄了100萬小時的YouTube影片內容來訓練GPT-4。

YouTube變GPT-4新飼料？Google怎麼看？

Google發言人馬特・布萊恩（Matt Bryant）表示對OpenAI的做法一無所知，並且強調禁止「未經授權抓取或下載YouTube內容」。YouTube執行長尼爾．莫漢（Neal Mohan）日前在《彭博社》受訪時提到，目前並沒有證據指出OpenAI違規使用YouTube的影音內容，但若屬實，的確會違反YouTube平台的使用條款。

尼爾．莫漢提到：「從影片創作者的角度來看，創作者將他們辛苦創作的作品上傳到YouTube，一定會有期待受到服務條款的保障。這個服務條款就是： 不允許下載文字記錄或影片片段內容等 。這（指使用YouTube的影音內容來訓練模型）明顯違反了服務條款。」

也就是說，目前還不能證實OpenAI是否真的利用YouTube來訓練AI模型，但似乎也不讓人意外。

為什麼OpenAI、Meta、Google需要這麽多數據？

約翰霍普金斯大學（Johns Hopkins University）理論物理學家賈里德．卡普蘭尼（Jared Kaplany），同時也是AI新創公司Anthropic的創始人之一，在2020時發表的論文指出，語言模型讀取的資料越多，效能就越好。

也就是說，開發大型語言模型（LLM）最重要的環節就是「餵食」AI模型大量的資料。根據《彭博社》報導指出，隨著OpenAI、Google和其他公司競相開發更強大的人工智慧，他們正在尋求更多的資料內容來訓練他們的人工智慧模型，以獲得更好的品質。

研究機構Epoch提到，AI公司使用數據的速度比生成數據的速度還要快。Meta的內部資料中，Meta生成式AI副總裁艾哈邁德．達赫勒（Ahmad Al-Dahle）表示，「除非獲得更多數據，否則Meta無法追趕上OpenAI。」

科技巨頭為了AI數據，正著手修改服務條款

如何取得大量的資料成為大型語言模型公司的發展命脈。研發AI大型語言模型的公司如OpenAI、Google、Meta等公司正透過更改服務條款來取得現有用戶的資料。

《紐約時報》提到，2023年Google曾要求隱私權管理部門擴大使用服務條款，內容是允許Google利用公開的Google文件、Google地圖上的餐廳評論等來訓練開發中的AI語言模型。Meta也於2023年討論收購出版社Simon&Schuster（美國六大出版商之一），以取得長篇作品，並討論從網路上搜集受版權保護的內容。

而Google也表示，其語言模型使用了「部分YouTube影音內容」進行訓練，並取得了影片創作者的許可。

Meta也表示，已經「積極投資」將AI整合到Instagram和Facebook的服務中，並且取得數10億的公開共享圖像和影音來訓練模型。

根據《紐約時報》，目前AI使用網路上的資料訓練，已經使用超過3兆字，大約是牛津大學博德利圖書館（英國第二大的圖書館）的藏書文字的2倍。

你的資料，終究有一天被AI用！如何保護自己？

而當科技巨頭們對數據無限的需求，也引發了許多創作者對於版權問題的疑慮和訴訟。

《紐約時報》去年起訴OpenAI和微軟，稱其在未經許可的情況下使用受版權保護的新聞文章來訓練語言模型。OpenAI和微軟表示，使用這些文章是「合理使用」，是版權法所允許的。

為了解決數據不足的問題，許多語言模型公司正在開發人工智慧生成的文本（合成數據）來訓練AI語言模型，除了減少對於版權資料的依賴，也可以開發出更好的AI模型版本，以提升競爭優勢。

但此合成數據仍然處於爭議階段。使用合成數據來訓練語言模型也可能導致強化語言模型的偏見和錯誤，OpenAI的研發人員表示，這種方法可能會導致語言模型的故障，因此語言模型公司仍在嘗試其他新的做法。

在找到更好的方法之前，想必各家科技巨頭還會持續想出獲取數據的方式，換個角度說，在「數據量大等於好」的前提沒有破解前，數據戰爭還會持續下去。

延伸閱讀：聯發科推出台版ChatGPT！最懂繁體中文的「達哥」有多厲害？

資料來源：The New York Times、The Wall Street Journal、Bloomberg

責任編輯：林美欣

為提供以病患為核心的醫療照護服務，中國醫藥大學附設醫院（以下簡稱中國附醫）早在數年前就展開智慧醫院布局，並獲得國內外獎項肯定、創下許多台灣第一。舉例來說，中國附醫不僅連續完成美國醫療資訊與管理系統學會（HIMSS）的 INFRAM Stage7認證、EMRAM Stage7認證、AMAM Stage6認證並獲得亞洲首座HIMSS Davies Award of Excellence大獎，更進一步獲得HIMSS「數位健康指標（Digital Health Indication，DHI）」全球最高成績殊榮。

中國附醫是如何辦到的？

中國醫藥大學附設醫院資訊副院長陳俊良面帶微笑的說：「在蔡長海董事長以及周德陽院長高瞻遠矚領導下，我們早在2021年就擘劃清楚的智慧醫療藍圖，還有專職單位負責各項工作，此外，還可以彈性因應業務需求敏捷展開跨部門合作。」舉例來說，在數據管理與應用這個領域，資訊室負責臨床醫療數據資料的蒐集，大數據中心則肩負巨量數據挖掘與應用，至於人工智慧中心則是將人工智慧技術應用到智慧醫療各個領域的關鍵推手。「在實踐智慧醫院這個旅程中，資訊室肩負數據治理重責，必須從（醫護）需求面、（數據）來源面、（安全/隱私）技術面等構面進行規劃與啟動相關實務。」

從身分驗證管理到內部通訊，自由系統助中國附醫深化安全防護力

為發揮醫療數據的最大價值，中國附醫尤其重視資訊安全防禦，陳俊良表示：「第一前提是合規、因應資安法優化系統、數據、裝置設備與人員的安全性。」具體作法有二：首先是因應資安法以縱深防禦的方式持續強化對私有雲環境與設備的安全管理；其次是加強整體資安可視性與自由系統合作，由其協助導入微軟各項的解決方案，並提供資安監測與即時異常通報等服務，讓中國附醫可以更具效率與效能的方式過濾與發現異常事件。

中國醫藥大學附設醫院資訊室系統維護組組長李祥民進一步解釋：「資安威脅無所不在，過去幾年，勒索軟體威脅更是防不勝防，為了解決這個問題，光是保護數據資料還不夠，必須從身份、裝置、帳戶等多元角度切入，因此，微軟在2021年開始提供資安解決方案時，我們就開始評估有能力解決問題的廠商，決定合作廠商的原因有三：首先是原廠推薦，由原廠的角度評估廠商有解決問題的能力，其次是自由系統展現出的專業技術與符合客戶需求的服務；最後，同時也是最重要的是，他們可以提供即時監測並提供通報服務，極大程度緩解中國附醫在資安人力與能力的欠缺，讓我們可以更好的落實安全防護。」

因此，中國附醫順利在2022年導入微軟資安解決方案，而這，不僅提升了中國附醫的資安防護能力，例如分別在2022年跟2023年預先偵測異常事件並成功防堵來自外部的安全攻擊，也讓資訊同仁可以專注在核心業務上，極大化資訊與數據價值。良好的合作體驗也讓雙方合作關係進一步擴展到應用程式端的安全防護，例如，將地面郵件系統搬遷到微軟的雲端服務，藉此降低Email Server的維運成本與損壞風險，同時，優化帳戶登入管理等。

陳俊良表示：「過去幾年，資安威脅不減反增，但是，透過縱深防禦的強化並且經由合作廠商加強即時監控與協助行政通報等服務，我們可以逐步優化資訊安全防護能量，並成功讓異常事件的發生頻率下降，而這，也是中國附醫可以順利獲得HIMSS的INFRAM Stage7跟EMRAM Stage7等認證的關鍵原因之一，為此，後續將持續與合作夥伴共同努力、與時俱進的深化安全防護能力。」

透過雲端身分驗證落實Single Sign On以提升縱深防禦能力

除了導入資安與雲端郵件之外，李祥民表示，中國附醫更於日前將雲端身分驗證跟院內簽核系統的登入機制彙整在一起，以優化登入安全。「接下來，我們會與自由系統合作，重新盤點、評估有哪些院級服務適合以Microsoft Azure AD進行單一登入與多因素驗證，藉此提升安全防護機制。」

自由系統業務經理許廷輔表示，資訊安全不可能一步到位，相反的，需要長期、動態的進行調整與優化，因此，需要組織上下齊心、一同落實安全防禦。「從2021年至今，我們發現，中國附醫不僅重視資訊安全，更身體力行、彈性敏捷的因應潛在威脅做出調整、改變，這是很難能可貴的地方，為進一步擴大成效，自由系統將針對中國附醫在（數據）資料安全與雲端服務等策略提供更多適合中國附醫的產品及服務。」

「智慧醫療、智慧醫院涉及的面向既廣且深，不可能單憑己力完成，需要專業的外部夥伴提供最佳支援與服務，我們很開心可以有自由系統這樣的夥伴，期待未來有更多合作火花，讓中國附醫可以一步一腳印的建構與完善安全智慧醫院布局。」關於中國附醫與自由系統的未來合作，陳俊良如是總結。

GPT-4新數據來源：100萬小時YT影片！文字已經不夠用了嗎？有違反版權嗎？