因為14萬筆AI語料訓練資料,中央社提告台大生!AI訓練在台灣遇到什麼難題?
因為14萬筆AI語料訓練資料,中央社提告台大生!AI訓練在台灣遇到什麼難題?

台大博士生分享的繁體中文資料集遭《中央社》提告,因其包含未經授權的新聞內容。此事件引發關於AI訓練資料著作權爭議,有網友認為《中央社》不該提告博士生,而是最上游的開源平台與爬蟲者。

台大博士生做繁中資料集供AI訓練,遭中央社提告

一位台灣大學博士生、開源志工,在數個月前於 Facebook 的「Generative AI 技術交流中心」社團分享了繁體中文資料集(fineweb-zhtw),如今卻收到檢調寄信通知,原來資料集中包含台灣官方媒體《中央社》的大量新聞報導資料,並已被該媒體提起刑事告訴。

根據《中央社》7 月 7 日發表的聲明,該資料集包含自 2011 年至 2021 年止、約 14 萬筆來自中央社的新聞內容,而這些內容從未獲得該媒體授權。

這位博士生在事件曝光後,已將原本分享的繁體中文資料集貼文刪除,並公開表示會配合檢調調查,目前也將 Facebook 個人檔案鎖上。

中央社:身分不詳才提告,維護新聞產業著作權

《中央社》表示,對於未經授權大量使用該社新聞內容的公司或個人,一向秉持維護著作權的立場,會儘可能取得聯繫要求下架。但本次事件是因為「該公開者之身分資訊不詳」,基於維護權益目的才提起刑事告訴。

該社強調,新聞報導均來自第一線記者採訪整理,有些是經授權的外電消息再由編輯團隊翻譯撰寫,每一則新聞都是記者與編輯的心血結晶。

《中央社》也表示支持《媒體議價法》的推動,盼能與數位平台建立公平合作模式,為台灣媒體環境注入正循環。

中央社提告分享含有未經授權內容繁體中文資料集的台大博士生

中央社應該告誰? Hugging Face V.S 台大博士生

《中央社》在聲明中表達強烈捍衛新聞著作權的立場,但引發網友強烈反彈。

有網友指出,《中央社》應該去告最上游的 Common Crawl,這是國外一個大型公開的網路爬蟲專案,從 2008 年就開始運作,可能早已未經授權爬到了不少台灣媒體報導內容,而不是只針對下游整理和清理資料的台灣博士生提告,因為各家大語言模型包括 OpenAI ChatGPT、Google Gemini、Meta Llama 等都使用 Common Crawl 來訓練模型。

另有網友批評此舉荒謬,認為真正的訴訟對象應該是 Hugging Face,也就是這位台大博士生採用的開源 AI 平台,而非使用資料的台大博士生本身,更有網友痛批:「作為國家通訊社,理應優先維護台灣權益,卻先向自己人開刀,難免令人遺憾。」

不過也有網友支持中央社行使權利,認為目前 AI 訓練市場中,缺乏繁中資料、繁中主權模型、新創等理由,不能當作是作為剝削他人創作內容的藉口。即使是非營利的 AI 訓練用途,也應該經過著作權持有者同意。

數發部:AI訓練陷兩難,正籌備台灣AI語料庫

數位發展部政務次長林宜敬 在《中央社》聲明前,曾針對此事發表看法,認為這是數發部面臨的兩難。

一方面希望保護台灣媒體業與出版業著作權,另一方面又希望民主國家科學家能方便取得具備台灣觀點的中文資料,訓練出具備台灣觀點的 AI 模型。

林宜敬指出,美國科學家會使用大量簡體中文資料訓練 AI 模型,部分原因是中國向來不注重著作權,使用來自中國的簡體中文資料不會有侵犯著作權風險。

而台灣繁體中文資料不但量少,還有著作權風險。因此數發部正積極籌劃《台灣主權 AI 訓練語料庫》,讓世界各民主國家都能安心使用繁體中文資料訓練 AI 模型。

數發部政務次長談中央社提告繁體中文資料集提供者爭議

不過,在數發部的台灣 AI 語料庫正式出爐前,個人使用含有未經授權的繁體中文著作權內容,來製作 AI 訓練資料集,可能仍有法律風險。在生成式 AI 技術快速發展的同時,如何平衡創新與智慧財產權保護,仍是各界需要共同面對的挑戰。

本文授權轉載自《加密城市》,作者:Ariel,原文標題:台大生做繁中資料集給AI遭中央社提告!官媒遭噴:只向自己人開刀

往下滑看下一篇文章
數位時代 X 國泰金控 從百套系統上雲到 Cloud First:國泰如何把雲端變成AI成長引擎?
數位時代 X 國泰金控 從百套系統上雲到 Cloud First:國泰如何把雲端變成AI成長引擎?

2019年金融監理機關正式將雲端納入委外規範後,揭示金融業上雲時代來臨,國泰金控數數發中心成立雲端策略發展部,負責擬定集團上雲策略,並於2020年正式啟動7年集團雲端轉型計畫;在多數金融機構仍停留在單點遷移或IT現代化的現下,國泰金融集團在 2025 年即完成 100 套系統上雲,更將雲端轉型階段從 Cloud Ready、Cloud Adoption 推向 Cloud First,成為數據與人工智慧應用的關鍵引擎。

國泰金控資訊長|吳建興 James Wu
圖/ 數位時代

「百套系統上雲不僅僅是數字,更是讓國泰從『 IT 進化業務』邁向『 IT 驅動成長』的關鍵轉折。」國泰金控雲端策略發展部協理顏勝豪表示,上雲帶來的效益十分顯著,包括提升資源可用性與營運敏捷度、減輕 IT 維運負擔;同時,雲端業者多具備零碳排或綠能機房機制,亦有助於企業朝向 ESG 永續營運邁進。「金融上雲不是單純的現代化基礎設施或者是升級技術,而是為了換取速度與可靠度,讓集團可以加速創新腳步、彈性調配資源,以及培育所需人才與技能,為未來做最佳準備。」
為讓集團員工、金融同業以及有志上雲的夥伴可以進一步探討雲端轉型的各種可能,國泰金控舉辦雲端轉型成果發表會,會中除有集團子公司分享最新成果,三大公有雲平台業者也從不同技術視角共同探討在合規、資安與 AI 應用的可能。

七年、三階段,國泰金融集團將雲端內化為營運流程與創新引擎

國泰金控科技長|姚旭杰 Marcus Ya
圖/ 數位時代

為什麼國泰可以領先市場完成雲端轉型、數據與 AI 賦能業務?

顏勝豪認為,雲端轉型的起點不是直接遷移系統,而是從四個面向打底:應用系統盤點評估、雲端架構設計、雲端遷移藍圖規劃,以及組織治理框架建立,而這也是 Cloud Ready 階段最重要的事情。
「不同子公司有不同商業模式與節奏,若沒有共同語言與平台底座,上雲很容易各自為政。」顏勝豪表示,為讓所有員工可以齊步前行,國泰以雲端遷移方法論 Cathay 6R(註1)作為共同語言、用平台作為共同底座,讓轉型不只是技術選擇,而是集團行動。
完成單一系統的雲端遷移後,便進入 Cloud Adoption 階段。在這個階段中,要透過大規模遷移建立更成熟的上雲標準作業流程(SOP),透過 FinOps 機制控管與優化雲端營運成本,以及透過自動化與治理模型確認多雲環境與安全與維運穩定性,目標是將雲端內化為組織日常運營的一部分,進而邁向 Cloud First 階段:在合規前提下,新專案與系統升級預設在雲端環境開發,並善用雲原生優勢加速新產品功能開發速度。
「集團雲端策略只有一個核心原則:讓雲成為 AI 時代的成長引擎,而不是單純的基礎設施。」關於國泰的未來雲端布局,顏勝豪如是總結。

國泰金控 雲端策略發展部 協理|顏勝豪 Otto Yen
圖/ 數位時代

以雲端為 AI 資源引擎、發揮數據燃料價值,實現 AI 賦能業務應用

國泰不僅在2025年完成集團百套系統上雲,也啟動數據上雲計畫並為 GenAI 奠定基礎建設。
例如國泰金控實現數據上雲,打造資料湖倉與 GAIA 生態系統架構為 AI 賦能業務做準備:成立國泰風險聯防中心(CRC)攜手集團洗防人員強化風險控管與金融犯罪因應能力;釋出國泰員工 AI 助手–Agia–Beta
版,提供差勤、福利與權益、技術支援、職務職能與集團其他資訊等五大類別管理辦法等查詢服務;此外,亦推出集團數據共享平台、集團法規知識庫、 AI 評測中心等服務,更好發揮 Cloud First 與 AI 賦能業務應用的價值。
雲端是 AI 時代的關鍵底座、數據則是 AI 的燃料。顏勝豪指出,發展AI需要龐大的 GPU 算力,若自建 GPU 機房,不僅硬體設備昂貴、折舊速度快,光是散熱系統一年就高達兩、三千萬元的成本,若採取雲端資源,可以隨啟隨用,同時,大幅降低試錯成本。「當雲端打好基礎、AI成為能力模組,銀行、人壽、產險與證券的創新不再是單點突破,而是放大集團級綜效。」

國泰以 Cloud First + AI 持續領先市場、形塑未來樣貌

「雲端可以優化算力成本,資料則決定 AI 應用上限。」顏勝豪解釋,在 AI 新世代,AI 模型定調能力「下限」,集團子公司掌握的「獨特資料」則決定應用的「上限」,考量雲端有許多好用 AI 服務,唯有資料上雲才能發揮數據價值、用 AI 賦能集團各子公司業務。
例如國泰世華銀行將採取多公有雲策略,打造雲端智慧生態圈,並以現代化雲原生技術拓展應用場景;同時,運用 AI 與資料分析優化客戶服務體驗,並藉由跨雲整合機制支援多元業務模式,以充分發揮上雲效益。至於國泰產險,不僅在兩年半內完成13套核心系統上雲、優化營運流程,如以 Serverless 架構打造百萬級效果、萬元成本的短網址系統等,讓雲端成為產險驅動長期成長的核心引擎與標準配備。

國泰人壽則是透過雲端與 AI 滿足不同客戶需求,如以 AI Search 精準呈現關鍵字搜尋結果,讓客戶可以精準且快速的查找所需資料、大幅優化官網體驗與滿意度。至於國泰證券則是於2026年初推出「庫存管家」服務,以客戶持股為核心,應用 AI 技術打造個人化推播服務,協助投資人更有效率地掌握庫存狀況,提供更即時、系統化的投資管理體驗。
總的來說,國泰金控在集團的雲端轉型不僅是技術升級,更是思維革新,從百套系統上雲進展到 Cloud First 階段,可以預期在雲地基礎下,國泰將進一步引領 AI 時代變革,持續提升營運韌性與放大創新價值。

註1:Cathay 6R 國泰設計 Cathay 6R 雲端遷移方法論,將系統遷移方式依據上雲模式、系統開發成本分為 Rehost 、Replatform、Refactor、Rewrite、Replace 和 Retain 共6種遷移架構,並能對應到 IaaS、PaaS、SaaS 三種不同上雲模式。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
2026 大重啟
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓