14萬筆AI語料訓練資料，中央社提告台大生！AI訓練在台灣遇到什麼難題？|數位時代 BusinessNext

台大博士生分享的繁體中文資料集遭《中央社》提告，因其包含未經授權的新聞內容。此事件引發關於AI訓練資料著作權爭議，有網友認為《中央社》不該提告博士生，而是最上游的開源平台與爬蟲者。

台大博士生做繁中資料集供AI訓練，遭中央社提告

一位台灣大學博士生、開源志工，在數個月前於 Facebook 的「Generative AI 技術交流中心」社團分享了繁體中文資料集（fineweb-zhtw），如今卻收到檢調寄信通知，原來資料集中包含台灣官方媒體《中央社》的大量新聞報導資料，並已被該媒體提起刑事告訴。

根據《中央社》7 月 7 日發表的聲明，該資料集包含自 2011 年至 2021 年止、約 14 萬筆來自中央社的新聞內容，而這些內容從未獲得該媒體授權。

這位博士生在事件曝光後，已將原本分享的繁體中文資料集貼文刪除，並公開表示會配合檢調調查，目前也將 Facebook 個人檔案鎖上。

中央社：身分不詳才提告，維護新聞產業著作權

《中央社》表示，對於未經授權大量使用該社新聞內容的公司或個人，一向秉持維護著作權的立場，會儘可能取得聯繫要求下架。但本次事件是因為「該公開者之身分資訊不詳」，基於維護權益目的才提起刑事告訴。

該社強調，新聞報導均來自第一線記者採訪整理，有些是經授權的外電消息再由編輯團隊翻譯撰寫，每一則新聞都是記者與編輯的心血結晶。

《中央社》也表示支持《媒體議價法》的推動，盼能與數位平台建立公平合作模式，為台灣媒體環境注入正循環。

中央社應該告誰？ Hugging Face V.S 台大博士生

《中央社》在聲明中表達強烈捍衛新聞著作權的立場，但引發網友強烈反彈。

有網友指出，《中央社》應該去告最上游的 Common Crawl，這是國外一個大型公開的網路爬蟲專案，從 2008 年就開始運作，可能早已未經授權爬到了不少台灣媒體報導內容，而不是只針對下游整理和清理資料的台灣博士生提告，因為各家大語言模型包括 OpenAI ChatGPT、Google Gemini、Meta Llama 等都使用 Common Crawl 來訓練模型。

另有網友批評此舉荒謬，認為真正的訴訟對象應該是 Hugging Face，也就是這位台大博士生採用的開源 AI 平台，而非使用資料的台大博士生本身，更有網友痛批：「作為國家通訊社，理應優先維護台灣權益，卻先向自己人開刀，難免令人遺憾。」

不過也有網友支持中央社行使權利，認為目前 AI 訓練市場中，缺乏繁中資料、繁中主權模型、新創等理由，不能當作是作為剝削他人創作內容的藉口。即使是非營利的 AI 訓練用途，也應該經過著作權持有者同意。

數發部：AI訓練陷兩難，正籌備台灣AI語料庫

數位發展部政務次長林宜敬在《中央社》聲明前，曾針對此事發表看法，認為這是數發部面臨的兩難。

一方面希望保護台灣媒體業與出版業著作權，另一方面又希望民主國家科學家能方便取得具備台灣觀點的中文資料，訓練出具備台灣觀點的 AI 模型。

林宜敬指出，美國科學家會使用大量簡體中文資料訓練 AI 模型，部分原因是中國向來不注重著作權，使用來自中國的簡體中文資料不會有侵犯著作權風險。

而台灣繁體中文資料不但量少，還有著作權風險。因此數發部正積極籌劃《台灣主權 AI 訓練語料庫》，讓世界各民主國家都能安心使用繁體中文資料訓練 AI 模型。

不過，在數發部的台灣 AI 語料庫正式出爐前，個人使用含有未經授權的繁體中文著作權內容，來製作 AI 訓練資料集，可能仍有法律風險。在生成式 AI 技術快速發展的同時，如何平衡創新與智慧財產權保護，仍是各界需要共同面對的挑戰。

本文授權轉載自《加密城市》，作者：Ariel，原文標題：台大生做繁中資料集給AI遭中央社提告！官媒遭噴：只向自己人開刀

從生成式AI訓練、推論，到代理式工作流程（Agentic Workflow）與未來的實體AI，資料流量正以指數級成長，讓記憶體從過去支援運算的配角躍升為決定AI效能與能源效率的關鍵角色。

全球知名的半導體與微電子技術分析機構TechInsights指出，AI競爭正逐漸從晶片算力擴展到記憶體架構設計能力，加速「Computational Memory」等新架構興起；在這波浪潮中，深耕記憶體與儲存技術數十年的美光科技，正與關鍵夥伴展開深度協同設計，包含攜手NVIDIA共同開發適用於新世代資料中心的低功耗記憶體技術，在AI基礎建設的新賽局中成為不可或缺的關鍵。

當GPU不再是唯一主角，記憶體為何躍上AI舞台中央？

過去，半導體的焦點多圍繞在晶片，例如CPU、GPU跟AI加速器等，市場普遍認為，晶片運算能力是左右科技產業發展速度的關鍵，但在進入生成式AI世代後，產業逐漸發現另一個事實：真正限制AI效能的瓶頸不是運算，而是資料能否快速被存取與傳輸。

從大型語言模型訓練，到AI推論、代理式工作流程（Agentic Workflow），甚至未來的機器人與自駕車，龐大的資料流量正持續推升對高頻寬、低延遲、高容量記憶體的需求，讓記憶體產業從過去相對標準化、以價格競爭為主的市場，逐漸轉變為AI基礎建設的重要核心。

「仔細觀察AI應用服務會發現，大多數工作負載都被頻寬限制。」美光科技全球業務執行副總裁Mike Cordano認為，記憶體是突破（頻寬）瓶頸的關鍵，也讓AI競賽從晶片算力升級到記憶體與儲存架構的系統級競爭。這樣的產業洞察，也正是Mike在歷經二十餘年的儲存產業資歷，加上四年半的創投生涯後，選擇加入美光的核心原因之一：在AI重塑產業結構的浪潮下，記憶體將成為這波成長最直接的動能所在。

從零組件供應商到策略夥伴，記憶體共創時代來臨

AI的崛起，正在改變記憶體廠商與客戶的關係。

過去，記憶體產品多是標準化元件，客戶關注的是價格、供貨與規格；合作模式也偏向短期採購與交易導向。然而隨著AI系統規模愈來愈大，從資料中心、雲端平台到終端裝置，記憶體已經成為決定系統效能的重要關鍵，也因如此，越來越多企業將記憶體視為「策略性資產」，而非單純零組件。

Mike表示：「現在，我們跟客戶合作的時間跨度改變了，在產品正式上市前三到四年便開始合作，從系統架構階段就共同規劃未來需求。」例如，美光科技與NVIDIA共同研發的資料中心所使用的低功耗記憶體，便是雙方提前多年展開深度合作（co-design）的成果。

值得特別注意的是，美光科技除從技術層面與晶片製造商等夥伴共創產品，也在需求層面與客戶進行密切合作，例如，將過去較無約束力、期限僅一年的長期協議（LTA）轉變成為期五年、條款更具約束力的策略性客戶協議（SCA），藉此掌握客戶的未來需求，進而在技術層面做更深度的合作。Mike坦言，深度協同設計是高成本的投入，美光的做法是先廣泛進行市場感知，理解不同場域的需求方向，再與生態系統中的夥伴們展開客製化合作。

從裝置導向轉為Token導向，AI浪潮重寫記憶體成長模式

除了合作模式改變，更大的典範轉移是需求的改變。

Mike解釋，過去記憶體需求跟PC、手機跟伺服器出貨量息息相關，但在AI新世代，推動記憶體需求成長的核心不再是設備數量，而是AI模型所產生的運算與資料消耗量。「AI產業逐漸走向以『Consumption』或『Token』為主的新經濟模式，每一次的模型運算都需要消耗大量的記憶體跟儲存資源，這意味著，即使設備銷量成長趨緩，記憶體需求仍可能持續上升。」

更重要的是，AI應用正從資料中心外擴至手機、PC、自駕車與機器人等場域，儘管不同場域對記憶體的需求不盡相同，但是，Mike認為：所有AI裝置都存在三項共同需求：更快的速度、更大的容量，以及更高的能源效率。

正如Mike在受訪時提到的：「我們最大的挑戰，是如何與客戶和整個生態系保持高度一致，一方面創造供給與產能，另一方面持續推動技術創新。」可以預期，在接下來的五年，記憶體產業面臨的挑戰不僅僅是擴展產能，而是如何與客戶共同規劃需求、同步投入技術創新，而這也是美光科技積極經營AI生態體系的原因。

總的來說，AI帶來的改變，不只是算力提升，而是重新定義整個運算架構：過去，記憶體被視為支援運算的基礎元件；現在，則是決定AI效能、能源效率與創新速度的關鍵資源；當產業競爭從晶片性能延伸到資料流動效率，從裝置數量轉向Token消耗量，記憶體的重要性也將隨之水漲船高，對美光科技來說，這將是其從供應商走向AI生態系核心夥伴的關鍵角色轉變。

因為14萬筆AI語料訓練資料，中央社提告台大生！AI訓練在台灣遇到什麼難題？