因為14萬筆AI語料訓練資料,中央社提告台大生!AI訓練在台灣遇到什麼難題?
因為14萬筆AI語料訓練資料,中央社提告台大生!AI訓練在台灣遇到什麼難題?

台大博士生分享的繁體中文資料集遭《中央社》提告,因其包含未經授權的新聞內容。此事件引發關於AI訓練資料著作權爭議,有網友認為《中央社》不該提告博士生,而是最上游的開源平台與爬蟲者。

台大博士生做繁中資料集供AI訓練,遭中央社提告

一位台灣大學博士生、開源志工,在數個月前於 Facebook 的「Generative AI 技術交流中心」社團分享了繁體中文資料集(fineweb-zhtw),如今卻收到檢調寄信通知,原來資料集中包含台灣官方媒體《中央社》的大量新聞報導資料,並已被該媒體提起刑事告訴。

根據《中央社》7 月 7 日發表的聲明,該資料集包含自 2011 年至 2021 年止、約 14 萬筆來自中央社的新聞內容,而這些內容從未獲得該媒體授權。

這位博士生在事件曝光後,已將原本分享的繁體中文資料集貼文刪除,並公開表示會配合檢調調查,目前也將 Facebook 個人檔案鎖上。

中央社:身分不詳才提告,維護新聞產業著作權

《中央社》表示,對於未經授權大量使用該社新聞內容的公司或個人,一向秉持維護著作權的立場,會儘可能取得聯繫要求下架。但本次事件是因為「該公開者之身分資訊不詳」,基於維護權益目的才提起刑事告訴。

該社強調,新聞報導均來自第一線記者採訪整理,有些是經授權的外電消息再由編輯團隊翻譯撰寫,每一則新聞都是記者與編輯的心血結晶。

《中央社》也表示支持《媒體議價法》的推動,盼能與數位平台建立公平合作模式,為台灣媒體環境注入正循環。

中央社提告分享含有未經授權內容繁體中文資料集的台大博士生

中央社應該告誰? Hugging Face V.S 台大博士生

《中央社》在聲明中表達強烈捍衛新聞著作權的立場,但引發網友強烈反彈。

有網友指出,《中央社》應該去告最上游的 Common Crawl,這是國外一個大型公開的網路爬蟲專案,從 2008 年就開始運作,可能早已未經授權爬到了不少台灣媒體報導內容,而不是只針對下游整理和清理資料的台灣博士生提告,因為各家大語言模型包括 OpenAI ChatGPT、Google Gemini、Meta Llama 等都使用 Common Crawl 來訓練模型。

另有網友批評此舉荒謬,認為真正的訴訟對象應該是 Hugging Face,也就是這位台大博士生採用的開源 AI 平台,而非使用資料的台大博士生本身,更有網友痛批:「作為國家通訊社,理應優先維護台灣權益,卻先向自己人開刀,難免令人遺憾。」

不過也有網友支持中央社行使權利,認為目前 AI 訓練市場中,缺乏繁中資料、繁中主權模型、新創等理由,不能當作是作為剝削他人創作內容的藉口。即使是非營利的 AI 訓練用途,也應該經過著作權持有者同意。

數發部:AI訓練陷兩難,正籌備台灣AI語料庫

數位發展部政務次長林宜敬 在《中央社》聲明前,曾針對此事發表看法,認為這是數發部面臨的兩難。

一方面希望保護台灣媒體業與出版業著作權,另一方面又希望民主國家科學家能方便取得具備台灣觀點的中文資料,訓練出具備台灣觀點的 AI 模型。

林宜敬指出,美國科學家會使用大量簡體中文資料訓練 AI 模型,部分原因是中國向來不注重著作權,使用來自中國的簡體中文資料不會有侵犯著作權風險。

而台灣繁體中文資料不但量少,還有著作權風險。因此數發部正積極籌劃《台灣主權 AI 訓練語料庫》,讓世界各民主國家都能安心使用繁體中文資料訓練 AI 模型。

數發部政務次長談中央社提告繁體中文資料集提供者爭議

不過,在數發部的台灣 AI 語料庫正式出爐前,個人使用含有未經授權的繁體中文著作權內容,來製作 AI 訓練資料集,可能仍有法律風險。在生成式 AI 技術快速發展的同時,如何平衡創新與智慧財產權保護,仍是各界需要共同面對的挑戰。

本文授權轉載自《加密城市》,作者:Ariel,原文標題:台大生做繁中資料集給AI遭中央社提告!官媒遭噴:只向自己人開刀

往下滑看下一篇文章
AsiaYo攜手國產自動化品牌EMILY.RPA,齊力推廣「智慧自動化」工作流
AsiaYo攜手國產自動化品牌EMILY.RPA,齊力推廣「智慧自動化」工作流

線上旅遊服務平台 AsiaYo 宣布,歷經兩年深耕,其與台灣本土自動化品牌 EMILY.RPA 的合作正式邁入「AI + RPA 智慧自動化」新階段。透過把生成式 AI 的「大腦」與 RPA 機器人的「雙手」連結,AsiaYo 已在企業營運核心流程中佈建一條條的智能流水線,並進一步將這套方法論打包為自主品牌 AIRPA,由內部工具升級為對外服務。

從專案試點到 AIRPA 專業服務

這段轉型歷程始於 2023 年 6 月,AsiaYo 首度以 EMILY.RPA 為 e-coupon產品服務導入自動產出授權碼跟票券核銷的機器人;翌年 1 月,公司成立專責 RPA 團隊,半年後正式命名為 AIRPA;今年 4 月,AIRPA 以獨立公司的身份與 EMILY.RPA 簽訂經銷協議,提供顧問、流程設計、開發與維運的一站式 Turnkey 方案,從使用者躍升為智慧自動化推廣者。

人機協作重塑核心流程

在合作期間,AsiaYo 將多個關鍵流程交由「人機協作」重塑:面對種類繁多、數量龐大的旅遊商品,AsiaYo運用AIRPA技術自動化上架 -- 先透過AI 大語言模型將產品資訊整理、摘要,生成標準的產品資訊跟介紹文案,再經由RPA 機器人批次上傳;存量商品的庫存及價格亦由機器人定期抓取供應商數據後,透過 API 更新至內部平台的資料庫。以往眾多無法自動化即時訂購的旅遊商品,也可以交由 RPA 機器人在接單後,立即進行訂單處理,即時到旅遊服務供應商的後台網站完成訂購服務。大宗訂單客戶資料的辨識、整理與傳送給對應的旅遊服務供應商,也已做到「三鍵完成」,將每筆需要人工處理約三分鐘的重複動作自動化,將人力負擔降到最低。

在業務推廣方面,AsiaYo的行銷團隊則借助RPA機器人蒐集整理眾多旅遊商品的 Google Ads 成效、經由 AI 模型協助,計算、建議最佳出價,再由機器人自動執行投放。而 SEO 團隊同樣運用 RPA 機器人,篩選過期、失效的產品服務連結,進行更換取代。進行SEO 所需的文章內容,同樣經由 AI 重寫、人工校對後,由機器人分發到各內容管道。

AsiaYo也沒有漏掉內部的行政工作流程 : RPA 機器人每天自動登入人資系統,整理請假與出缺勤紀錄,若有異常狀況,則透過即時通訊系統通知員工及主管;財務部門的應收帳款追蹤,交由機器人每日連線內部ERP系統,整理未付帳款清單並生成統計圖表供管理層決策。面對眾多合作的旅遊服務供應商,每月複雜的帳務處理跟對帳工作,同樣交由機器人協助完成。

量化成效:效率與營收雙提升

AIRPA 團隊的成效統計顯示,每投入一個人月研發心力,可為營運、供應與客服單位每週釋放 8,516 小時人工工時,折合約 49 名全職人力;若同等資源投向營收導向專案,單一流程上線三個月後已為公司帶來 320 萬元季增營收。AsiaYo共同創辦人賴韋成認為:「從這些量化成效數字,AIRPA流程自動化不僅降低企業的成本,同時也賦予團隊有能力嘗試更多創新的服務模式,創造營收。同仁們也能從原本繁複的人工作業解放出來,更有餘裕持續在標準化的流程基礎上進行優化。」

重構流程與迎向 Agentic AI

展望未來,AsiaYo 計畫在一年內再擴充至少上百個智慧自動化流程,並攜手 EMILY.RPA,重構企業內的流程,嵌入 AI agents 在自動化的流程中,擴大應用的範圍並降低中小企業導入門檻。公司強調,將持續依循「人類決策、機器人執行」的理念,讓 AI 與 RPA 隨業務規模同步進化,為台灣智慧自動化生態系注入長期動能。

了解更多關於EMILY.RPA請上www.emily.tips
一站化旅遊服務請上 AsiaYo.com

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
電商終局戰
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓