訓練AI模型,要多少數據?拆解企業人工智慧專案為何難落地
訓練AI模型,要多少數據?拆解企業人工智慧專案為何難落地

企業的AI專案在釐清問題本質、找到命題之後,首先會面臨到一個問題:收集數據(Data Collection)和建立AI模型(Model Establishing),該以什麼作為評估基準?

AI模型
圖/ 若水國際

訓練一個AI數據模型,需要多少數據?

訓練AI數據模型時,其實有三個要素,彼此互相影響。分別是: 商業問題的複雜度AI模型複雜度 (Model Complexity),以及 數據複雜度 (Data Complexity)。

因此,如果想知道需要多少訓練數據(Training Data),建議先釐清:這個AI專案到底要處理什麼問題,以及這個問題有多複雜?確定之後,再來判斷應該選用哪種程度的模型來做訓練。根據不同的商業命題複雜度,用不同複雜度的模型和精準數據彼此搭配,找出最佳平衡,才能讓AI專案順利落地。

但光憑想像,很難評估實際的AI數據量和成效,所以開始AI的第一步,需要先透過POC概念驗證(Proof of Concept)實驗來找答案。

AI模型
圖/ 截圖自YouTube

AI模型的POC概念驗證實驗怎麼做?

簡單來說,就是針對不同複雜程度的商業問題,嘗試選用不同複雜度的模型搭配測試,直到模型跑出來的曲線,符合理想目標。

一般狀態下,假設商業問題本身的複雜度很高,我們會預期要選擇複雜度較高的模型。但是如果數據量不足,那麼選擇複雜度較高的AI模型,反而會比用簡單的AI模型效果還差。(上圖左上、右上,分別代表複雜度10和複雜度50的問題,可以明顯看出複雜的模型曲線比較接近學習數據集(Dataset),但是在測試數據集上的誤差 Eout,反而比簡單模型還差了許多。)

上圖的左下和右下,是以不同複雜度的模型去做POC,跑出來的結果曲線圖。藍色線代表的是學習數據(Training Data)成效,紅色線代表的是測試數據(Testing Data)成效。最理想的POC目標,應該是兩條曲線很貼近彼此,而且位置越低越好。

我們會發現,左下這張圖的兩條曲線雖然彼此貼近,但是就算增加數據,也無法降低誤差。這表示模型偏誤(Bias)高,效果不佳,應該要增加模型複雜度 (Model Complexity)。

增加模型複雜度之後,就會像右下這張圖,藍色曲線(學習數據)雖然數值很低,但在學習數據不足的情況下(灰色區塊),紅色曲線(測試數據)卻「飄」得太高。這表示模型變異誤差(Variance)高,應該要增加學習數據。最後在慢慢增加模型複雜度以及學習數據之後,我們就可以達到理想的結果(兩條曲線很貼近彼此,而且位置越低越好)。

數據哪裡來?發展AI人工智慧之前,先建立數據流

先前我在文章裡提到,很多企業會急著開發AI模型,但AI專案落地經驗的三大關鍵之一,其實是先確認:是否已經準備好數據了?如果沒有這樣的能力,談AI落地其實有點好高騖遠。

軟體人才_軟體開發設計_軟體工程師_(來源shutterstock)_401334640.jpg
圖/ shutterstock

AI數據收集(Data Collection)最大的挑戰,在於針對不同型態的命題,會產生不同的AI數據需求,因此需要建立的「數據流」(Data Pipeline),AI數據處理 (Data Processing)和數據標註(Data Annotation)的模式及流程也會有所不同。

發展AI之前,如果能建立起從數據收集(Data Collection)、數據處理(Data Processing)到AI模型學習的數據流(Data Pipeline),並確保可以順暢運行,實際訓練AI模型時才會省力很多。

數據不夠或太多怎麼辦?

Google開設的機器學習(Machine Learning)課程中,第一項原則就開宗明義地指出:「Don’t be afraid to launch a product without machine learning」。

如果你的產品或業務不一定需要用到機器學習(Machine Learning),那就別用,除非你有AI數據。有數據,再來談機器學習(Machine Learning)。但在業界的實際狀況,大家不是沒有數據,而是只有一些些,這時候該怎麼辦?我會建議,先從小地方開始做起,也就是從POC專案著手。

POC專案要有具體成效,除了要注意設計專案、實驗模型的指標(Metrics),企業最重要的是要先定義清楚:AI專案要達到什麼樣的指標,才算是成功?這樣最後做出來的成果,才會真正符合商業目標。

如果今天不是沒有AI數據,而是數據很多,又該從何下手呢?

我建議,嘗試減少訓練AI人工智慧時的「 數據大小 」和「 數據筆數 」。

過去曾經處理過一個AI專案,數據多達2億筆。第一次實驗,把數據全部餵進AI模型,取得結果。第二次,只拿其中有代表性的500萬筆出來訓練人工智慧。

猜猜結果如何?兩次實驗的表現,只差異不到1%。

所以,如果企業對於AI數據的品質和數量有一定程度的自信根據,其實不用把數據全部餵進AI模型訓練(Model Training),只用有代表性的AI數據來訓練就可以了。市面上很多常見的AI工具(Cluster),可以做到這點,幫助省時省力。

AI模型訓練,記得校準商業目標

企業發展AI人工智慧的最終目的,還是希望能 達到商業目標,創造價值

所以,訓練AI模型時,團隊如果不知道如何判斷哪個指標,對AI模型學習來說比較重要,建議回歸初心,重新釐清「 這個專案想達到的商業目標是什麼 」。

比方,趨勢科技(Trend Micro)要開發一個能夠判斷電腦病毒的AI,但是勒索病毒(denial-of-access attack)和廣告病毒對客戶的傷害程度大不相同。這時候,工程師就會針對這個命題,餵給AI模型不同病毒種類的數據,讓它學會判斷不同病毒的重要性,分辨出哪些病毒比較嚴重不能有判斷錯誤,而哪些病毒比較無害,不一定要做到一百分。

創業困境_突破難關障礙_overcome_shutterstock_521271766.jpg
圖/ shutterstock

最常見的訓練方法,是用成本函數(Cost Function)的方式,訓練完再回去調整AI模型的評分(Rating),用加扣分的方式,告訴機器它的學習表現是好是壞,做對就加分,做錯就扣分。

上述評分原則的制定,和企業的商業價值考量息息相關,所以一般在組織分工,會由PM專案團隊負責判斷哪些項目重要,請資料科學家設計在上述Cost Function裡面。

很多人以為,AI人工智慧開發要做到很完美才行,但其實根據我們的經驗,只要AI開發成本符合預算、AI模型表現可接受(大約做到60–70分),而且結果有助於降低成本,就可以算是達到商業目標。反過來,即使AI模型表現非常好(高達90分),但成本卻遠超出預算,就不建議執行。

另外,因為POC階段會做很多的實驗,需要拿兩個穩定且可以互相比較的基準做A/B Test,所以做好基礎建設非常重要。

如果一個團隊裡面有三位工程師,但三個人做出來的結果都無法互相比較,那麼這個實驗就會變得霧裡看花,導致AI專案難以落地。

AI數據小學堂:模型指標(metrics)

在做模型實驗時,通常會用混淆矩陣(Confusion Matrix)的四種指標:TP(True Positive)、TN(True Negative)、FP(False Positive)、FN(False Negative),以及Count、Unique和Accuracy等等函數,來判斷這個模型的表現好不好。

P或TN值,代表模型辨識的答案正確,和預期結果一致。例如:模型正確判斷出「這是一隻貓」、「這不是一隻貓」。而FP或FN值,則代表模型的判斷錯誤,例如「明明是貓,模型卻說不是貓」、「明明不是貓,模型卻說它是貓」。

責任編輯:文潔琳、蕭閔云
本文授權轉載自:若水AI數據處理實戰攻略

往下滑看下一篇文章
大巨蛋經濟商機無限 : 如何提升台灣運動娛樂產業?緯來董座李鐘培:先整合生態圈
大巨蛋經濟商機無限 : 如何提升台灣運動娛樂產業?緯來董座李鐘培:先整合生態圈

臺北大巨蛋啟用,也為台灣運動產業帶來更多新機會。緯來電視網董事長李鐘培在 NMEA 新媒體暨影視音發展協會舉辦的「2025 亞洲新媒體高峰會」上登台演講,從賽事現場談到產業鏈,梳理運動產業的挑戰與機會。

他指出,在大巨蛋完工前,各球團每年大約虧損新臺幣 2 至 3 億元;但場館啟用後,職棒生態因為有了更大的舞台而出現新契機。以觀賽人數為例,啟用前每年約 180 萬人次,啟用後成長至 373 萬人次。「中華職棒自 1989 年成立,走過 35 年,如今終於有了能夠凝聚全民認同的『Team Taiwan』!」在他看來,大巨蛋帶來的不只是硬體升級,更讓外界重新看見:運動賽事具備連結城市、串起家庭與驅動產業的可能性;只是熱度能否延續,考驗才正要開始。

號召各界投入運動經濟

「運動賽事是團結社會、凝聚向心力的重要催化劑。」李鐘培說。但催化劑要發揮作用,前提是舞台與參與能形成規模;否則再高的熱度,也可能在分散中迅速消退。

他以職籃為例,回顧「合」與「分」對賽事影響的落差。如 SBL 白館全盛時期,觀眾甚至站在冷氣機上觀賽;後來聯盟分裂,觀眾分散、收視也分散,整體聲量隨之下滑。「只要聯盟之間能夠有效整合,整體產業就有機會出現跳躍式成長。」他強調的不是單一聯盟的成敗,而是當賽事要走向更大規模,整合始終是繞不過的門檻。

NMEA
圖/ 數位時代

當整合成為前提,制度與資源如何接棒,也就成為下一個關鍵。隨著體育署升格為運動部,且由具運動員背景的部長領軍,也振奮了運動界。其中,運動部成立「運動贊助媒合平台」,提供多達 74 種賽事,讓企業與個人贊助者得以依條件參與投入,並爭取企業減稅比例提升至 175%、減稅實施期間拉長至 10 年;此外,為表彰長期投入者,自民國 98 年起也持續辦理「體育推手獎」。

對此,李鐘培也特別感謝贊助體育的數百家企業。他認為,每一塊獎牌的背後,都有贊助單位的支持與祝福;而支持若能更穩定地進入制度與市場循環,選手與賽事才更有機會被看見,也走得更遠。

四大策略,助攻運動娛樂經濟

不過,產業要長出可持續的動能,還得回到「誰把賽事留在場上、留在螢幕上」。李鐘培直言,電視媒體願意轉播體育賽事,其實背負的是連年的虧損。在沒人看得到的地方,他坦言:「基層賽事沒人要播、國際賽事成本極高。緯來體育台成立 28 年,就有 27 年都在虧錢,已經虧損 24 億。」

但要讓體育走得更遠,光靠單一電視台苦撐不是辦法。因此,李鐘培主張產業必須合作,共同打造賽事、娛樂、觀光的國際生態圈,「將餅做大、共榮共好。」他以他山之石提出四大策略方向:科技導入、在地深耕、城市品牌、跨界合作。

例如:美國快艇隊新主場 Intuit Dome,透過科技化建置、轉播技術升級、球場智能化,優化整體觀賽體驗;在地深耕則關乎球隊如何成為城市文化的一部分,如 LeBron James 的街頭彩繪壁畫「洛杉磯之王(The King of LA)」,即以球星形塑城市識別;跨界合作則可結合知名 IP 與社群經營,如 MLB 美國職棒大聯盟與日本超人氣動畫《鬼滅之刃》的聯動,都是擴大參與的做法。以及,新加坡封街舉辦 F1 賽事,打造「賽事+娛樂+觀光」的國際生態圈和體驗,帶動完整產業鏈發展。

回望台灣,他認為運動產業有無限可能,但需要各界共襄盛舉。他拋出一個具體想像:「若 U18 等基層賽事票房不佳,是否可由公部門購票,邀請國中小棒球隊孩子進場觀賽,讓選手與觀眾共同感受國際賽事氛圍?」同時,企業也可支持基層運動與偏鄉體育,作為 ESG 中「S(社會)」的重要實踐:如緯來體育台在上屆亞運承諾協助選手圓夢,包含支持運動團體、年邁教練與偏鄉運動設備等。

NMEA
圖/ 數位時代

整合,讓台灣運動再次偉大

談到更長遠的發展,李鐘培再把視野從運動賽事拉高,綜觀台灣在更大產業版圖中的位置。以規模來看,臺灣 2024 年運動產業產值約 257 億美元,與美國約 5,200 億美元、日本 775 億美元、韓國 552 億美元相比,仍有相當大差距。

同時,儘管台灣出口總額已超越日韓,但其中約 80% 集中於半導體與高科技;相較之下,影音內容的國際化仍有巨大潛力。目前臺灣內容出口僅佔總出口約 0.2%,日本約 1.99%,韓國約 1.96%。

日本《鬼滅之刃》劇場版創下影史紀錄、全球票房達 6.4 億美元;韓國 BTS 則為韓國帶來約 46.5 億美元經濟貢獻。若臺灣內容產業能達到 2% 的出口占比,規模將達 128 億美元,仍有約 8.6 倍的成長空間。

而要走到那一步、讓內容走出去,媒體端也必須面對收視生態的結構變化。李鐘培指出,收視從無線三台時代,走到有線電視百家爭鳴,再到數位串流時代,關鍵不在頻道競爭,而在觀眾收視習慣與載具轉移。媒體必須自省內容是否具跨世代吸引力;廣告上則需整合電視的品牌效果與網路的轉換導購,協助客戶達標,同時避免過度置入影響觀眾體驗。

演講最後,李鐘培仍把焦點放回「整合」:號召各界持續共襄盛舉,成為運動員與運動產業最穩定的後盾。在大巨蛋啟用之後,賽事與內容的下一局如何開展,關鍵不只在一場比賽的熱度,而在於是否能成功整合資源,讓台灣運動、內容及娛樂經濟能乘勝而起,衝出更好的成績。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓