訓練AI模型,要多少數據?拆解企業人工智慧專案為何難落地
訓練AI模型,要多少數據?拆解企業人工智慧專案為何難落地

企業的AI專案在釐清問題本質、找到命題之後,首先會面臨到一個問題:收集數據(Data Collection)和建立AI模型(Model Establishing),該以什麼作為評估基準?

AI模型
圖/ 若水國際

訓練一個AI數據模型,需要多少數據?

訓練AI數據模型時,其實有三個要素,彼此互相影響。分別是: 商業問題的複雜度AI模型複雜度 (Model Complexity),以及 數據複雜度 (Data Complexity)。

因此,如果想知道需要多少訓練數據(Training Data),建議先釐清:這個AI專案到底要處理什麼問題,以及這個問題有多複雜?確定之後,再來判斷應該選用哪種程度的模型來做訓練。根據不同的商業命題複雜度,用不同複雜度的模型和精準數據彼此搭配,找出最佳平衡,才能讓AI專案順利落地。

但光憑想像,很難評估實際的AI數據量和成效,所以開始AI的第一步,需要先透過POC概念驗證(Proof of Concept)實驗來找答案。

AI模型
圖/ 截圖自YouTube

AI模型的POC概念驗證實驗怎麼做?

簡單來說,就是針對不同複雜程度的商業問題,嘗試選用不同複雜度的模型搭配測試,直到模型跑出來的曲線,符合理想目標。

一般狀態下,假設商業問題本身的複雜度很高,我們會預期要選擇複雜度較高的模型。但是如果數據量不足,那麼選擇複雜度較高的AI模型,反而會比用簡單的AI模型效果還差。(上圖左上、右上,分別代表複雜度10和複雜度50的問題,可以明顯看出複雜的模型曲線比較接近學習數據集(Dataset),但是在測試數據集上的誤差 Eout,反而比簡單模型還差了許多。)

上圖的左下和右下,是以不同複雜度的模型去做POC,跑出來的結果曲線圖。藍色線代表的是學習數據(Training Data)成效,紅色線代表的是測試數據(Testing Data)成效。最理想的POC目標,應該是兩條曲線很貼近彼此,而且位置越低越好。

我們會發現,左下這張圖的兩條曲線雖然彼此貼近,但是就算增加數據,也無法降低誤差。這表示模型偏誤(Bias)高,效果不佳,應該要增加模型複雜度 (Model Complexity)。

增加模型複雜度之後,就會像右下這張圖,藍色曲線(學習數據)雖然數值很低,但在學習數據不足的情況下(灰色區塊),紅色曲線(測試數據)卻「飄」得太高。這表示模型變異誤差(Variance)高,應該要增加學習數據。最後在慢慢增加模型複雜度以及學習數據之後,我們就可以達到理想的結果(兩條曲線很貼近彼此,而且位置越低越好)。

數據哪裡來?發展AI人工智慧之前,先建立數據流

先前我在文章裡提到,很多企業會急著開發AI模型,但AI專案落地經驗的三大關鍵之一,其實是先確認:是否已經準備好數據了?如果沒有這樣的能力,談AI落地其實有點好高騖遠。

軟體人才_軟體開發設計_軟體工程師_(來源shutterstock)_401334640.jpg
圖/ shutterstock

AI數據收集(Data Collection)最大的挑戰,在於針對不同型態的命題,會產生不同的AI數據需求,因此需要建立的「數據流」(Data Pipeline),AI數據處理 (Data Processing)和數據標註(Data Annotation)的模式及流程也會有所不同。

發展AI之前,如果能建立起從數據收集(Data Collection)、數據處理(Data Processing)到AI模型學習的數據流(Data Pipeline),並確保可以順暢運行,實際訓練AI模型時才會省力很多。

數據不夠或太多怎麼辦?

Google開設的機器學習(Machine Learning)課程中,第一項原則就開宗明義地指出:「Don’t be afraid to launch a product without machine learning」。

如果你的產品或業務不一定需要用到機器學習(Machine Learning),那就別用,除非你有AI數據。有數據,再來談機器學習(Machine Learning)。但在業界的實際狀況,大家不是沒有數據,而是只有一些些,這時候該怎麼辦?我會建議,先從小地方開始做起,也就是從POC專案著手。

POC專案要有具體成效,除了要注意設計專案、實驗模型的指標(Metrics),企業最重要的是要先定義清楚:AI專案要達到什麼樣的指標,才算是成功?這樣最後做出來的成果,才會真正符合商業目標。

如果今天不是沒有AI數據,而是數據很多,又該從何下手呢?

我建議,嘗試減少訓練AI人工智慧時的「 數據大小 」和「 數據筆數 」。

過去曾經處理過一個AI專案,數據多達2億筆。第一次實驗,把數據全部餵進AI模型,取得結果。第二次,只拿其中有代表性的500萬筆出來訓練人工智慧。

猜猜結果如何?兩次實驗的表現,只差異不到1%。

所以,如果企業對於AI數據的品質和數量有一定程度的自信根據,其實不用把數據全部餵進AI模型訓練(Model Training),只用有代表性的AI數據來訓練就可以了。市面上很多常見的AI工具(Cluster),可以做到這點,幫助省時省力。

AI模型訓練,記得校準商業目標

企業發展AI人工智慧的最終目的,還是希望能 達到商業目標,創造價值

所以,訓練AI模型時,團隊如果不知道如何判斷哪個指標,對AI模型學習來說比較重要,建議回歸初心,重新釐清「 這個專案想達到的商業目標是什麼 」。

比方,趨勢科技(Trend Micro)要開發一個能夠判斷電腦病毒的AI,但是勒索病毒(denial-of-access attack)和廣告病毒對客戶的傷害程度大不相同。這時候,工程師就會針對這個命題,餵給AI模型不同病毒種類的數據,讓它學會判斷不同病毒的重要性,分辨出哪些病毒比較嚴重不能有判斷錯誤,而哪些病毒比較無害,不一定要做到一百分。

創業困境_突破難關障礙_overcome_shutterstock_521271766.jpg
圖/ shutterstock

最常見的訓練方法,是用成本函數(Cost Function)的方式,訓練完再回去調整AI模型的評分(Rating),用加扣分的方式,告訴機器它的學習表現是好是壞,做對就加分,做錯就扣分。

上述評分原則的制定,和企業的商業價值考量息息相關,所以一般在組織分工,會由PM專案團隊負責判斷哪些項目重要,請資料科學家設計在上述Cost Function裡面。

很多人以為,AI人工智慧開發要做到很完美才行,但其實根據我們的經驗,只要AI開發成本符合預算、AI模型表現可接受(大約做到60–70分),而且結果有助於降低成本,就可以算是達到商業目標。反過來,即使AI模型表現非常好(高達90分),但成本卻遠超出預算,就不建議執行。

另外,因為POC階段會做很多的實驗,需要拿兩個穩定且可以互相比較的基準做A/B Test,所以做好基礎建設非常重要。

如果一個團隊裡面有三位工程師,但三個人做出來的結果都無法互相比較,那麼這個實驗就會變得霧裡看花,導致AI專案難以落地。

AI數據小學堂:模型指標(metrics)

在做模型實驗時,通常會用混淆矩陣(Confusion Matrix)的四種指標:TP(True Positive)、TN(True Negative)、FP(False Positive)、FN(False Negative),以及Count、Unique和Accuracy等等函數,來判斷這個模型的表現好不好。

P或TN值,代表模型辨識的答案正確,和預期結果一致。例如:模型正確判斷出「這是一隻貓」、「這不是一隻貓」。而FP或FN值,則代表模型的判斷錯誤,例如「明明是貓,模型卻說不是貓」、「明明不是貓,模型卻說它是貓」。

責任編輯:文潔琳、蕭閔云
本文授權轉載自:若水AI數據處理實戰攻略

往下滑看下一篇文章
打造AI無法取代的人才力,聯發科技攜手Hahow for Business培育跨域人才成果豐碩
打造AI無法取代的人才力,聯發科技攜手Hahow for Business培育跨域人才成果豐碩

在AI新世代浪潮下,兼具軟實力與硬實力的「T型人才」已躍升為企業人才培訓的新焦點。以聯發科技攜手 Hahow for Business 推出的「SPARK 實習生跨域軟實力學習計畫」為例,正是企業積極布局未來、培育全方位新世代人才的具體行動。

人工智慧的快速演進,正全面重塑我們對「學習」與「人才」的想像。隨著知識獲取門檻變低、學習方式持續翻轉,企業人才培育模式也迎來嶄新變革。在這波轉型浪潮中,擅長單一領域的「I型專才」往往難以應對多元挑戰,相反的,具備專業深度與跨域協作能力的「T型人才」成為企業招募與培育的核心焦點。

以理工科學生為例,雖然在校期間累積了紮實的專業知識與技術基礎,但往往在進入職場後,因為溝通表達、協同合作與專案管理等軟實力相對薄弱,面臨諸多挑戰、無法發揮潛力。為縮短「學用落差」與提升新鮮人的職場適應力,聯發科技攜手Hahow for Business在2025年共同推出「SPARK 實習生跨域軟實力學習計畫」,將工程師的個人效能訓練藍圖,提前至實習階段。計畫透過Learn-Apply-Reflect與10%-20%-70%學習策略,打造出「自主學習→練習→實際應用」的學習循環,全面加速準聯發人的培養、為企業注入新世代的競爭力。

聯發科技與Hahow for Business以「SPARK 實習生跨域軟實力學習計畫」加速培育人才

聯發科技始終堅信,每一位年輕人都蘊含著無限的發展潛力,只要能匯聚多元能力,即可激盪出創新火花、點燃成長的力量。這樣的理念也體現在「SPARK 實習生跨域軟實力學習計畫」logo設計:6道光芒象徵聯發科技永續經營的六大基石–全球觀、創新、人才、公司治理、綠色營運與在地實踐;而5道光芒則代表個人效能聚焦的5項關鍵能力:問題分析與解決、溝通簡報與影響力、專案管理、創意思維與成長心態。

SPARK計畫為實習生提供清晰的學習路徑,結合豐富的線上學習資源、個人練習與小組作業,同時搭配實體知識萃取工作坊,形成自主學習、同儕學習與應用及反思的學習循環。讓實習生不僅可以學習知識與實用技能,並真正將軟實力應用於工作場域。舉例來說,線上課程學習涵蓋「金字塔表達法」、「定錨點架構」、「ANSVA結構」與「SMART原則」等工具,並在為期兩個月的實習中,透過每週的應用練習、知識萃取工作坊與同儕小組報告,系統化強化關鍵軟實力,讓學習不僅止於「知識的獲取」更是「行為的展現」。

hahow
圖/ 數位時代

來自國立清華大學通訊工程研究所的實習生彭同學深有感觸的說:「能進入同一間公司,代表大家的硬實力相差不大,真正決定我們能否做對事情、把事情做好,是有沒有足夠的軟實力協同合作與向上管理,建議從大學三年級開始培養,並且持續不斷精進。」

國立清華大學半導體研究學院的實習生鄭同學同樣肯定軟實力的重要性。她說:「在學校,教授指派任務通常有明確的評分指標,但在實習時,主管交付的任務往往保留很大的自由發揮空間,為確保彼此有共識,我的作法是主動思考任務的目的,以手寫筆記進行結構性思考與建立清晰的表達邏輯,在與主管進行口頭報告時,則是以『金字塔表達法–先結論、後細節』的方式進行溝通,持續修正與取得共識、精準展開下一步。」

「理工科學生很容易陷入技術細節、分享時不自覺就是滿滿的專業術語,但這樣的溝通模式未必有助於專案進展。」來自國立陽明交通大學資訊網路工程學系的實習生洪同學表示,有效的溝通應該要跳脫技術本位,站在對方角度,說出讓目標聽眾共鳴的話,才能推進合作。「透過這次實習,我學會以『定錨點架構』讓溝通內容更有邏輯與說服力,以及透過『ANSVA–Attention /Need /Solution /Visualization /Action–架構』強化提案表達,就算面對全新的領域,也能快速盤點重點,並與團隊展開更有效的協作。」

「SPARK 實習生跨域軟實力學習計畫」創造的成效十分亮眼。活動期間在校園舉辦的多元跨域校園講座滿意度高達 94.6%;而在實習階段,儘管實習生同時承擔主管指派的專案任務,平均完課率仍高達 87%,並獲得大量正面回饋。許多實習生分享:「無論未來職涯選擇何種方向,這段期間累積的軟實力,都將成為持續突破與創新的關鍵資產。」

三大學習目標,支持年輕人才快速適應跨部門協作及全球化職場環境

聯發科技長期深耕技術創新與人才培育,積極推動學生硬實力與軟實力的緊密整合,以加速新世代人才的成長與轉型。此次首度與Hahow for Business合作「SPARK 實習生跨域軟實力學習計畫」實踐三大學習目標:首先建立創新與成長心態;其次強化簡報與溝通影響力及團隊合作;最後,培養問題解決、專案管理與行動決策能力。

Hahow
圖/ 數位時代

同時參加「SPARK 實習生跨域軟實力學習計畫」與3個不同專案計畫的國立清華大學資訊工程研究所實習生李同學表示:「實習期間,我必須同時處理三個專案,時間被各種會議切割得十分零碎,參加每場會議前,我至少得花費10分鐘翻閱紀錄或回想進度,改用實習期間學會的心智地圖追蹤專案進度後,只要 1 分鐘就能快速掌握最新狀況,執行效率大幅提升。」

國立台灣科技大學電機工程研究所的實習生董同學則認為:「軟實力之所以重要,不僅因為它能幫助我們在事前做好規劃、提升溝通的精準度,更關鍵的是,隨著這些能力不斷累積,將更有勇氣面對挫折與挑戰,不會輕易喪失對科技或對人的熱情。」

整體而言,聯發科技攜手 Hahow 好學校的合作,不僅著眼於短期彌補能力缺口,更展現企業對未來人才的前膽佈局與長期投資。當理工學生兼具專業深度與跨域軟實力,學用落差得以有效縮減,人才成長曲線隨之加速,產業也能在新世代人才的驅動下持續創新,形成良性循環,進一步鞏固組織的核心競爭力。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓