訓練AI模型,要多少數據?拆解企業人工智慧專案為何難落地
訓練AI模型,要多少數據?拆解企業人工智慧專案為何難落地

企業的AI專案在釐清問題本質、找到命題之後,首先會面臨到一個問題:收集數據(Data Collection)和建立AI模型(Model Establishing),該以什麼作為評估基準?

AI模型
圖/ 若水國際

訓練一個AI數據模型,需要多少數據?

訓練AI數據模型時,其實有三個要素,彼此互相影響。分別是: 商業問題的複雜度AI模型複雜度 (Model Complexity),以及 數據複雜度 (Data Complexity)。

因此,如果想知道需要多少訓練數據(Training Data),建議先釐清:這個AI專案到底要處理什麼問題,以及這個問題有多複雜?確定之後,再來判斷應該選用哪種程度的模型來做訓練。根據不同的商業命題複雜度,用不同複雜度的模型和精準數據彼此搭配,找出最佳平衡,才能讓AI專案順利落地。

但光憑想像,很難評估實際的AI數據量和成效,所以開始AI的第一步,需要先透過POC概念驗證(Proof of Concept)實驗來找答案。

AI模型
圖/ 截圖自YouTube

AI模型的POC概念驗證實驗怎麼做?

簡單來說,就是針對不同複雜程度的商業問題,嘗試選用不同複雜度的模型搭配測試,直到模型跑出來的曲線,符合理想目標。

一般狀態下,假設商業問題本身的複雜度很高,我們會預期要選擇複雜度較高的模型。但是如果數據量不足,那麼選擇複雜度較高的AI模型,反而會比用簡單的AI模型效果還差。(上圖左上、右上,分別代表複雜度10和複雜度50的問題,可以明顯看出複雜的模型曲線比較接近學習數據集(Dataset),但是在測試數據集上的誤差 Eout,反而比簡單模型還差了許多。)

上圖的左下和右下,是以不同複雜度的模型去做POC,跑出來的結果曲線圖。藍色線代表的是學習數據(Training Data)成效,紅色線代表的是測試數據(Testing Data)成效。最理想的POC目標,應該是兩條曲線很貼近彼此,而且位置越低越好。

我們會發現,左下這張圖的兩條曲線雖然彼此貼近,但是就算增加數據,也無法降低誤差。這表示模型偏誤(Bias)高,效果不佳,應該要增加模型複雜度 (Model Complexity)。

增加模型複雜度之後,就會像右下這張圖,藍色曲線(學習數據)雖然數值很低,但在學習數據不足的情況下(灰色區塊),紅色曲線(測試數據)卻「飄」得太高。這表示模型變異誤差(Variance)高,應該要增加學習數據。最後在慢慢增加模型複雜度以及學習數據之後,我們就可以達到理想的結果(兩條曲線很貼近彼此,而且位置越低越好)。

數據哪裡來?發展AI人工智慧之前,先建立數據流

先前我在文章裡提到,很多企業會急著開發AI模型,但AI專案落地經驗的三大關鍵之一,其實是先確認:是否已經準備好數據了?如果沒有這樣的能力,談AI落地其實有點好高騖遠。

軟體人才_軟體開發設計_軟體工程師_(來源shutterstock)_401334640.jpg
圖/ shutterstock

AI數據收集(Data Collection)最大的挑戰,在於針對不同型態的命題,會產生不同的AI數據需求,因此需要建立的「數據流」(Data Pipeline),AI數據處理 (Data Processing)和數據標註(Data Annotation)的模式及流程也會有所不同。

發展AI之前,如果能建立起從數據收集(Data Collection)、數據處理(Data Processing)到AI模型學習的數據流(Data Pipeline),並確保可以順暢運行,實際訓練AI模型時才會省力很多。

數據不夠或太多怎麼辦?

Google開設的機器學習(Machine Learning)課程中,第一項原則就開宗明義地指出:「Don’t be afraid to launch a product without machine learning」。

如果你的產品或業務不一定需要用到機器學習(Machine Learning),那就別用,除非你有AI數據。有數據,再來談機器學習(Machine Learning)。但在業界的實際狀況,大家不是沒有數據,而是只有一些些,這時候該怎麼辦?我會建議,先從小地方開始做起,也就是從POC專案著手。

POC專案要有具體成效,除了要注意設計專案、實驗模型的指標(Metrics),企業最重要的是要先定義清楚:AI專案要達到什麼樣的指標,才算是成功?這樣最後做出來的成果,才會真正符合商業目標。

如果今天不是沒有AI數據,而是數據很多,又該從何下手呢?

我建議,嘗試減少訓練AI人工智慧時的「 數據大小 」和「 數據筆數 」。

過去曾經處理過一個AI專案,數據多達2億筆。第一次實驗,把數據全部餵進AI模型,取得結果。第二次,只拿其中有代表性的500萬筆出來訓練人工智慧。

猜猜結果如何?兩次實驗的表現,只差異不到1%。

所以,如果企業對於AI數據的品質和數量有一定程度的自信根據,其實不用把數據全部餵進AI模型訓練(Model Training),只用有代表性的AI數據來訓練就可以了。市面上很多常見的AI工具(Cluster),可以做到這點,幫助省時省力。

AI模型訓練,記得校準商業目標

企業發展AI人工智慧的最終目的,還是希望能 達到商業目標,創造價值

所以,訓練AI模型時,團隊如果不知道如何判斷哪個指標,對AI模型學習來說比較重要,建議回歸初心,重新釐清「 這個專案想達到的商業目標是什麼 」。

比方,趨勢科技(Trend Micro)要開發一個能夠判斷電腦病毒的AI,但是勒索病毒(denial-of-access attack)和廣告病毒對客戶的傷害程度大不相同。這時候,工程師就會針對這個命題,餵給AI模型不同病毒種類的數據,讓它學會判斷不同病毒的重要性,分辨出哪些病毒比較嚴重不能有判斷錯誤,而哪些病毒比較無害,不一定要做到一百分。

創業困境_突破難關障礙_overcome_shutterstock_521271766.jpg
圖/ shutterstock

最常見的訓練方法,是用成本函數(Cost Function)的方式,訓練完再回去調整AI模型的評分(Rating),用加扣分的方式,告訴機器它的學習表現是好是壞,做對就加分,做錯就扣分。

上述評分原則的制定,和企業的商業價值考量息息相關,所以一般在組織分工,會由PM專案團隊負責判斷哪些項目重要,請資料科學家設計在上述Cost Function裡面。

很多人以為,AI人工智慧開發要做到很完美才行,但其實根據我們的經驗,只要AI開發成本符合預算、AI模型表現可接受(大約做到60–70分),而且結果有助於降低成本,就可以算是達到商業目標。反過來,即使AI模型表現非常好(高達90分),但成本卻遠超出預算,就不建議執行。

另外,因為POC階段會做很多的實驗,需要拿兩個穩定且可以互相比較的基準做A/B Test,所以做好基礎建設非常重要。

如果一個團隊裡面有三位工程師,但三個人做出來的結果都無法互相比較,那麼這個實驗就會變得霧裡看花,導致AI專案難以落地。

AI數據小學堂:模型指標(metrics)

在做模型實驗時,通常會用混淆矩陣(Confusion Matrix)的四種指標:TP(True Positive)、TN(True Negative)、FP(False Positive)、FN(False Negative),以及Count、Unique和Accuracy等等函數,來判斷這個模型的表現好不好。

P或TN值,代表模型辨識的答案正確,和預期結果一致。例如:模型正確判斷出「這是一隻貓」、「這不是一隻貓」。而FP或FN值,則代表模型的判斷錯誤,例如「明明是貓,模型卻說不是貓」、「明明不是貓,模型卻說它是貓」。

責任編輯:文潔琳、蕭閔云
本文授權轉載自:若水AI數據處理實戰攻略

往下滑看下一篇文章
永豐金控首辦科技年會,打造「Just right」的未來金融
永豐金控首辦科技年會,打造「Just right」的未來金融

當 AI 成為金融業的新標配,企業的競爭力分水嶺已不再是「要不要導入 AI」,而是誰能率先讓技術從概念驗證走向規模化落地,並真正改變核心服務或流程,AI 不再只是技術部門的創新實驗,而是重塑金融競爭力的關鍵引擎。值此關鍵時刻,永豐金控於12 月 5 日舉辦首屆「2025永豐金控科技年會」,完整揭露其在 AI 應用上的階段性成果與未來布局,並分享如何以科技為引擎,重塑金融服務的速度、精準度與想像力。

低調布局、深度轉型:永豐的 AI 實力其實早已成形

一直以來,台灣人普遍被教育要「少說話、多做事」,許多企業也習慣把努力放在背後、成果留給時間驗證,永豐金控的 AI 發展路徑,正是這種低調務實性格的展現——不急著對外發聲、也不追逐媒體聲量,而是默默在集團內推動一項又一項創新落地。

自 2020 年啟動數位變革專案,並自建金控 AI 團隊「圖靈計畫」以來,永豐金控便將「場景經營」與「AI 與數位科技」兩大策略定為科技發展主軸,全面將 AI 佈建至集團營運的各個環節,至今已累積推動逾百項金融科技應用專案,涵蓋銀行、證券等子公司,不僅取得多項專利,其中不少更是業界首創的技術與服務模式。

永豐金控數位科技長張天豪以2024年瞬間爆紅的生成式 AI 為例,永豐金控領先業界開發創新服務,獨家首創 Orbit.AI 投資水晶球,可提供五大市場及美元、日圓二大貨幣的即時訊息,更進一步強化大戶投 App的使用體驗,透過AI摘要個股新聞,並挑選具市場影響力的訊息供投顧研究員撰寫評析,再將內容推薦給客戶參考。

永豐金控
圖/ 永豐金控

此外,永豐創新應用AI Agent(人工智慧代理)推出「永豐iWish」智能服務,Al Agent 會根據客戶所提供的資訊,自動完成新臺幣存款、提款、匯款及轉帳等預填表單作業;同時還推出理專 Copilot,用 AI 協助搜尋客戶、即時摘要客戶個人資訊與商機,協助理專更有效率地經營客戶、提供更精準的理財服務。

然而,因為永豐金控向來「做得多、說得少」,外界反而難以想像其在 AI 投入上的規模與深度。「我們在年度調查中驚訝地發現,外界普遍沒有意識到永豐金控其實非常積極發展 AI,甚至已有多項應用在實際運作中,」張天豪坦言。

對外揭露 AI 腳步與未來路線,打造永豐金控科技生態圈

為補上長期以來的對外溝通缺口,永豐金控選擇舉辦科技年會,將過去這些「做得多、說得少」的科技成果,首次系統性地分享給市場與大眾,永豐希望讓外界清楚理解:集團過去多年累積的 AI 技術能力,未來將落地在哪些場景、又能為客戶與金融服務創造什麼價值。

透過完整呈現未來的科技應用理念和想法,永豐金控期待吸引認同理念的消費者、企業客戶及科技人才。張天豪指出,科技人與社會新鮮人往往不知道金融業同樣需要大量 AI 與科技專才,因此永豐希望藉此機會讓更多人才看見,金融業也能是實踐科技創新的舞台,進而緩解當前產業的人才缺口。

更重要的是,永豐希望藉此機會找到理念相同的戰略合作夥伴,共同打造永豐金控的科技生態圈。畢竟 AI 時代的技術佚代速度太快,金融業若沿用過往「等需求成形再找外部廠商」的合作方式,不僅跟不上科技變化,也難以累積核心能力。因此永豐選擇主動釋出未來規劃,讓擁有技術或對金融場景有想法的外部夥伴能主動洽談、探索更多合作可能。

「我們希望更多科技人才與外部夥伴的加入,加速實現年會主題J’right Experience的願景,」張天豪說明,J’right Experience 來源於 Just right experience,象徵永豐金控對 AI 應用的期待,當科技發展到一定成熟度,金融服務會自然到讓人忘記技術的存在,仿佛金融服務本來就應該是這樣。

張天豪強調,真正決定 AI 價值的並非技術本身,而是「選對場景」,這也是永豐金控透過「J’right Experience」想向外界傳達的核心理念:打造一種直覺、自然,讓人覺得「金融服務本來就應該這樣」的 AI 體驗。

不只談理念,還能搶先體驗下一代 AI 金融服務

永豐金控不只透過年會主題傳達自身對 AI 應用的期待,更特別打造兩款專為實體會場量身開發的 AI 互動產品——「永豐iWish」和「永豐智投」,這是在永豐既有的 AI 技術能力之上,再引入 Multi-Agent 等新技術,讓操作更直覺、回覆更精準,讓與會者能在現場親身體驗下一代 AI 金融服務的運作模式,感受截然不同的互動體驗。

永豐金控
圖/ 永豐金控

除了與永豐金控一同見證未來金融場景的樣貌,本次年會更邀請多位重磅講者同台對話,包含台灣微軟首席技術長花凱龍以AI 驅動金融業的未來談願景到落地、NVIDIA 資深解決方案架構師李正匡博士從技術角度看金融 AI 應用,以及 Amret 數位資訊長 Sajjad 帶來金融 AI 應用的國際看法。此外,永豐金控的業務與技術團隊也將以對話形式分享實務經驗,從需求端到技術端完整拆解 AI 如何真正落地於金融場景。

AI 正在重新定義金融服務,而永豐金控正用實際行動走在這場變革的最前線。如果你想深入理解 AI 金融的最新進展、下一個五年可能的發展方向,或親自體驗下一代金融服務的模樣,這場年會你絕對不能錯過。

「永豐金控科技年會」將在12月5日於三創生活園區5F CLAPPER STUDIO展演廳盛大登場,以LINE TODAY線上線下同步舉辦。即日起開放活動報名,凡線上報名成功,即可獲得永豐金證券股票禮品卡抽獎資格;線上報名成功,並全程觀看直播及填寫會後問卷,還有機會獲得iPhone 17及AirPods Pro 3等科技好禮;現場參與並完成產品體驗,還可獲得多項專屬禮品。

立即報名,一起見證金融科技的關鍵時刻。
https://techcon.sinopac.com/sinopactechcon2025/

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓