掌握資料科學的四大分析步驟,啟動 AI 專案
掌握資料科學的四大分析步驟,啟動 AI 專案

數位科技的運用,不僅驅動智慧化生活,企業也加快推動數位轉型,人工智慧(AI)的應用更是愈趨廣泛。舉凡語音助理、手機美拍、人臉辨識、個人會行銷,都是日常生活中常見的應用。這些新穎的技術,不只讓生活更方便,也悄悄地影響了多數職場工作者的工作內容。對非電腦科學背景的職場工作者來說,能不能善用人工智慧、與人工智慧協同合作,將是影響未來職場競爭力的關鍵。

不會寫程式,也能做 AI 專案嗎?全球知名資訊科技研究顧問機構 Gartner 近日發佈的一份文章指出,在 2024 年將有 80% 的科技產品與服務出自於非 IT 技術專業人士,這項變革背後最大的推手即是無程式碼工具(no-code AI tool)。只要瞭解基礎的資料分析流程與原理,運用這類的 AI 建模軟體,即可快速建立 AI 模型。

資料科學專案的分析步驟

以精準行銷的 AI 專案為例:某雜誌擁有大量的訂戶,平時也有經營社群,並且推廣課程。今年推出了一套針對中高階主管的全新的商管課程,希望能夠透過精準投放,提高課程的購買率。然而行銷的總預算有限,在茫茫的會員人群中,要如何篩選出成交機率高的會員,提升效率與利潤,是行銷部門的首要之務。

要達到上述目的,需要打造「潛在客戶名單推薦系統」,作法如下:首先,要將訂戶資料與社群會員資料做整併,進行初步的資料探索。在這個步驟,我們可能發現有少部分客戶的年齡被誤植成負數(資料探索)。為了不影響後續建立模型後的準確率,我們將這幾筆資料予以刪除(資料清理)。接著以 AI 建模軟體建立購課成交率的預測模型(建立模型),再從中選出表現最佳的模型,介接至潛在客戶名單推薦系統,對所有客戶名單進行購課成交率預測,針對成交率高的客戶,進行簡訊或電話行銷(模型部署、實際應用)。

從以上的範例可以發現,資料科學的工作流程大致可以歸納成以下四大步驟:

一、資料探索

對手上的分析繪製簡單的統計圖表,並且觀察個欄位的統計量。其目的在於了解資料的分佈是否與認知相符,查看離群值的分佈,找出關聯性,從圖表找出洞察,建立並測試假說。
在這個步驟,經常查看的統計量有:平均值(Mean)、中位數(Median)、眾數(Mode)、最小值(Min)、最大值(Max)、範圍(Range)、四分位差(Quartiles)、變異數(Variance)、標準差(Standard deviation)。
圖表方面,常見的單變量的圖表有直方圖(Histogram)、柱狀圖(Bar chart);雙變量的圖表則是會看散佈圖(Scatter plot)、箱型圖(Box plot)、熱力圖(Heat map)。

histogram
圖說:直方圖可以查看單一欄位的分佈。以此圖為例,訂戶的訂閱期數(subscribe_time)在 50 期以下佔多數。

二、資料清理

在資料探索階段,可能會發現許多內容不合理的數據,或是遺失值。此時需要仔細檢查為什麼會收到這樣的資料,並針對不同的情境,做出相對應的資料清理動作。
像是發現某些訂戶資料的年齡為負數時,深入去檢查原始資料庫的資料,發現是雜誌社的工作人員登打的時候,將客戶的出生日期打錯了,因此後續才會有有不合理的年齡資訊。此時可以考慮將該筆資料移除,維持資料的正確性。

agehist
圖說:從直方圖發現訂戶年齡(age)為負值
agefilter
圖說:將年齡為負值的資料刪除。

三、建立模型

資料清理完畢之後,只要訓練資料集與演算法之後,即可建立 AI 模型。目前市面上的 AI 建模軟體已經內建 Auto ML 技術,使用者毋須一一調整參數,軟體會自動進行參數最佳化,將最佳的結果回傳。

model-setting
圖說:將模型的基礎資訊設定完畢,即可自動建立模型。

四、模型部署、實際應用

上述的步驟可以多次反覆執行,建立多個 AI 模型。從中挑選出表現較佳的模型,將之部署上線,開始實際運用到工作場域中。

上述的範例中,行銷人員每月可將新收集到會員資料匯入「潛在客戶名單推薦系統」,系統即回傳成交機率較高的客戶名單。行銷人員即可用這份名單執行後續的促銷活動。

潛在客戶推薦系統.jpg
圖說:將 Tukey 模型導入「潛在客戶名單推薦系統」,系統即回傳成交機率較高的客戶名單,提供行銷人員做後續使用。

AI 時代的行銷利器:Tukey

對於行銷、業務人員而言,不外乎想要讓更多人可以認識自家產品,提高潛在客戶的成交意願,進而提升訂單成交率。由 Chimes AI 詠鋐智能所研發的企業級 AI 建模與管理平台 Tukey ,可提供精準投放、商品推薦、挖掘潛在商機、商品銷量預測等各種行銷面向上的決策輔助。

Tukey 的 No-Code AI 產品設計,提供非機器學習演算法專家 (譬如:銀行理財專員、電商營運專員) 簡單直覺的操作介面,讓直接面對營運問題的一線人員,迅速完成 AI 模型建置,提升工作效率。Tukey 也可以完整追溯資料專案的資料歷程,在需要跨部門團隊協作的場合,彌平認知落差,亦可與他人進行跨平台的協同運作,增加工作的一致性與正確性,進而提升工作效率。

Tukey 目前已經被台塑公司採用,並且被納入台灣人工智慧學校的高階經理人班教材。想了解更多,歡迎報名《數位時代》推出的「資料科學概念系列課」!立即打造你的第一個 AI 行銷專案吧!

關鍵字: #AI
往下滑看下一篇文章
AI 智慧代理人時代來臨!三大導入階段, AI 落地企業不卡關
AI 智慧代理人時代來臨!三大導入階段, AI 落地企業不卡關

生成式 AI 帶動企業數位轉型浪潮持續升溫,各界不再滿足單一任務型的 AI 應用,而是期盼 AI 能真正成為具備主動決策與多工能力的「智慧代理人」(Agentic AI),在最少人為干預的情況下,自主推進工作流程、完成複雜任務。

但企業導入AI並非一蹴可幾,而是需要對AI有正確認識,並制訂循序漸進的導入流程,才能真正發揮AI功效。在2025台灣人工智慧年會中,cacaFly 聖洋科技技術副總吳振和提出三大導入關鍵階段,深入剖析企業如何從概念驗證(PoC)階段,逐步推進到實際上線(Production),並分享實務經驗與觀察。

延伸閱讀:生成式AI可以怎麼用?cacaFly現身說法,助企業應用GCP服務智慧轉型

解鎖 Agentic AI,企業邁向多任務智慧代理

「很多公司會問,One AI 要做什麼事?但實際上,若要讓 AI 回答公司內部政策或新法條的相關問題,僅靠基礎模型並不足夠。」吳振和指出,要讓 AI 真正成為能「做事」的智慧代理人,前提是它必須理解企業內部的脈絡與知識,並即時掌握外部變動的資訊。

企業必須先釐清內部規範是否與最新法規相符,這意味著系統必須具備持續爬取與解析最新資料的能力。為此,企業必須先截取與整理內容,再建構成專屬的知識庫(Knowledge Base),確保資料品質達到可用標準後,再透過檢索增強生成(Retrieval-Augmented Generation, RAG)技術,使 AI 能夠即時動態查詢並生成符合企業語境的回答。

延伸閱讀:從資料清洗到 RAG,大型語言模型的必需品,做出專屬企業的 AI 知識庫!

吳振和強調,這是一個動態循環的過程:從資料蒐集、品質控管、知識庫建構到生成應用,每一環節都息息相關,任何一處鬆動都會影響最終產出的準確性與可信度。

cacaFly 聖洋科技技術副總吳振和
圖/ cacaFly

破除「一次到位」迷思,從驗證到落地的三大關鍵階段

許多企業對 AI 寄予厚望,因此常將 PoC 視為年度計畫的重點,希望能「一次到位」做出具體成果。但吳振和提醒,若缺乏清楚的系統工程思維,PoC 容易淪為「概念展示」,難以真正走入組織的日常營運。

他將導入 Agentic 系統工程的歷程,分為三個關鍵階段:

1.第一階段:可行性評估(Feasibility Study)
企業必須在投入資源前,先明確界定「最需要被 AI 解決的關鍵問題」是什麼,並進一步設計可量化的驗證指標。這不僅包括評估技術實作的可行性,更要從商業目標出發,釐清導入 AI 的具體使用情境、預期成效與風險邊界,如此才能確保後續模型選型與資料蒐集方向正確對齊業務需求。

2.第二階段:系統設計與驗證(Design & PoC)
在確定導入方向後,必須規劃清楚資料蒐集與整理流程,確保知識庫的內容具備正確性、完整性與時效性。吳振和特別強調,這個階段不能只追求展示效果,而應以「產品化思維」來構築 PoC,使其具備可擴充性、可維護性及安全性,才能為後續上線打下基礎。

3.第三階段:產品化與營運(Production & Operation)
當 PoC 驗證完成後,進入正式上線階段,挑戰也隨之而來。除了需要整合企業內部系統與流程,還必須建立持續監控與維運機制,確保模型表現隨時間演進不會劣化,並能快速回應法規變動或資料更新的需求。吳振和指出,這往往是最容易被低估、但也是最考驗企業組織能力的關鍵環節。

cacaFly 聖洋科技技術副總吳振和
圖/ cacaFly

建立模型優化根基,打造高品質的黃金資料集

吳振和特別強調,要讓 Agentic 系統工程真正發揮效益,企業必須先建立一套高品質的「黃金資料集」(Golden Dataset),作為模型評估與優化根基。他指出,黃金資料集的價值在於能為模型選擇與前測提供客觀依據,讓團隊能針對不同任務挑選最適合的模型,避免導入初期就誤踩方向。

同時,黃金資料集也能協助團隊辨識模型的常見錯誤與脆弱點,進而快速回應「模型飄移」(Model Drift)的風險。吳振和說明,所謂模型飄移,指的是即使模型本身未經改版,效能也可能隨著環境與資料變動而突然下降,導致原本表現良好的模型出現偏差。透過持續比對模型預測與黃金資料集結果,團隊才能即時察覺效能衰退,並進行迭代更新,確保系統長期穩定運作。

從小規模應用起步,漸進擴展至核心業務

吳振和分享,在實際輔導企業導入 AI 的經驗中,最常見的挑戰來自於「期待落差」。許多企業誤認為概念驗證(PoC)階段即可呈現完整的產品原型,然而實際情況顯示,若企業未能建立完善的資料架構與流程基礎設施,即使短期內展現亮眼成效,也難以確保長期營運的穩定性與可持續性。

也因此他建議企業在規劃 AI 導入時,應採取漸進式策略,從小規模應用場景著手,逐步擴展至核心業務領域。企業應將 PoC 定位為整體產品開發生命週期的重要環節,而非獨立的一次性專案。

AI 的導入不僅是一場技術升級,更是企業組織文化與決策流程的轉型工程。唯有從資料治理、流程優化到人才培訓同步布局,才能確保 AI 能在企業內部真正「落地生根」,創造長期商業價值,成為真正的智慧代理人。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓