【黑貘來說】 挖掘巨量資料的秘密步驟
【黑貘來說】 挖掘巨量資料的秘密步驟
2013.03.26 | 創業

現在已經有太多的報導說某某公司利用使用者的行為記錄,來算出每一個人的喜好,並且導出商機等等新聞到處可見,但我相信大家看再多次,不是覺得這樣會不會太可怕了?不然就是這好厲害阿!這兩種答案,不然就是兩種都有。

但事實上這件事並不神奇或可怕,會覺得這樣是因為大部份的人不知道怎麼做,或者是說這能夠做甚麼,若是你知道後,發現這跟本只是個套來套去經過計算的結果,甚至在某方面你用手來算都可以,只是不一樣的是人只能處理少量資料,而電腦可以處理巨量資料,當很多事情會有量變產生質變的時候,威力就在此顯現,但這些步驟,說穿了一點都不聰明,甚至還非常的機械化的制式。

當然我不是很好的深入淺出的作者,所以沒辦法寫給大多數的讀者看,而是寫給已經有一點實務經驗的人,尤其是程式設計師或資料庫管理師等工程師,但若沒有這技術背景,我相信做這樣的拆解,可以讓大家從一知半解變成知道個大概,而透過這樣的了解,讓大家有機會去應用是我寫這幾篇的目的。

只是還有一個前提,就是我不會在這邊寫資料探勘的基礎,也就是說,「請先去看本資料探勘的書」,再來看下面幾篇文章吧。

目標:能夠知道某個特定人喜歡甚麼東西,購買每一個商品的機率,或者是說我們該如何推薦商品給他,以及知道他喜歡這商品的原因?

人與商品之間的行為有下面幾種:

  1. 瀏灠
  2. 放入清單
  3. 購買
  4. 評價或評論
  5. 其他

    上面每一種行為都有其數量化的差異,有些是一年幾次,幾十次或到幾百次或更多,而每一個行為都可能有個 「權重 (Weight)」,以及時間 (Time) 與次數 (Times) 的屬性,甚至更有可能是一個 Vector (向量) 的指標,例如喜好、觀感等等,無論是可以量化或不能量化,這些都可以成為建立人與商品的「關連」。

    所有的資料探勘系統實作都是從這些資料做轉化,甚至是簡化,畢竟可以運算,以及算得出結果才是重點,甚至是能夠算給所有消費者顧客使用才是資料探勘的精隨。

    但有趣的事是很多實用的系統都很少是用單一方法去建構出來的,畢竟除了人的行為之外,商品有有幾個屬性:

  6. 商品本質、內容

  7. 商品描述 (meta-data) 與分類
  8. 最後才是商品的使用

    在還沒有 Semantic Web 之前, 我們能用的就是商品的使用,也就是我們使用者/消費者與商品/物品之間的關係,而在有了語意網路之後,我們就可以進一步的處理本質 (文化商品) 與描述了,只是在這之前還要有幾個前置作業。

  9. 會自動化新增關鍵字詞的表

  10. 會自動化連結出語意網路的表

    這兩個表若是可以扣掉前面「會自動化新增/連結」 的話,我相信很多人都有從很多單位去取得這樣的詞庫與關連庫,但在實務上我們有絕大部份的狀況都是在處理運算最新的商品或議題時,沒有一種機制能夠新增或更新的話,幾乎是不實用的。

    只是這新增/更新有時不見得是自動化,因為自動化是件相當困難的事,就我所知有不少在做這項業務的公司單位,用的就是「工人智慧」,而不是人工智慧,但無論如何,有了這兩個表之後,再加上從資料探勘能夠得知的:

  11. 關連分析 (一階, 或高階)

  12. 群落分析 (Clustering)
  13. 時間序列預測

    有了上面三個很基本的工具後,可以配合產出很多的可能性:

  14. 最常見的關連購買

  15. 在搜尋結果中做排序
  16. 從分類結果做語意分析產出因子
  17. 有了高階的關連分析可以透過配對做活動
  18. 從銷售預測中作備品或庫存準備
  19. 只要你想得到的

    當然上面說得很簡單,好像是三兩天就可以開發出來的東西,但事實上單單一個「會自動化連結出語意網路的表」,我記得當時就弄了兩三個月才弄出來,當然現在再弄一次就只須要兩三天到兩三個星期了,畢竟有經驗跟沒有經驗還是差很多的。

    記得我在 5 年多前寫過 Data Mining 是一個須要跟效率挑戰的高度技術的事,但現在的機器已經比 5 年前快 5 倍了,加上資料庫的多樣性,雲端系統的完善,讓寫這樣的系統跟之前簡單不只 5 倍,我在兩個月以前自己從無到有又自己跑一次,以前須要半年的現在只要半個多月就夠了,想想時代還真可怕阿。

    所以說,在這樣成熟的時機而言,導入真正的巨量資料探勘已經不是預算的問題,也不是技術的問題,而是心態的問題了,你準備好了嗎?

轉自[黑貘來說](http://gene.speaking.tw/2013/03/blog-post_20.html)
關鍵字: #大數據
往下滑看下一篇文章
國泰人壽業務平台升級 助攻業務行銷數位力
國泰人壽業務平台升級 助攻業務行銷數位力

國泰人壽持續推動數位轉型,第四屆數位業務發表會近日登場,發表AI創新應用及數位工具升級成果。會中亮點包括升級業務行銷工具「新業務平台 NAP 3.0」(New agent Platform, NAP)導入三大 AI 功能,並率先試辦「全場景人臉辨識計畫」,以提升業務通路服務效率與專業能力;並特地邀請新加坡保險同業MDRT(百萬圓桌會員)業務菁英參加,同台分享跨世代客群溝通與數位轉型實務經驗,泰國人壽更派出策略創新長等高階主管來台參與盛會,期能攜手海外同業彼此交流,為國壽業務部隊經營開創新視野。本次發表會活動吸引逾400位業務人員到場,另有2萬人透過線上直播參與,創下發表會收視人數歷史新高。

國泰人壽自2022年起每年舉辦數位業務發表會,透過新技術、新應用發表,協助業務人員更掌握科技趨勢與善用工具提升工作效率。國泰人壽總經理劉上旗於發表會中表示:「國泰人壽的數位工具不斷進化,NAP從5年前戰情室藍圖規畫,現已成為業務同仁日常工作不可或缺的工具,落實了效率工作與輕鬆生活的承諾,期許進入AI時代,國壽同仁以更堅實的底氣疾風前行。」強調保險服務已邁入智慧新時代,作為台灣保險業數位轉型的先驅,國泰人壽持續投入創新科技,為業務夥伴打造全方位的數位工作環境。

國泰人壽
國泰人壽副董事長李長庚(左3)及總經理劉上旗(右3)率領高階主管,出席數位業務發表會,展現公司對數位轉型的高度重視。
圖/ 國泰人壽

此次發表的「新業務平台NAP 3.0」導入三大AI新功能:一是「文件智慧識別」,透過AI大型語言模型(LLM)輔助智慧字元辨識技術(Intelligent Character Recognition,簡稱ICR),當業務夥伴為客戶進行保單健檢時,不需手動輸入,就能透過ICR拍照將資料正確帶入相關欄位;二是「自動生成圖文」,讓業務夥伴運用AI自製賀卡轉傳給客戶,利用生成式AI技術產生各類情境圖文,讓業務員有源源不絕的話題可以拜訪客戶;三是「AI COACH口袋教練」,能協助業務人員模擬真實銷售情境,透過話術指導與即時修正建議,提升與客戶溝通的精準度與專業服務水準。再搭配「FitBack健康吧」增進與客戶的互動,提供完整且深度的保險資訊,成為業務人員的最強後援。

國泰人壽
國泰人壽NAP「AI COACH口袋教練」協助業務人員模擬真實銷售情境,透過話術指導與即時修正建議,提升與客戶溝通的精準度與專業服務水準。
圖/ 國泰人壽

「新業務平台NAP 3.0」平台使用率已達到100%,深獲業務人員肯定,今(2025)年國泰人壽更率先實現試辦「全場景人臉辨識計畫」,應用於投保、保單變更、保費付款授權、理賠申請及據點臨櫃辦理等五大保險服務流程,業務夥伴可協助客戶使用NAP平台完成人臉註冊,暢行國泰人壽全服務平台,除了讓客戶能享受快速、安全且便利的數位服務,亦能強化業務通路的服務效率,預計年底前將全面推行。

在培育業務人員專業能力方面,國泰人壽優化「C-Learning」內部學習社群平台,以遊戲式的學習模式,提供教育訓練及時事分享,提升學習動能;更透過「集團全攻略」匯聚人壽、產險、金融及健康四大核心服務素材,讓業務人員能夠開拓例如企業主、新手爸媽、超跑車主、銀髮族等不同客戶族群,並透過工具獲得實質的銷售幫助。未來,國泰人壽將持續落實集團「BETTER TOGETHER共創更好」的品牌精神,深化AI技術應用,打造「人機協作」的最佳典範,優化數位服務功能,攜手業務夥伴開創保險服務的新局,為客戶創造更多價值。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
蘋果能再次偉大?
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓