【黑貘來說】 挖掘巨量資料的秘密步驟
【黑貘來說】 挖掘巨量資料的秘密步驟
2013.03.26 | 創業

現在已經有太多的報導說某某公司利用使用者的行為記錄,來算出每一個人的喜好,並且導出商機等等新聞到處可見,但我相信大家看再多次,不是覺得這樣會不會太可怕了?不然就是這好厲害阿!這兩種答案,不然就是兩種都有。

但事實上這件事並不神奇或可怕,會覺得這樣是因為大部份的人不知道怎麼做,或者是說這能夠做甚麼,若是你知道後,發現這跟本只是個套來套去經過計算的結果,甚至在某方面你用手來算都可以,只是不一樣的是人只能處理少量資料,而電腦可以處理巨量資料,當很多事情會有量變產生質變的時候,威力就在此顯現,但這些步驟,說穿了一點都不聰明,甚至還非常的機械化的制式。

當然我不是很好的深入淺出的作者,所以沒辦法寫給大多數的讀者看,而是寫給已經有一點實務經驗的人,尤其是程式設計師或資料庫管理師等工程師,但若沒有這技術背景,我相信做這樣的拆解,可以讓大家從一知半解變成知道個大概,而透過這樣的了解,讓大家有機會去應用是我寫這幾篇的目的。

只是還有一個前提,就是我不會在這邊寫資料探勘的基礎,也就是說,「請先去看本資料探勘的書」,再來看下面幾篇文章吧。

目標:能夠知道某個特定人喜歡甚麼東西,購買每一個商品的機率,或者是說我們該如何推薦商品給他,以及知道他喜歡這商品的原因?

人與商品之間的行為有下面幾種:

  1. 瀏灠
  2. 放入清單
  3. 購買
  4. 評價或評論
  5. 其他

    上面每一種行為都有其數量化的差異,有些是一年幾次,幾十次或到幾百次或更多,而每一個行為都可能有個 「權重 (Weight)」,以及時間 (Time) 與次數 (Times) 的屬性,甚至更有可能是一個 Vector (向量) 的指標,例如喜好、觀感等等,無論是可以量化或不能量化,這些都可以成為建立人與商品的「關連」。

    所有的資料探勘系統實作都是從這些資料做轉化,甚至是簡化,畢竟可以運算,以及算得出結果才是重點,甚至是能夠算給所有消費者顧客使用才是資料探勘的精隨。

    但有趣的事是很多實用的系統都很少是用單一方法去建構出來的,畢竟除了人的行為之外,商品有有幾個屬性:

  6. 商品本質、內容

  7. 商品描述 (meta-data) 與分類
  8. 最後才是商品的使用

    在還沒有 Semantic Web 之前, 我們能用的就是商品的使用,也就是我們使用者/消費者與商品/物品之間的關係,而在有了語意網路之後,我們就可以進一步的處理本質 (文化商品) 與描述了,只是在這之前還要有幾個前置作業。

  9. 會自動化新增關鍵字詞的表

  10. 會自動化連結出語意網路的表

    這兩個表若是可以扣掉前面「會自動化新增/連結」 的話,我相信很多人都有從很多單位去取得這樣的詞庫與關連庫,但在實務上我們有絕大部份的狀況都是在處理運算最新的商品或議題時,沒有一種機制能夠新增或更新的話,幾乎是不實用的。

    只是這新增/更新有時不見得是自動化,因為自動化是件相當困難的事,就我所知有不少在做這項業務的公司單位,用的就是「工人智慧」,而不是人工智慧,但無論如何,有了這兩個表之後,再加上從資料探勘能夠得知的:

  11. 關連分析 (一階, 或高階)

  12. 群落分析 (Clustering)
  13. 時間序列預測

    有了上面三個很基本的工具後,可以配合產出很多的可能性:

  14. 最常見的關連購買

  15. 在搜尋結果中做排序
  16. 從分類結果做語意分析產出因子
  17. 有了高階的關連分析可以透過配對做活動
  18. 從銷售預測中作備品或庫存準備
  19. 只要你想得到的

    當然上面說得很簡單,好像是三兩天就可以開發出來的東西,但事實上單單一個「會自動化連結出語意網路的表」,我記得當時就弄了兩三個月才弄出來,當然現在再弄一次就只須要兩三天到兩三個星期了,畢竟有經驗跟沒有經驗還是差很多的。

    記得我在 5 年多前寫過 Data Mining 是一個須要跟效率挑戰的高度技術的事,但現在的機器已經比 5 年前快 5 倍了,加上資料庫的多樣性,雲端系統的完善,讓寫這樣的系統跟之前簡單不只 5 倍,我在兩個月以前自己從無到有又自己跑一次,以前須要半年的現在只要半個多月就夠了,想想時代還真可怕阿。

    所以說,在這樣成熟的時機而言,導入真正的巨量資料探勘已經不是預算的問題,也不是技術的問題,而是心態的問題了,你準備好了嗎?

轉自[黑貘來說](http://gene.speaking.tw/2013/03/blog-post_20.html)
關鍵字: #大數據
往下滑看下一篇文章
第6屆Meet大南方倒數!352組商機媒合、六大解方展區,帶問題進場就能找到解方
第6屆Meet大南方倒數!352組商機媒合、六大解方展區,帶問題進場就能找到解方

2026年8月28日(五)至29日(六),Meet大南方將於高雄展覽館展開第6屆展會,並於即日起正式啟動招商。

近兩年,南台灣企業開始出現一種很明顯的變化。

他們不再只是「想了解AI」,而是開始問:「這個東西能不能直接解決我的問題?」

在高雄,重工業與製造業面臨缺工與淨零轉型壓力;台南的高值製造聚落,開始加速導入自動化與數位管理工具;嘉義與屏東則分別圍繞無人機、智慧農業與綠能產業,形成新的區域應用場景。

這些變化背後,其實都指向同一件事:南台灣的企業需求,正在從「理解新科技」,轉向「尋找可立即落地的解方」。

#4 2026Meet大南方徵展
在破萬人流的展會現場,企業觀展者透過第一線交流快速比較不同解方與合作可能。
圖/ Meet創業小聚

而這也讓企業尋找解方的方式,開始改變。

過去,企業與新創及科技團隊的連結,多半依賴長期業務開發、人脈介紹,或零散的展會接觸;但在決策速度加快的情況下,企業更傾向在短時間內完成資訊比較、方案評估與初步媒合。

這也是為什麼,近年愈來愈多以「解方對接」為核心的場域開始出現。

以Meet大南方為例,2025年展會共促成352組商機媒合,較前一年成長2.7倍。在相近的展商規模下,媒合效率的提升,反映的並不只是活動熱度,而是企業需求正在快速集中。

AI已經不是重點,能不能落地才是

AI、自動化、ESG,幾乎已經成為所有產業論壇都會出現的關鍵字。

但對許多企業來說,問題早已不是「知不知道」,而是「能不能用」。

例如:
- AI能不能直接改善產線良率?
- 碳管理工具能不能真的降低營運壓力?
- 數位工具能不能解決人力不足?
- 自動化系統導入後,多久能看見效率提升?

比起概念,企業開始更在意落地性與導入成本。這也讓市場需求逐漸從「趨勢理解」,轉向更務實的「問題解決」。

比起曝光,現在的企業更在意能不能合作

在這樣的背景下,展會的角色也開始改變。

過去,展會更像品牌曝光與市場宣傳的平台;但現在,愈來愈多企業是帶著具體需求走進現場,希望在短時間內找到可以評估、比較,甚至直接進入合作討論的對象。

#0 2026Meet大南方徵展
企業需求加速浮現,也讓愈來愈多解方提供者選擇透過展會與企業直接對接。
圖/ Meet創業小聚

對解方提供者而言,這也意味著另一種市場接觸方式正在形成。

相較於傳統陌生開發,透過展會、媒合機制與現場交流活動,能在更短時間內接觸到大量潛在客戶,並快速理解區域市場的需求輪廓。

Meet大南方近年所強化的,也正是這類「高密度對接」。

除了展區展示外,現場也透過企業媒合會、投資人交流、新創社群活動等形式,增加需求方與解方之間的直接互動機會。

某種程度上,展會正在從「展示技術」,轉向「協助企業尋找答案」。

企業不是為了「看AI」而來,而是想解決缺工與效率問題

2026年Meet大南方將以「Meet Your BEST Solution」為核心主軸,並將展區重新調整為六大「解方區」,直接對應企業經營現場最常見的問題情境。

展區類別包括:
- 智慧製造與產線升級
- 數位管理與企業效率
- 醫療健康與高齡照護
- 淨零碳排與綠能永續
- 品牌轉型與跨境行銷
- 未來零售與餐飲科技

#3 2026Meet大南方徵展
為貼近企業需求,展會特別規劃六大解方展區,讓企業觀展者更有效率地找到對應解方。
圖/ Meet創業小聚

相較於以技術類型區分,這樣的方式更接近企業的思考邏輯。

企業不是為了「看AI」而來,而是為了解決效率、成本、缺工與轉型問題。而對新創與解方團隊而言,也更容易在具體場景中,被真正有需求的人看見。

南台灣缺的不是需求,而是有效的對接

從半導體供應鏈、製造業升級,到淨零與數位轉型需求快速增加,南台灣正在形成一個與過去不同的產業節奏。

這裡需要的,不再只是遙遠的科技想像,而是能真正進入工廠、辦公室與營運現場的實用工具。

#1 2026Meet大南方徵展
今年Meet大南方將於8/28、8/29在高雄展覽館舉辦。
圖/ Meet創業小聚

當企業開始加速尋找答案,市場也正在重新建立需求與解方的連結方式。

2026年8月28日至29日,Meet大南方將於高雄展覽館舉辦第6屆展會。在產業轉型持續推進的背景下,這類以解方對接為核心的場域,也逐漸成為南台灣企業與科技團隊建立連結的重要入口。

展會基本資料

2026 Meet Greater South 亞灣新創大南方
時間:8/28 (五)、8/29 (六)
地點:高雄展覽館北館
官網:https://meetgreatersouth.tw/

徵展起跑!新創享專屬免費方案
早鳥優惠至6/8,報名收件至7/3  >> 瞭解詳情

關鍵字: #創新創業

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣20
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓