【黑貘來說】 挖掘巨量資料的秘密步驟
【黑貘來說】 挖掘巨量資料的秘密步驟
2013.03.26 | 創業

現在已經有太多的報導說某某公司利用使用者的行為記錄,來算出每一個人的喜好,並且導出商機等等新聞到處可見,但我相信大家看再多次,不是覺得這樣會不會太可怕了?不然就是這好厲害阿!這兩種答案,不然就是兩種都有。

但事實上這件事並不神奇或可怕,會覺得這樣是因為大部份的人不知道怎麼做,或者是說這能夠做甚麼,若是你知道後,發現這跟本只是個套來套去經過計算的結果,甚至在某方面你用手來算都可以,只是不一樣的是人只能處理少量資料,而電腦可以處理巨量資料,當很多事情會有量變產生質變的時候,威力就在此顯現,但這些步驟,說穿了一點都不聰明,甚至還非常的機械化的制式。

當然我不是很好的深入淺出的作者,所以沒辦法寫給大多數的讀者看,而是寫給已經有一點實務經驗的人,尤其是程式設計師或資料庫管理師等工程師,但若沒有這技術背景,我相信做這樣的拆解,可以讓大家從一知半解變成知道個大概,而透過這樣的了解,讓大家有機會去應用是我寫這幾篇的目的。

只是還有一個前提,就是我不會在這邊寫資料探勘的基礎,也就是說,「請先去看本資料探勘的書」,再來看下面幾篇文章吧。

目標:能夠知道某個特定人喜歡甚麼東西,購買每一個商品的機率,或者是說我們該如何推薦商品給他,以及知道他喜歡這商品的原因?

人與商品之間的行為有下面幾種:

  1. 瀏灠
  2. 放入清單
  3. 購買
  4. 評價或評論
  5. 其他

    上面每一種行為都有其數量化的差異,有些是一年幾次,幾十次或到幾百次或更多,而每一個行為都可能有個 「權重 (Weight)」,以及時間 (Time) 與次數 (Times) 的屬性,甚至更有可能是一個 Vector (向量) 的指標,例如喜好、觀感等等,無論是可以量化或不能量化,這些都可以成為建立人與商品的「關連」。

    所有的資料探勘系統實作都是從這些資料做轉化,甚至是簡化,畢竟可以運算,以及算得出結果才是重點,甚至是能夠算給所有消費者顧客使用才是資料探勘的精隨。

    但有趣的事是很多實用的系統都很少是用單一方法去建構出來的,畢竟除了人的行為之外,商品有有幾個屬性:

  6. 商品本質、內容

  7. 商品描述 (meta-data) 與分類
  8. 最後才是商品的使用

    在還沒有 Semantic Web 之前, 我們能用的就是商品的使用,也就是我們使用者/消費者與商品/物品之間的關係,而在有了語意網路之後,我們就可以進一步的處理本質 (文化商品) 與描述了,只是在這之前還要有幾個前置作業。

  9. 會自動化新增關鍵字詞的表

  10. 會自動化連結出語意網路的表

    這兩個表若是可以扣掉前面「會自動化新增/連結」 的話,我相信很多人都有從很多單位去取得這樣的詞庫與關連庫,但在實務上我們有絕大部份的狀況都是在處理運算最新的商品或議題時,沒有一種機制能夠新增或更新的話,幾乎是不實用的。

    只是這新增/更新有時不見得是自動化,因為自動化是件相當困難的事,就我所知有不少在做這項業務的公司單位,用的就是「工人智慧」,而不是人工智慧,但無論如何,有了這兩個表之後,再加上從資料探勘能夠得知的:

  11. 關連分析 (一階, 或高階)

  12. 群落分析 (Clustering)
  13. 時間序列預測

    有了上面三個很基本的工具後,可以配合產出很多的可能性:

  14. 最常見的關連購買

  15. 在搜尋結果中做排序
  16. 從分類結果做語意分析產出因子
  17. 有了高階的關連分析可以透過配對做活動
  18. 從銷售預測中作備品或庫存準備
  19. 只要你想得到的

    當然上面說得很簡單,好像是三兩天就可以開發出來的東西,但事實上單單一個「會自動化連結出語意網路的表」,我記得當時就弄了兩三個月才弄出來,當然現在再弄一次就只須要兩三天到兩三個星期了,畢竟有經驗跟沒有經驗還是差很多的。

    記得我在 5 年多前寫過 Data Mining 是一個須要跟效率挑戰的高度技術的事,但現在的機器已經比 5 年前快 5 倍了,加上資料庫的多樣性,雲端系統的完善,讓寫這樣的系統跟之前簡單不只 5 倍,我在兩個月以前自己從無到有又自己跑一次,以前須要半年的現在只要半個多月就夠了,想想時代還真可怕阿。

    所以說,在這樣成熟的時機而言,導入真正的巨量資料探勘已經不是預算的問題,也不是技術的問題,而是心態的問題了,你準備好了嗎?

轉自[黑貘來說](http://gene.speaking.tw/2013/03/blog-post_20.html)
關鍵字: #大數據
往下滑看下一篇文章
明緯於 COMPUTEX 2026 展示新世代電源解決方案,聚焦高功率雙向電源、超薄型導軌電源與高效機殼型電源
明緯於 COMPUTEX 2026 展示新世代電源解決方案,聚焦高功率雙向電源、超薄型導軌電源與高效機殼型電源

全球標準電源領導品牌——明緯集團(MEAN WELL),將於2026年台北國際電腦展(COMPUTEX 2026)盛大展出最新電源解決方案,從傳統標準電源供應器邁向系統應用與能源管理解決方案。本次展出聚焦三大產品主軸與多產業應用解決方案,現場除了展出包括超薄型導軌電源 XDR 系列、高功率雙向電源 BIC-5K,以及高效小型機殼 NSP 系列等新產品,同時也一併以演示套件展出系統電源、工業自動化、智能燈控、能源管理等解決方案,全面對應儲能系統、智慧製造與綠能應用需求。展攤位於南港展覽館1館K0725a,誠摯邀請各界蒞臨參觀交流。

XDR 系列導軌電源:超薄設計兼具高效穩定,適用嚴苛工業環境

針對工業自動化與智慧製造需求,明緯推出 XDR 系列超薄型導軌電源。產品採用精巧設計,大幅節省空間,同時具備高效率與低功耗特性,支援全球輸入電壓範圍。XDR 系列可於高溫、高海拔等嚴苛環境下穩定運作,並支援彈性功率擴充,是工控系統與設備製造商的理想電源解決方案。

meanwell-1.jpg
XDR 導軌電源,超薄設計,專為嚴苛工業環境打造
圖/ 明緯企業股份有限公司

高功率雙向電源 BIC-5K:支援雙向能源轉換,強化儲能應用

隨著儲能系統快速發展及能源成本快速攀升,市場對高功率與雙向電源的需求日益增加。明緯推出的 BIC-5K 具備 AC ⇄DC 雙向能源轉換能力,可靈活支援充電與放電應用,並可透過多台並聯進行功率擴充,滿足高功率應用場景。

meanwell-2.jpg
BIC-5K 高功率饋網型雙向電源,靈活支援儲能與能量管理應用
圖/ 明緯企業股份有限公司

NSP 系列智慧電源:高效設計,拓展多元應用場域

在機殼型標準工業電源領域,明緯持續深化產品布局,NSP 系列此次進一步延伸至高功率段,推出新機種。相較既有世代產品,新系列在整體效能與設計上全面升級,兼顧效率表現與長時間運作的穩定性。透過更高的通用性與應用彈性,進一步拓展於工業、醫療、通訊及新能源等多元應用場域,並涵蓋多項安規需求。

meanwell-3.jpg
NSP 系列電源,具高效設計,廣泛應用於多元場域
圖/ 明緯企業股份有限公司

明緯表示,隨著能源轉型與產業升級,電源已不再只是單一供電元件,而是串聯整體系統運作的關鍵核心,未來將持續深化在高功率、智慧化與系統整合領域的布局,為客戶提供更完整且具前瞻性的電源解決方案,並透過多元應用展示,呈現電源於各類場域中的整合價值,同時誠摯邀請各界於 COMPUTEX 2026 展期間蒞臨明緯展位,深入了解最新產品與應用展示。


關於明緯集團

明緯(MEAN WELL)成立於1982年,是全球標準電源領導品牌。專注於提供高性價比、高產值效益、高附加價值的電源解決方案,涵蓋工業自動化、醫療設備、通訊、LED 照明等多個領域,廣泛應用於全球各地。2021年起創辦人將聯合國永續發展目標其中9項,融入到集團永續經營發展的藍圖當中。由40餘年耕耘有成的明緯集團做為堅實的基礎,串聯起聯源集團和協緯集團,再以明緯公益基金會做為價值核心,組建成SDG集團,目標為下一代建立更完美的環境盡一份心力。

更多資訊請參考
明緯集團: https://www.meanwell.com.tw/
明緯SDG集團官方網站: https://www.sdg-mps.com/

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
代理式商務連動百兆商機
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓