【黑貘來說】 挖掘巨量資料的秘密步驟
【黑貘來說】 挖掘巨量資料的秘密步驟
2013.03.26 | 創業

現在已經有太多的報導說某某公司利用使用者的行為記錄,來算出每一個人的喜好,並且導出商機等等新聞到處可見,但我相信大家看再多次,不是覺得這樣會不會太可怕了?不然就是這好厲害阿!這兩種答案,不然就是兩種都有。

但事實上這件事並不神奇或可怕,會覺得這樣是因為大部份的人不知道怎麼做,或者是說這能夠做甚麼,若是你知道後,發現這跟本只是個套來套去經過計算的結果,甚至在某方面你用手來算都可以,只是不一樣的是人只能處理少量資料,而電腦可以處理巨量資料,當很多事情會有量變產生質變的時候,威力就在此顯現,但這些步驟,說穿了一點都不聰明,甚至還非常的機械化的制式。

當然我不是很好的深入淺出的作者,所以沒辦法寫給大多數的讀者看,而是寫給已經有一點實務經驗的人,尤其是程式設計師或資料庫管理師等工程師,但若沒有這技術背景,我相信做這樣的拆解,可以讓大家從一知半解變成知道個大概,而透過這樣的了解,讓大家有機會去應用是我寫這幾篇的目的。

只是還有一個前提,就是我不會在這邊寫資料探勘的基礎,也就是說,「請先去看本資料探勘的書」,再來看下面幾篇文章吧。

目標:能夠知道某個特定人喜歡甚麼東西,購買每一個商品的機率,或者是說我們該如何推薦商品給他,以及知道他喜歡這商品的原因?

人與商品之間的行為有下面幾種:

  1. 瀏灠
  2. 放入清單
  3. 購買
  4. 評價或評論
  5. 其他

    上面每一種行為都有其數量化的差異,有些是一年幾次,幾十次或到幾百次或更多,而每一個行為都可能有個 「權重 (Weight)」,以及時間 (Time) 與次數 (Times) 的屬性,甚至更有可能是一個 Vector (向量) 的指標,例如喜好、觀感等等,無論是可以量化或不能量化,這些都可以成為建立人與商品的「關連」。

    所有的資料探勘系統實作都是從這些資料做轉化,甚至是簡化,畢竟可以運算,以及算得出結果才是重點,甚至是能夠算給所有消費者顧客使用才是資料探勘的精隨。

    但有趣的事是很多實用的系統都很少是用單一方法去建構出來的,畢竟除了人的行為之外,商品有有幾個屬性:

  6. 商品本質、內容

  7. 商品描述 (meta-data) 與分類
  8. 最後才是商品的使用

    在還沒有 Semantic Web 之前, 我們能用的就是商品的使用,也就是我們使用者/消費者與商品/物品之間的關係,而在有了語意網路之後,我們就可以進一步的處理本質 (文化商品) 與描述了,只是在這之前還要有幾個前置作業。

  9. 會自動化新增關鍵字詞的表

  10. 會自動化連結出語意網路的表

    這兩個表若是可以扣掉前面「會自動化新增/連結」 的話,我相信很多人都有從很多單位去取得這樣的詞庫與關連庫,但在實務上我們有絕大部份的狀況都是在處理運算最新的商品或議題時,沒有一種機制能夠新增或更新的話,幾乎是不實用的。

    只是這新增/更新有時不見得是自動化,因為自動化是件相當困難的事,就我所知有不少在做這項業務的公司單位,用的就是「工人智慧」,而不是人工智慧,但無論如何,有了這兩個表之後,再加上從資料探勘能夠得知的:

  11. 關連分析 (一階, 或高階)

  12. 群落分析 (Clustering)
  13. 時間序列預測

    有了上面三個很基本的工具後,可以配合產出很多的可能性:

  14. 最常見的關連購買

  15. 在搜尋結果中做排序
  16. 從分類結果做語意分析產出因子
  17. 有了高階的關連分析可以透過配對做活動
  18. 從銷售預測中作備品或庫存準備
  19. 只要你想得到的

    當然上面說得很簡單,好像是三兩天就可以開發出來的東西,但事實上單單一個「會自動化連結出語意網路的表」,我記得當時就弄了兩三個月才弄出來,當然現在再弄一次就只須要兩三天到兩三個星期了,畢竟有經驗跟沒有經驗還是差很多的。

    記得我在 5 年多前寫過 Data Mining 是一個須要跟效率挑戰的高度技術的事,但現在的機器已經比 5 年前快 5 倍了,加上資料庫的多樣性,雲端系統的完善,讓寫這樣的系統跟之前簡單不只 5 倍,我在兩個月以前自己從無到有又自己跑一次,以前須要半年的現在只要半個多月就夠了,想想時代還真可怕阿。

    所以說,在這樣成熟的時機而言,導入真正的巨量資料探勘已經不是預算的問題,也不是技術的問題,而是心態的問題了,你準備好了嗎?

轉自[黑貘來說](http://gene.speaking.tw/2013/03/blog-post_20.html)
關鍵字: #大數據
往下滑看下一篇文章
從新零售到新商務,騰雲科技以兩大策略打造新世代成長引擎
從新零售到新商務,騰雲科技以兩大策略打造新世代成長引擎

騰雲科技持續展現強勁成長,不僅連續五年維持雙位數的營收增幅,更於 2025 年前三季累計營收來到 5.47 億元、淨利 1.03 億元,年成長率高達 67%,顯示騰雲科技已從智慧零售解決方案供應商擴展成為智慧社區、智慧城市解決方案供應商,並持續發揮高毛利、高成長、以智慧場域資料為核心驅動的代理式 AI 解決方案全方位供應商。

騰雲科技是怎麼辦到的?

騰雲科技董事長暨總經理梁基文不藏私分享兩大關鍵:「首先是以 AI 賦能的產品與服務,協助客戶提升效率、優化營收;其次是透過騰雲孵化器與其生態系中新創夥伴協作,打造零售、不動產、製造與數位保險等產業所需的新商務服務。」

以 AI 賦能全產品線,強化客戶黏著度、深化長期關係

梁基文表示:「AI 不是單一產品或立即變現的技術,要能有效消除資訊不對等,需協助企業先將散落的資料整合成數據資產,才能找出能驅動決策的洞察。」因此,要讓 AI 真正落地,需要同時理解產業現況與營運痛點的夥伴,才能把技術與數據轉化為具體價值,成為企業成長的新引擎。

有鑑於此,騰雲科技的策略是推出 AI Agent 平台 –TrendVotex,由深耕百貨零售、商業不動產等產業的專業團隊協助打造符合場景需求的 AI 代理服務。

例如,為百貨零售打造的「AI 品牌行銷專家」透過市場輿論進行趨勢及同業動態分析、以口碑行銷進行品牌塑造、針對會員數據進行自動化文案生成及傳播、針對行銷成果進行效益分析等自動化決策,「AI 招商助理」則能整合商圈熱度、樓層營運狀態等資訊,提出精準的櫃位調整與招商策略。至於針對複合式商業不動產管理場景推出「AI 能源智慧管理」服務,導入 AIoT 終端裝置佈署並運用其感測數據與歷史異常紀錄,預測設備故障風險,協助排程維修,降低停機時間,大幅提升營運績效。

梁基文補充說明:「除了協助企業打造專屬 AI 代理與串接代理式工作流程(Agentic Workflow),我們也推出 Marketing、Content、Sales、Manufacturing 等跨產業可重複使用的 AI 代理模組,加速零售、不動產、製造、旅遊與數位保險服務等產業的導入腳步。」

值得注意的是,為真正發揮、極大化 AI 價值,騰雲科技不僅提供技術,也協助企業梳理流程、整合分散數據,打造可支撐多場景的數據驅動營運中台。

梁基文表示,不只零售業正加速虛實通路整合,製造與金融服務業也十分重視「全通路數據」,例如製造業需要即時掌握生產過程關鍵數據指標與庫存狀況以確保良率及產能、數位保險業則積極深化對顧客旅程的掌握以完善服務能量等,騰雲科技推出「隨開即用」、雲地整合的 AI 平台,讓企業能在多場景中無縫串接數據並兼顧資訊安全,充分展現「From Insight to Intelligence」價值。

例如,協助數位保險整合顧客的「線上資料(如客戶資料、風險判斷」與「線下數據(如客戶活動數據、場域營運數據)」,透過 AI 進行產品推薦、簡化內部核保作業流程,並提供更加順暢的一致體驗,讓保險也能像零售一樣真正做到懂顧客。

「接下來,我們會把在百貨零售與商業不動產驗證過的技術,進一步擴大到製造、數位保險等產業,讓價值放到最大。」梁基文如是說道。

騰雲科技
騰雲科技董事長暨總經理梁基文
圖/ 數位時代

五大技術、四大產業,騰雲科技以孵化器成就下一個十年

梁基文表示:「過去 10 年,我們專注在『新零售・新生活』;接下來將延伸至『新商務・新生活』,透過收購、合資、投資等方式與外部夥伴共創新的成長動能。」

具體做法是以 ABCDE(AI、Blockchain、Cloud、Data、Experience)五大技術為核心,鎖定零售、不動產、製造與金融服務四大產業,透過外部合作與孵化機制強化解決方案的廣度與深度:整合現場設備、門市裝置、POS、排隊系統、取貨流程、感測器與後勤運作,推出 AIoT 智慧場域管理方案,滿足跨場域、跨產業與跨國企業的需求。

例如,協助泰國五星級酒店導入 AIoT 智慧場域管理方案以優化能源設備管理、降低營運成本並提升使用者體驗等。明(2026)年,騰雲科技計畫將 AIoT 智慧場域管理方案推向製造業廠房,協助客戶管理冷氣、燈光等能源設備並進行碳管理,同時,透過監控產線設備的振動與溫度等數據,提供 AI 預判的設備維修時機(Preventive Maintenance),擴大數位與綠色雙軸轉型的綜效。

除以集團力量推廣 AIoT 智慧場域管理方案,騰雲科技亦積極擴大相應的生態體系發展:首先是與跨業夥伴一同延伸 AIoT 智慧場域管理方案 的應用範疇,如與保險業者合資成立數位保險公司以提供 AI-Ready 數位應用方案;其次是建立消費者生態體系以發揮「新商務‧新生活」的相互影響綜效。例如,騰雲科技子公司騰加數位將擴大 AIoT 平台運營版圖,深入零售、商辦與飯店等多元場景,並以此為載體整合數位支付、會員數據與數位內容傳播等應用,藉此強化場域的智慧化能力,以及拓展騰雲解決方案的落地深度與廣度。

「透過 AIoT 智慧場域管理方案、營運中台與 TrendVotex 等產品與服務,我們不僅能更精準回應台灣、日本與東南亞市場在流程自動化、營運效率提升上的需求,也能同步改善大眾的日常體驗,真正落實『新商務・新生活』的共好價值。」關於未來的發展,梁基文如是總結。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓