【黑貘來說】 挖掘巨量資料的秘密步驟
【黑貘來說】 挖掘巨量資料的秘密步驟
2013.03.26 | 創業

現在已經有太多的報導說某某公司利用使用者的行為記錄,來算出每一個人的喜好,並且導出商機等等新聞到處可見,但我相信大家看再多次,不是覺得這樣會不會太可怕了?不然就是這好厲害阿!這兩種答案,不然就是兩種都有。

但事實上這件事並不神奇或可怕,會覺得這樣是因為大部份的人不知道怎麼做,或者是說這能夠做甚麼,若是你知道後,發現這跟本只是個套來套去經過計算的結果,甚至在某方面你用手來算都可以,只是不一樣的是人只能處理少量資料,而電腦可以處理巨量資料,當很多事情會有量變產生質變的時候,威力就在此顯現,但這些步驟,說穿了一點都不聰明,甚至還非常的機械化的制式。

當然我不是很好的深入淺出的作者,所以沒辦法寫給大多數的讀者看,而是寫給已經有一點實務經驗的人,尤其是程式設計師或資料庫管理師等工程師,但若沒有這技術背景,我相信做這樣的拆解,可以讓大家從一知半解變成知道個大概,而透過這樣的了解,讓大家有機會去應用是我寫這幾篇的目的。

只是還有一個前提,就是我不會在這邊寫資料探勘的基礎,也就是說,「請先去看本資料探勘的書」,再來看下面幾篇文章吧。

目標:能夠知道某個特定人喜歡甚麼東西,購買每一個商品的機率,或者是說我們該如何推薦商品給他,以及知道他喜歡這商品的原因?

人與商品之間的行為有下面幾種:

  1. 瀏灠
  2. 放入清單
  3. 購買
  4. 評價或評論
  5. 其他

    上面每一種行為都有其數量化的差異,有些是一年幾次,幾十次或到幾百次或更多,而每一個行為都可能有個 「權重 (Weight)」,以及時間 (Time) 與次數 (Times) 的屬性,甚至更有可能是一個 Vector (向量) 的指標,例如喜好、觀感等等,無論是可以量化或不能量化,這些都可以成為建立人與商品的「關連」。

    所有的資料探勘系統實作都是從這些資料做轉化,甚至是簡化,畢竟可以運算,以及算得出結果才是重點,甚至是能夠算給所有消費者顧客使用才是資料探勘的精隨。

    但有趣的事是很多實用的系統都很少是用單一方法去建構出來的,畢竟除了人的行為之外,商品有有幾個屬性:

  6. 商品本質、內容

  7. 商品描述 (meta-data) 與分類
  8. 最後才是商品的使用

    在還沒有 Semantic Web 之前, 我們能用的就是商品的使用,也就是我們使用者/消費者與商品/物品之間的關係,而在有了語意網路之後,我們就可以進一步的處理本質 (文化商品) 與描述了,只是在這之前還要有幾個前置作業。

  9. 會自動化新增關鍵字詞的表

  10. 會自動化連結出語意網路的表

    這兩個表若是可以扣掉前面「會自動化新增/連結」 的話,我相信很多人都有從很多單位去取得這樣的詞庫與關連庫,但在實務上我們有絕大部份的狀況都是在處理運算最新的商品或議題時,沒有一種機制能夠新增或更新的話,幾乎是不實用的。

    只是這新增/更新有時不見得是自動化,因為自動化是件相當困難的事,就我所知有不少在做這項業務的公司單位,用的就是「工人智慧」,而不是人工智慧,但無論如何,有了這兩個表之後,再加上從資料探勘能夠得知的:

  11. 關連分析 (一階, 或高階)

  12. 群落分析 (Clustering)
  13. 時間序列預測

    有了上面三個很基本的工具後,可以配合產出很多的可能性:

  14. 最常見的關連購買

  15. 在搜尋結果中做排序
  16. 從分類結果做語意分析產出因子
  17. 有了高階的關連分析可以透過配對做活動
  18. 從銷售預測中作備品或庫存準備
  19. 只要你想得到的

    當然上面說得很簡單,好像是三兩天就可以開發出來的東西,但事實上單單一個「會自動化連結出語意網路的表」,我記得當時就弄了兩三個月才弄出來,當然現在再弄一次就只須要兩三天到兩三個星期了,畢竟有經驗跟沒有經驗還是差很多的。

    記得我在 5 年多前寫過 Data Mining 是一個須要跟效率挑戰的高度技術的事,但現在的機器已經比 5 年前快 5 倍了,加上資料庫的多樣性,雲端系統的完善,讓寫這樣的系統跟之前簡單不只 5 倍,我在兩個月以前自己從無到有又自己跑一次,以前須要半年的現在只要半個多月就夠了,想想時代還真可怕阿。

    所以說,在這樣成熟的時機而言,導入真正的巨量資料探勘已經不是預算的問題,也不是技術的問題,而是心態的問題了,你準備好了嗎?

轉自[黑貘來說](http://gene.speaking.tw/2013/03/blog-post_20.html)
關鍵字: #大數據
往下滑看下一篇文章
以AI主動防禦資安風險,中華電信為臺灣企業建構韌性防護網
以AI主動防禦資安風險,中華電信為臺灣企業建構韌性防護網

中華電信以「事前防禦、事中偵測、事後應變與復原」為治理框架,導入AI智能偵測與威脅情資整合,協助企業從「被動防禦」邁向「主動風險管理」,建構具韌性、可持續優化的數位營運模式,真正落實「用AI守護因AI而生的新型威脅」。

根據《 iThome 2025 企業資安大調查 》,逾六成企業最憂心「網路釣魚與社交工程攻擊」,其次是「資安漏洞濫用」與「勒索軟體」。值得關注的是,「深偽技術(Deepfake)」首次躍升至前五大威脅,顯示 AI 驅動的詐騙手法,正加速改寫威脅樣貌。

Deepfake 技術能在短時間內迅速複製企業官網、偽造 App 與客服情境,若企業缺乏即時偵測與阻斷能力,假網站與假訊息將在市場中擴散,品牌信任也會在不知不覺中逐漸流失,企業風險隨之升高。

以近期國際案例為例,駭客利用 Deepfake 技術假冒跨國企業高階主管,發起多人視訊會議。會議中,無論臉孔或聲音都與平日共事的主管與財務同仁無異,使員工卸下心防,依指示分 15 次轉帳,最終匯出約新臺幣 8 億元至五個帳戶,直到事後向總公司求證才驚覺受騙。

這類攻擊不再只是偽造「訊息」或「釣魚連結」,而是直接偽冒「人」,顛覆了過去「看得到人就比較安全」的信任機制。

面對 AI 帶來的新型態攻擊,中華電信率先將資安防禦從「被動偵測」升級為「AI 主動風險管理」。在穩固既有 IT 基礎設施與資安控管的前提下,進一步強化 AI 模型、資料與應用情境,防止新技術反成為新的攻擊面。

中華電信攜手 5A 級資安服務商—中華資安國際,共同打造專為 AI 資安事件應變整合框架,將主動風險控管與情資驅動的事件處置,收斂為「準備、偵測與分析、圍堵與復原、事後改善與韌性強化」四大階段。透過持續回饋的循環機制,將每一次事件處理經驗轉化為規則與流程優化,AI 資安防禦能力在實戰中不斷進化,從單純成本投入,升級為支持 AI 創新與全球佈局的底層能力。

中華電信企業客戶分公司副總經理梁冠雄指出:「過去駭客入侵多半被視為系統中斷風險,如今已演變為營運中斷、供應鏈斷鏈,甚至品牌信任崩解的治理風險,這也意味著,資安不再只是技術防禦,而必須結合 AI、法遵與營運管理,躍升為企業策略與治理的核心課題。」

串聯 AI、供應鏈、法規遵循與 ESG,重塑資安治理新格局

在數位轉型與 AI 浪潮下,資安已從「技術部署」躍升為「治理與風險管理」核心。面對高度連動的全球環境,企業不僅要符合法規要求,更需強化供應鏈韌性、完善 AI 風險控管,並將 ESG 原則納入整體架構,讓資安成為驅動長期競爭力與永續價值的基石。

AI 風險防護

生成式 AI 帶來效率與創新,同時放大「深偽詐騙」與「資料洩漏/資料中毒(Data Poisoning)」等新型風險。當資料來源或模型安全性不足時,模型可能遭惡意操弄,敏感資訊也更易在無形中外洩,對營運與信任造成長期衝擊。

中華電信以前瞻視野打造 AI 驅動智慧防禦機制:

  • 結合海量威脅情資與惡意網域黑名單,訓練偵測模型,辨識異常連線行為、可疑網域與仿冒官網;

  • 透過 AI 自動化分析與防禦引擎,建置即時學習、主動預警的防護系統,縮短從威脅出現到被偵測、阻斷之間的時間差。

這不僅是防禦技術的升級,更象徵企業在「創新速度」、「營運效率」與「風險控管」之間取得平衡,落實「以 AI 守護 AI」的防禦典範。

供應鏈安全

在地緣政治升溫、極端氣候加劇與新興技術快速發展的多重壓力下,供應鏈風險已成為影響企業穩定營運的重要變數。世界經濟論壇(World Economic Forum,WEF)提出,供應鏈韌性應具備「5R」特性:抗性(Robustness)、備載能力(Redundancy)、彈性調適能力(Resourcefulness)、即時回應能力(Response)與復原力(Recovery),不僅強調抵抗突發事件,更重視在衝擊發生後仍能迅速回到軌道。

在此前提下,任一節點的資安漏洞,都可能引發連鎖中斷與市場信任崩解。

中華電信順應此趨勢,推出「曝險評級資安眼」,以外部駭客視角掌握企業與關鍵供應商的曝險程度:

  • 透過量化評級與弱點項目,協助企業辨識高風險節點與修補優先順序。

  • 促進供應鏈上下游以客觀數據展開對話,落實跨產業互信共防。

  • 讓資安不再只是單點設備防護,而是成為支撐供應鏈韌性的底層工程。

ESG 與法規遵循

隨著國際監管標準持續升高、永續發展成為主流共識,資安已是企業連結國際市場、維繫競爭力的基本門票。從資料保護、營運透明度與風險揭露,相關要求正推動企業在法規遵循上的門檻不斷提升。

中華電信協助企業以合理成本強化制度與流程設計,將資安投入轉化為可長期累積的品牌信任資產。資安投入不僅是營運防護,更代表對員工、客戶與社會的責任實踐。將資安深度納入 ESG 架構,讓穩健的數位韌性成為支撐永續競爭力的關鍵底盤。

梁冠雄指出:「隨著 AI 深入各產業脈動,資安風險已超越技術範疇,成為企業永續發展的關鍵課題。資訊安全不再只是後端防線,而是強化組織韌性、驅動創新的核心引擎。面對監管日益嚴謹、供應鏈緊密連動與科技迭代加速,企業唯有自我強化、穩定升級,方能在轉型浪潮中掌握主導權,讓資安成為擘劃未來的重要佈局。」

中華電信
資安不僅是營運防護的議題,中華電信企業客戶分公司副總經理梁冠雄,從AI浪潮、法遵、ESG等不同面向剖析中華電信如何以穩健的數位韌性驅動永續競爭力。
圖/ 中華電信

三道防線,為中小企業建構可持續優化的安全防禦線

「安全」已是企業營運的底線,多數中小企業受限於預算、專職人力與資安意識落差,往往成為駭客鎖定的首要目標。根據內政部警政署 165 打詐儀表板統計,2025 年 1 至 11 月受理之詐欺案件主要類型包括釣魚連結、假投資網站與社交工程攻擊。這些統計數據背後,是許多因假網站、假訊息、假客服而受害的個人與企業,更凸顯企業亟需持續優化的防禦機制。

面對不斷升級的攻擊手法,中華電信將 AI 主動風險管理落實為「三道防線」服務架構,協助中小企業以合理成本導入國際級防禦能力:

  • 事前防禦:透過「曝險評級資安眼」服務,以駭客視角盤點外部弱點,並導入 AI 助手提供風險判讀與修補優先級建議,快速識別高風險節點,縮短補強決策時間,落實安全與合規。

  • 事中偵測:藉由「企業輕鬆防駭包」與「ANDs 先進網路防禦系統」(Advanced Networks Defense System),結合 AI 模型與威脅情資資料庫,主動偵測並攔阻釣魚網站、及 Deepfake 詐騙常用惡意網域,讓多數詐騙連結與社交工程攻擊在使用者點擊前或連線當下即被過濾,降低受騙風險與潛在財損。

  • 事後應變與復原:事件發生後,能快速釐清影響範圍與入侵路徑,啟動修復與復原計畫,縮短營運中斷時間,將財務衝擊與信任損失降到最低。

以新竹某科學主題樂園為例,過去園區每天需處理上百通資安示警訊息,不僅耗時費力,也影響團隊專注於顧客體驗與營運創新。導入中華電信資安解決方案後,異常通報量大幅下降,企業能將更多心力投入核心業務,真正實現「資安與營運並行」。

梁冠雄表示:「資訊安全是一場永不止息的攻防。中華電信持續推動 AI 偵測模型與威脅情資共享,並深化產學研交流,將國際級資安解決方案以合理成本落地臺灣,協助中小企業建立多層次防護與可持續優化的防禦能力,成為提升資安成熟度、累積長期韌性的關鍵夥伴。」

中華電信
中華電信企業資安服務/產品列表 以全方位資訊安全服務體系,打造企業建立穩健防護環境,強化營運效能。
圖/ 中華電信

中華電信秉持「永遠走在最前面」核心理念,聚焦「數位韌性、智慧驅動、永續未來」三大策略,打造貫穿事前防禦、事中偵測與事後應變與復原的資安韌性體系,讓資安不再只是成本,而是推動臺灣企業持續創新與提升競爭力的關鍵力量。

備註來源網站:

詐騙集團利用 Deepfake 冒充總部財務長犯案,香港跨國企業被騙匯出超過 2500 萬美元

世界經濟論壇(WEF)「5R 韌性供應鏈」框架

世界經濟論壇(WEF)提出的「韌性供應鏈」5R特性是什麼? | AIGC

內政部警政署「165 打詐儀表板」

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓