【黑貘來說】 挖掘巨量資料的秘密步驟
【黑貘來說】 挖掘巨量資料的秘密步驟
2013.03.26 | 創業

現在已經有太多的報導說某某公司利用使用者的行為記錄,來算出每一個人的喜好,並且導出商機等等新聞到處可見,但我相信大家看再多次,不是覺得這樣會不會太可怕了?不然就是這好厲害阿!這兩種答案,不然就是兩種都有。

但事實上這件事並不神奇或可怕,會覺得這樣是因為大部份的人不知道怎麼做,或者是說這能夠做甚麼,若是你知道後,發現這跟本只是個套來套去經過計算的結果,甚至在某方面你用手來算都可以,只是不一樣的是人只能處理少量資料,而電腦可以處理巨量資料,當很多事情會有量變產生質變的時候,威力就在此顯現,但這些步驟,說穿了一點都不聰明,甚至還非常的機械化的制式。

當然我不是很好的深入淺出的作者,所以沒辦法寫給大多數的讀者看,而是寫給已經有一點實務經驗的人,尤其是程式設計師或資料庫管理師等工程師,但若沒有這技術背景,我相信做這樣的拆解,可以讓大家從一知半解變成知道個大概,而透過這樣的了解,讓大家有機會去應用是我寫這幾篇的目的。

只是還有一個前提,就是我不會在這邊寫資料探勘的基礎,也就是說,「請先去看本資料探勘的書」,再來看下面幾篇文章吧。

目標:能夠知道某個特定人喜歡甚麼東西,購買每一個商品的機率,或者是說我們該如何推薦商品給他,以及知道他喜歡這商品的原因?

人與商品之間的行為有下面幾種:

  1. 瀏灠
  2. 放入清單
  3. 購買
  4. 評價或評論
  5. 其他

    上面每一種行為都有其數量化的差異,有些是一年幾次,幾十次或到幾百次或更多,而每一個行為都可能有個 「權重 (Weight)」,以及時間 (Time) 與次數 (Times) 的屬性,甚至更有可能是一個 Vector (向量) 的指標,例如喜好、觀感等等,無論是可以量化或不能量化,這些都可以成為建立人與商品的「關連」。

    所有的資料探勘系統實作都是從這些資料做轉化,甚至是簡化,畢竟可以運算,以及算得出結果才是重點,甚至是能夠算給所有消費者顧客使用才是資料探勘的精隨。

    但有趣的事是很多實用的系統都很少是用單一方法去建構出來的,畢竟除了人的行為之外,商品有有幾個屬性:

  6. 商品本質、內容

  7. 商品描述 (meta-data) 與分類
  8. 最後才是商品的使用

    在還沒有 Semantic Web 之前, 我們能用的就是商品的使用,也就是我們使用者/消費者與商品/物品之間的關係,而在有了語意網路之後,我們就可以進一步的處理本質 (文化商品) 與描述了,只是在這之前還要有幾個前置作業。

  9. 會自動化新增關鍵字詞的表

  10. 會自動化連結出語意網路的表

    這兩個表若是可以扣掉前面「會自動化新增/連結」 的話,我相信很多人都有從很多單位去取得這樣的詞庫與關連庫,但在實務上我們有絕大部份的狀況都是在處理運算最新的商品或議題時,沒有一種機制能夠新增或更新的話,幾乎是不實用的。

    只是這新增/更新有時不見得是自動化,因為自動化是件相當困難的事,就我所知有不少在做這項業務的公司單位,用的就是「工人智慧」,而不是人工智慧,但無論如何,有了這兩個表之後,再加上從資料探勘能夠得知的:

  11. 關連分析 (一階, 或高階)

  12. 群落分析 (Clustering)
  13. 時間序列預測

    有了上面三個很基本的工具後,可以配合產出很多的可能性:

  14. 最常見的關連購買

  15. 在搜尋結果中做排序
  16. 從分類結果做語意分析產出因子
  17. 有了高階的關連分析可以透過配對做活動
  18. 從銷售預測中作備品或庫存準備
  19. 只要你想得到的

    當然上面說得很簡單,好像是三兩天就可以開發出來的東西,但事實上單單一個「會自動化連結出語意網路的表」,我記得當時就弄了兩三個月才弄出來,當然現在再弄一次就只須要兩三天到兩三個星期了,畢竟有經驗跟沒有經驗還是差很多的。

    記得我在 5 年多前寫過 Data Mining 是一個須要跟效率挑戰的高度技術的事,但現在的機器已經比 5 年前快 5 倍了,加上資料庫的多樣性,雲端系統的完善,讓寫這樣的系統跟之前簡單不只 5 倍,我在兩個月以前自己從無到有又自己跑一次,以前須要半年的現在只要半個多月就夠了,想想時代還真可怕阿。

    所以說,在這樣成熟的時機而言,導入真正的巨量資料探勘已經不是預算的問題,也不是技術的問題,而是心態的問題了,你準備好了嗎?

轉自[黑貘來說](http://gene.speaking.tw/2013/03/blog-post_20.html)
關鍵字: #大數據
往下滑看下一篇文章
總統科學獎揭曉!梁賡義院士、葉均蔚院士用創新與堅持,寫下臺灣科學光輝新頁
總統科學獎揭曉!梁賡義院士、葉均蔚院士用創新與堅持,寫下臺灣科學光輝新頁

【總統科學獎】宗旨在於提升臺灣在國際學術界之地位,獎勵數理科學、生命科學、人文及社會科學、工程科學在國際學術研究上具創新性且貢獻卓著之學者,尤以對臺灣社會有重大貢獻之基礎學術研究人才為優先獎勵對象。

2025年11月11日,總統科學獎頒獎典禮於總統府正式舉行。2001年設立、每2年頒發1次的總統科學獎,今年已邁入第13屆,本屆的2位獲獎者,分別是生命科學組的院士梁賡義、工程科學組的院士葉均蔚。2位臺灣的科研泰斗,不僅全心全意投入創新,更樹立了典範,成為所有科研人員的榜樣。

總統賴清德在致詞時,引用諾貝爾和平獎得主曼德拉(Nelson Mandela)的話指出:「在事情完成之前,一切都看似不可能。這說明了2位院士的故事,他們對未知世界保持熱情、好奇,認真從基礎研究做起,並堅持努力到最後一刻,成功終將屬於他們。」

2025年總統科學獎得主,生命科學組 梁賡義 院士(右)、工程科學組 葉均蔚 院士(左)。
2025年總統科學獎得主,生命科學組 梁賡義 院士(右)、工程科學組 葉均蔚 院士(左)。
圖/ 數位時代

梁院士開創廣義估計方程式 ,加速新藥問世,造福千萬病患

從數學跨足生物統計、再投身高等教育與國家衛生的梁院士,從小就喜歡數學的嚴謹,在美國華盛頓大學攻讀博士期間,因為接觸到當時炙手可熱的「存活分析」,進而對生物統計產生興趣,「投入『生物統計』是條不歸路,因為我發現,統計工具的發展,可以對人類健康有間接幫助。」後來,他前往美國約翰霍普金斯大學任教,又與同事Scott Zeger研發出新的統計方法「廣義估計方程式」,突破了傳統分析方法必須假設所有樣本獨立的侷限,讓長期追蹤資料的解讀更嚴謹,也成為全球健康研究不可或缺的工具。

梁院士研究做得出色,卻不只將心力擺在學術上,他更心心念念著臺灣的發展,持續關心高等教育、國家衛生等領域。他在美國任教的28年間,幾乎年年暑假,都返國舉辦研討會,分享國際生物統計和流行病學的新知。2010年,他乾脆辭去教職,回臺擔任國立陽明大學校長,將陽明大學打造成醫學、人文並重的全人大學。

數位時代
賴總統親自頒發「2025年總統科學獎」殊榮予梁院士。
圖/ 數位時代

2017年,他又接下國家衛生研究院院長一職,並在新冠肺炎爆發期間,擔任中央流行疫情指揮中心研發組組長,與阿斯特捷利康(AstraZeneca)簽約,採購1千萬劑疫苗,完成防疫任務,「所以獲得總統科學獎,不僅是個人的榮耀,更是國家對全人教育的推動、公共衛生實踐,以及任務導向的研究重要性的肯定。能在其中有一些貢獻,我深感榮幸。」

高熵合金之父葉院士,堅持不懈打破材料學定律

被譽為「高熵合金之父」的葉院士,打破材料學界以1~2種主元素為基底的傳統,開創出能讓數十種元素混合的「高熵合金」,為元素週期表注入嶄新生命力,在半導體、智慧機械、綠能科技、國防與生醫等領域帶來突破性的應用。過去合金多以單一金屬為主,再加入少量元素微調性質,金屬種類愈多反而愈脆、延展性與硬度下降,使應用受限;然而高熵合金卻反其道而行,以4、5種以上金屬融合,展現出更佳的延展性、耐腐蝕性與硬度,重新定義合金的可能性。

令人驚訝的是,30年前葉院士提出高熵合金構想時,曾被質疑「觀念錯誤、毫無可能」。他不畏質疑,透過紮實的實驗與論證,於2004年一口氣發表5篇高熵材料論文,為高熵合金命名、定義並奠定理論基礎,後續更平均每年發表逾10篇研究,提出高熵效應、嚴重晶格扭曲效應、緩慢擴散效應與雞尾酒效應等核心概念,開創全新的材料科學典範。

數位時代
賴總統親自頒發「2025年總統科學獎」殊榮予葉院士。
圖/ 數位時代

如今,高熵合金不只在學界掀起熱潮,更成功落地產業。「學以致用非常重要!」葉院士強調,學術研究不該停留在象牙塔,而應投入產業、協助解決關鍵瓶頸。他不僅與國立清華大學共同成立「高熵材料研發中心」,也創辦全球首家高熵材料公司,推動技術轉移與產業升級,讓高熵合金真正走向世界舞臺。

所有總統科學獎得獎人的科學成就及重要貢獻,不僅提升臺灣學術聲譽及國際競爭力,對於增進人類生活福祉更有深遠的影響,實為臺灣學術界的最高典範。而本屆梁院士、葉院士2位得獎人終身投入科學探索、人才培育的成果,嘉惠了整個社會,更成就跨世代的深遠影響,為臺灣科學寫下光輝一頁。

【總統科學獎委員會 廣告】

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓