一個門外漢的資料科學學習之旅

shutterstock
很多人神化了資料科學,過度膨脹的謠傳和幻想,讓資料科學與普羅大眾之間築起了一道牢不可破的高牆。企業也擔心,如果現在不做資料科學的話,好像會被所謂的「大數據浪潮」吞噬。其實,資料科學只是一種用資料解決問題的方法罷了!

「嗯,就決定去試看看了!」那年大三,系上瀰漫著一股有意無意互相試探畢業專題指導教授的詭譎氛圍。

當時,我在偶然的機會下看到一則世界最大的超市集團沃爾瑪(Walmart)的網路文章。他們用資料探勘技術分析會員資料,偶然發現週五晚上男性的結帳清單中啤酒和尿布具有高度相關性,深入解析原因發現是因為年輕爸爸抓住到超市採購小朋友尿布的機會,順手拿了幾罐啤酒好迎接將到來的週末。

沃爾瑪於是調整商品陳列,將啤酒與尿布擺放在鄰近的位置,進而提升商品30%的銷售率。那是我第一次接觸到資料探勘這個名詞。就因為這樣?資料探勘?成長30%?我覺得很神奇。

於是在毫無任何先備知識的狀況下,硬著頭皮主動詢問教授能不能有機會執行相關主題?獲得同意後,我開始了人生的第一個資料科學相關實作。是的,毫無任何先備知識,沒有學過任何關於統計、機器學習的知識。

被神化而不得其門而入的資料科學

很多人神化了資料科學。過度膨脹的謠傳使得資料科學與普羅大眾之間築起了一道牢不可破的高牆。要不覺得非得要是程式天才或是數學神童,才算是真的有能力踏進資料科學領域,要不就是三不五時報章雜誌報導資料科學預測出誰會當選美國總統,或是機器學習和人工智慧又一次打敗人類棋王等等的新聞,而讓人產生一些半信半疑的幻想。

大家都在談,但卻沒有人真的知道它是什麼。我相信很多人腦海中曾經躍躍欲試想稍加了解,但卻又因為某種光怪陸離的說法讓資料科學在心裡慢慢變成比較接近玄學的不切實際,然後就漸漸演變為想接近卻又不得其門而入,望之卻步。

我想,只需要一點點好奇心跟傻勁就夠了。搜尋資料科學教學影片,或是瀏覽一個已經完成的競賽,看看別人的做法,然後找份資料動手試試看,幾十個、幾百個長度的小小資料,從Excel開始也無所謂。

因為,資料科學只是一種用資料解決問題的方法罷了!

我不是一個真的工程師。我把東西弄一弄,弄到能跑之後就不管了。真的工程師會說「這段程式能跑,但記憶體沒管理好,我們來修好它。」我只會說,一直重新開機不就好了。
PHP之父Rasmus Lerdorf

你很難想像這段話是出自世界上最頂尖的工程師之一:PHP之父Rasmus Lerdorf的嘴裡。但是資料科學也一樣,不用什麼天分或熱情,也同樣是可以學習的,並沒有想像中的難以接近。

從眾迷思的漩渦

「我不懂,所以資料科學到底能幫我們公司做些什麼,為什麼一定要資料科學?」

幾年後,在一家新創公司每月底的全公司例行分享會中,談到當時業界最火熱的資料科學話題,一個精通三國語言、承接海內外業務的產品經理問了這個問題。

「事情該發生,它就會發生,自然而然就會知道了。」印象中,我聽到公司的資料科學家是這麼回答的。

「我想,他的意思是當事情水到渠成時,該產生幫助時就會產生幫助,也非得一定要資料科學,而只是剛好被它實現。」看著那位產品經理仍一臉狐疑後,執行長補充道。

我知道會議結束後,那位產品經理仍然沒有真的理解他們的回答。

我確定我想舉起手補充一點什麼,但很意外的我語塞了,做過大大小小的專案,我一直以為我很清楚資料科學在做些什麼。

資料科學浪潮

進入資料科學領域的歷程似乎一切都來得太過自然。自然的就像企業間無不戰戰兢兢的爭相仿效,並大張旗鼓聲明要投資多少資金在資料科學領域一樣。沒有太多原因,只因為不做的話,好像會被所謂的「大數據浪潮」吞噬。

我試著從頭釐清我的學習歷程,給出一個能說服自己的說法。資料科學,必須建構在資料可以被輕鬆且大量存取的技術成熟之後。

受益於雲端化的普及,當今的企業幾乎都能輕鬆存取資料,而就因為資料夠多、夠齊全,我們便能試著從這些資料中,用一些科學化的方法去產生可以被公司利用的價值,進而將資料轉化為知識。

也許是預測公司下一季的財報,幫助財務部門編列預算。也許是分析生產線機台的工作數據,預測出未來一週內可能故障的機台,早一步檢修以降低產品良率不佳的風險。甚至是分析客戶資料,將不同特徵的客戶分類,並進一步針對不同分類的客戶給予適合的行銷手段等等。

當然,我絕對同意上述例子不見得需要資料科學也可以完成。資料科學,是一種透過資料為媒介,講求流程性與科學化的方法,進而輔助、驗證甚至主導所訂下的目標,讓目標的達成能更有效率且更準確。

「其實,資料科學只是一種讓公司的某些策略不全然只是依靠主觀意識判斷的方法而已,它一樣是一種提出問題、驗證問題進而解決問題的方法,和其他方法唯一的不同只是:它的載體可以是公司中的任何資料罷了!」我仔細的思考後給了自己這樣的答案。

那趟回家的路途,是踏實而滿足的。

本文為讀者投書,出自<一個門外漢的資料科學學習之旅>。

《數位時代》長期徵稿,針對時事科技議題,需要您的獨特觀點,歡迎各類專業人士來稿一起交流。投稿請寄edit@bnext.com.tw,文長800至1000字,兩天內會回覆是否採用,文章會經編輯潤飾,如需改標會與您討論。
延伸閱讀
資料科學
Data Science
「資料科學」指將大量資訊加以歸類、分析,並從中萃取出條理化的知識及未來洞見的跨學科領域,此名詞在1996年被國際分類聯盟 (IFCS) 正式採用。資料科學領域範圍甚廣,包含「人工智慧」、「統計學」、「資訊視覺化」等。在雲端運算和硬體迅速進步的現代,與大數據一同重新崛起。《哈佛商業評論》描述資料科學家為「21世紀最性感工作」,他們「懂得如何從眾多非結構化資訊,找到重要商業問題的答案」,是目前最炙手可熱的人才。 (來源: 台灣資料科學年會數位時代 )
PoWei Huang

從資訊工程背景接觸到資料探勘與資料工程,轉換到商業分析、資料科學與服務科學領域,遠大的目標是成為一個真正的資料科學家,但卻覺得用數據說話的時代仍然需要保有質性的觀察來發現更多洞見,才能透過資料發揮能被「人」所需要的價值。

追蹤我們