大數據會消失,資料科學不會!你該知道的資料科學第一堂課

「千萬不要讓大數據變玄學,他不是魔術,他不玄、他有用。」台灣資料科學協會理事長陳昇瑋在7月14日起登場的2016年台灣資料科學愛好者年會上這麼說道。

圖說明
(圖說:第三年舉辦的台灣資料科學愛好者年會於7月14~17日在中央研究院盛大展開,今年邀請來自各領域的50多位資料科學家,進行共43場演講,吸引超過1700人報名。照片來源:台灣資料科學愛好者年會。)

陳昇瑋認為,這幾年所有媒體都在講大數據,台灣資料科學協會也在三年前開始積極推廣資料科學(Data Science)概念。為什麼當初年會名稱不選擇正當紅的「大數據」一詞?「我們相信大數據這個詞最終會消失,就像現在沒有人在講彩色電視機,因為已經幾乎沒有黑白的電視機;我們現在講手機,也不強調是『智慧型』手機。未來如果所有的工具都是大數據,你就不會特別提,但Data Science是不會消失的。」

圖說明
(圖說:資料科學涉及非常多種技術/取自講者PPT)

回到資料科學(Data Science)身上,陳昇瑋說,資料科學沒有很神奇,它也是一種科學。你得先觀察資料,提出你的假設,然後再去驗證結果。關鍵因素是什麼?不管你在什麼產業,都要先掌握那個產業的domain know-how(領域知識),然後再去提出假設,「問出對的問題,才會得到對的答案。」

目前,數據在各行各業都已經有很多有效的應用,例如美國職棒、職籃隊伍幾乎內部都有資料科學家,他們會根據球的位置、球員的位置,跳多高、跳的角度等,來擬定有效的作戰策略,或是分析球員體能表現等;運用在電商領域可以得出哪些特質的消費者會喜歡什麼樣的產品;透過各個城市搜集來的空氣數據來得出污染源等等。

圖說明
(圖說:透過電腦視覺,得到每一次球員運動時的角度/取自講者PPT)

陳昇瑋也提到,隨著社交媒體的出現,也讓資料有更多元的運用。現在對個人的觀察,早已不是「他買了什麼」或是「他看了什麼」,現在就連你在社交媒體上的發言、like,都可以透過數據分析出你這個人的特質。

做一個資料科學家,「創意」也很重要

除了常見的資料科學家的四大特質之外。作為一個資料科學家,「創意」也是不可或缺的元素。「如果你沒有足夠的創意,你可能沒辦法有正確的假設,也沒辦法找到正確的答案。」陳昇瑋說。

圖說明
(來源:講者PPT)
圖說明
(來源:講者PPT)

如何訓練自己的創意?強迫自己觀察,直到觀察成為生活的一部份。「當你看的東西與人不同,你想的東西也就與眾不同。」

企業痛點:如何建立一個資料科學團隊?

不過,對企業來說,目前最大的痛點多半是雖然知道資料科學的重要性,但要確實在內部導入資料科學團隊卻很困難。「99%的人第一個問題會是:我要去哪裡找有經驗的人?」陳昇瑋說,如果你的公司是一家具有一定規模的企業,最好的方式是就近在公司內找人開始培養。

資料科學家最好要具有資訊、數學統計、問題三種領域的專業知識。不過他建議企業不用等待完美的人出現,因為在這三個領域當中,專精一項很不錯,專精兩項就算很少見了。而在資料科學家的個人特質部分,又以細心、溝通能力、創意為三大重點。

圖說明
(來源:講者PPT)

他建議,企業內最理想的初始資料科學團隊規模是五個人,包括一位PM(專案經理)、一位Data Scientist(數據科學家)、兩位Data Engineer(數據工程師)跟一名Visual Designer(視覺設計師)。但如果企業沒有這麼多資源的話,可以先從兩、三個人訓練起,先求有、再求好。

企業文化與KPI

另外,能不能在企業內建立一個好的資料科學團隊,也跟整體的組織架構以及企業文化息息相關。

現在,即便是同在一個企業裡面,不同的部門都還是會遇到「誰的資料比較好」的問題,或者「我的資料很好,但我不想給你」的情況。「資料應該是企業資產、不是部門資產。」陳昇瑋說到,企業應該要進一步提升「資料」的價值,讓它能確實成為企業的資產。在組織架構的部分,可以像阿里巴巴,在集團內成立一個資料運用委員會,集團內所有的資料分配,都由這個委員會說的算。企業也應該要適當調整KPI制度,避免部門間產生衝突。可以建立起一個績效共享制度,讓資料蒐集團隊、發生/提出問題的團隊,以及實作資料產品的團隊都可以共享KPI。

圖說明
(來源:講者PPT)

為什麼現階段企業要導入資料團隊會如此困難?陳昇瑋認為,因為資料科學牽涉到典範移轉(Paradigm Shift)。傳統我們倚賴經驗、現在我們用測量;傳統資料是私有,現在卻要是開放的,這讓資料科學團隊的組成極具挑戰性。「典範移轉本來就不是簡單的事,但這是不得不做的事。」

陳昇瑋認為,企業能做的是讓資料科學團隊有足夠的發揮空間,建立一個可以快速實驗的環境,「資料科學不是神丹妙藥,他不會一下子給出一個solution(解決方案),他會需要實驗。台灣在發展資料科學的瓶頸,在於我們都習慣把人規範的太緊。如果你一定得幫每個人定KPI,基本上他們不會有好的表現。」陳昇瑋說。

資料科學的第一堂課:心法、案例分析與團隊建立

精通Google Analytics數據背後的意義,才能真正產生數據的價值!
訂購《數位時代》1年,送《流量的祕密》作者最新力作《透視數據下的商機:運用Google Analytics發掘商業洞見》
立即訂購>>http://goo.gl/A1kOuF

追蹤我們