「他是一個很迷人的職業。性不性感我不知道,但他很迷人,如果你對資料很感興趣的話。」沛星互動科技(Appier)首席資料科學家林軒田說。
2012年,資料科學家被哈佛商業評論點名為「21世紀最性感的職業」,頓時讓這個角色站上就業市場風口,且熱潮延續至今。但單一的形容詞難以看到全貌,與其說性感,或許用林軒田口中的「迷人」來形容,更能帶出這份職業更立體的輪廓。
台灣的資料科學家們都在做些什麼?真如大家所想的光鮮亮麗嗎?目前台灣在資料科學領域看似踏出了第一步,但在未來的路上,還有什麼問題待解?
首先要先定義的是,資料科學雖然是門新學問,但背後是過去數據應用發展的積累。廣義的資料科學家也包括資料工程、資料分析師。以目前的就業市場來看,與資料科學相關的職缺就有資料科學家以及資料庫工程師、BI工程師、數據分析師、大數據探勘工程師等以各類名稱出現的資料工程師。
在一個資料科學團隊裡,除了資料科學家之外,還需要負責探勘、清理等資料處理過程的資料工程師。台灣資料科學年會理事長、中研院資訊科學院研究員陳昇瑋觀察,以台灣目前的狀況來說,最多的還是資料工程師,這也是台灣理工科系學生,初踏入資料科學領域時多半會擔任的角色。
去年剛從台大物理所畢業,現在在宏碁前瞻技術總處擔任資料工程師的賴裕文就是一個例子。他因為2011年參加數據分析軟體公司SAS與台積電合辦的半導體大數據比賽,產生對資料的興趣,因此開始修讀資工系的課程,接觸到機器學習方法,而他表示現在自己負責的是與交通數據相關的智慧城市專案。他描述,在團隊中,除了有像他這樣負責蒐集、清理資料的工程師之外,還會有一名資料科學家,多半是由出身統計、經濟科系或是資工博士擔任,負責下決策、接軌不同客戶的需求。
相比之下,資料科學家可以說是資料工程、資料分析兩者的綜合體,而這個腳色和過去在做商業智慧、智慧分析最大的差別在於,現在有更多創新的作法可以應用、分析資料。可以說,資料科學家的任務,就是為資料賦予價值,除了要具備資料探勘等統計應用知識、熟悉資料分析工具操作,還得深入了解企業內的業務與組織,針對各種問題對症下藥、提供解方。但很顯然,擁有一項專長的人多,同時擁有三項專長的人卻很少。因此,「做中學」便是資料科學非常重要的一門功課。
畢業於政大國貿系、台大經濟所的鍾岳軒曾待過新蛋科技、趨勢科技,今年剛進入旋轉拍賣,一直都是擔任資料科學家的角色。他直言,資料科學沒有課綱,也沒有一定的學習流程,注重的是「on-the-job training」,「當資料科學家沒有課綱,你遇到問題、找工具,然後從做中學。」而在不同產業的轉換之間,也要培養自己的領域知識(domain knowledge),例如在趨勢科技時,要解決的是艱深的資安問題,而到了新蛋科技、旋轉拍賣兩家電商,就得換作從使用者的角度出發。
或者換個方法來說,林軒田認為,「資料科學是一門探索未知的學問。」除了技術背景以及研究能力之外,資料科學家的人格特質還要具備一定的創意跟好奇心。當資料科學家企圖要從資料中找出有價值的東西,這件事情就有點像是做偵探,做偵探的人是有一點需要好奇心跟創意,把觀察到的現象連結起來。「解決未知的問題,如果只用已知的工具去解,注定行不通。」
而多半資料科學家會遇到的狀況會是,對方想要解決一個很不明確的問題,那你要怎麼樣用資料去回答他的問題?曾在歐酷網路(CHOCOLABS)、優拓資訊兩家新創公司實習,台大統計研究所學生黃大維則特別提到溝通的重要性。
「資料處理的是很明確的問題,但有時候對方告訴你他要解決A問題,結果他想解決的其實是B。」黃大維說,這時候就得與對方一起討論、共同釐清到底想解決什麼問題,多半時間,要把自己當作一個需要麻煩別人的角色,「老實說如果有一個人突然過來問說『你有什麼問題?』你其實也會覺得怪怪的。」簡單來說,在溝通時,要學著把統計語言放一邊、試著講「人」的語言。
另外要事先認知的是,既然要解決的是未知的問題,那麼途中失敗自然也是常見的風景。黃大維形容,「其實大部分時間都在失敗。手上如果大概十個專案,活到最後的大概只有六個。」
然而,失敗有時候會帶來更大的收穫,也許就是在失敗跟成功之間,能用資料看到全新的風景,才是這份職業最迷人之處。