那群探索未知的人:資料科學家
專題故事

2012年,資料科學家被形容作「21世紀最性感的職業」,頓時讓這個角色站上就業市場風口,且熱潮延續至今。但與其說性感,或許「迷人」更能帶出這份職業更立體的輪廓。台灣的資料科學家們都在做些什麼?真如大家所想的光鮮亮麗嗎?目前台灣在資料科學領域看似踏出了第一步,但在未來的路上,還有什麼問題待解?

1 性感背後,資料科學家為什麼迷人?

Shutterstock
台灣的資料科學家們都在做些什麼?又有著什麼樣貌?

「他是一個很迷人的職業。性不性感我不知道,但他很迷人,如果你對資料很感興趣的話。」沛星互動科技(Appier)首席資料科學家林軒田說。

2012年,資料科學家被哈佛商業評論點名為「21世紀最性感的職業」,頓時讓這個角色站上就業市場風口,且熱潮延續至今。但單一的形容詞難以看到全貌,與其說性感,或許用林軒田口中的「迷人」來形容,更能帶出這份職業更立體的輪廓。

台灣的資料科學家們都在做些什麼?真如大家所想的光鮮亮麗嗎?目前台灣在資料科學領域看似踏出了第一步,但在未來的路上,還有什麼問題待解?

首先要先定義的是,資料科學雖然是門新學問,但背後是過去數據應用發展的積累。廣義的資料科學家也包括資料工程、資料分析師。以目前的就業市場來看,與資料科學相關的職缺就有資料科學家以及資料庫工程師、BI工程師、數據分析師、大數據探勘工程師等以各類名稱出現的資料工程師。

在一個資料科學團隊裡,除了資料科學家之外,還需要負責探勘、清理等資料處理過程的資料工程師。台灣資料科學年會理事長、中研院資訊科學院研究員陳昇瑋觀察,以台灣目前的狀況來說,最多的還是資料工程師,這也是台灣理工科系學生,初踏入資料科學領域時多半會擔任的角色。

Shutterstock

去年剛從台大物理所畢業,現在在宏碁前瞻技術總處擔任資料工程師的賴裕文就是一個例子。他因為2011年參加數據分析軟體公司SAS與台積電合辦的半導體大數據比賽,產生對資料的興趣,因此開始修讀資工系的課程,接觸到機器學習方法,而他表示現在自己負責的是與交通數據相關的智慧城市專案。他描述,在團隊中,除了有像他這樣負責蒐集、清理資料的工程師之外,還會有一名資料科學家,多半是由出身統計、經濟科系或是資工博士擔任,負責下決策、接軌不同客戶的需求。

相比之下,資料科學家可以說是資料工程、資料分析兩者的綜合體,而這個腳色和過去在做商業智慧、智慧分析最大的差別在於,現在有更多創新的作法可以應用、分析資料。可以說,資料科學家的任務,就是為資料賦予價值,除了要具備資料探勘等統計應用知識、熟悉資料分析工具操作,還得深入了解企業內的業務與組織,針對各種問題對症下藥、提供解方。但很顯然,擁有一項專長的人多,同時擁有三項專長的人卻很少。因此,「做中學」便是資料科學非常重要的一門功課。

畢業於政大國貿系、台大經濟所的鍾岳軒曾待過新蛋科技、趨勢科技,今年剛進入旋轉拍賣,一直都是擔任資料科學家的角色。他直言,資料科學沒有課綱,也沒有一定的學習流程,注重的是「on-the-job training」,「當資料科學家沒有課綱,你遇到問題、找工具,然後從做中學。」而在不同產業的轉換之間,也要培養自己的領域知識(domain knowledge),例如在趨勢科技時,要解決的是艱深的資安問題,而到了新蛋科技、旋轉拍賣兩家電商,就得換作從使用者的角度出發。

或者換個方法來說,林軒田認為,「資料科學是一門探索未知的學問。」除了技術背景以及研究能力之外,資料科學家的人格特質還要具備一定的創意跟好奇心。當資料科學家企圖要從資料中找出有價值的東西,這件事情就有點像是做偵探,做偵探的人是有一點需要好奇心跟創意,把觀察到的現象連結起來。「解決未知的問題,如果只用已知的工具去解,注定行不通。」

而多半資料科學家會遇到的狀況會是,對方想要解決一個很不明確的問題,那你要怎麼樣用資料去回答他的問題?曾在歐酷網路(CHOCOLABS)、優拓資訊兩家新創公司實習,台大統計研究所學生黃大維則特別提到溝通的重要性。

「資料處理的是很明確的問題,但有時候對方告訴你他要解決A問題,結果他想解決的其實是B。」黃大維說,這時候就得與對方一起討論、共同釐清到底想解決什麼問題,多半時間,要把自己當作一個需要麻煩別人的角色,「老實說如果有一個人突然過來問說『你有什麼問題?』你其實也會覺得怪怪的。」簡單來說,在溝通時,要學著把統計語言放一邊、試著講「人」的語言。

另外要事先認知的是,既然要解決的是未知的問題,那麼途中失敗自然也是常見的風景。黃大維形容,「其實大部分時間都在失敗。手上如果大概十個專案,活到最後的大概只有六個。」

然而,失敗有時候會帶來更大的收穫,也許就是在失敗跟成功之間,能用資料看到全新的風景,才是這份職業最迷人之處。

每日精選科技圈重要消息

2 「感覺資料都在嘲笑我了。」以博客來為例,看資料科學專案會遇到的困難

蔡仁譯攝
博客來今年與中研院資訊科學院研究員陳昇瑋的資料洞察實驗室合作,用資料變出了更多新把戲。

「誰在買書、買什麼書?一本書的書名要怎麼樣下比較容易暢銷?政黨傾向跟購書行為有沒有關係?⋯⋯」每一年博客來都會發表博客來報告,解讀該年書市的暢銷書。過去多半憑著銷售數字來做,但今年博客來與中研院資訊科學院研究員陳昇瑋的資料洞察實驗室合作,用資料變出了更多新把戲。

資料洞察實驗室利用博客來從2014年12月到2016年3月的銷售資料,結合開放資料,讓今年的博客來報告有豐富的購書者輪廓。例如大家熟悉的小說類別,同性愛小說和愛情小說的讀者群較年輕、歷史武俠和文學研究小說的讀者群年齡較長,若深入分析「金庸」這個類別,更存在15歲以下的青少年和中年人兩種主要客群。

「過去我們做單一的數據分析,比較常說什麼樣的書賣得比較好。但整合各種博客來以前沒有的資訊過後的結果,都是更加立體的想像。」博客來文化事業部部長張靜如認為。

一個資料科學專案是怎麼開始的?

而對負責這次專案的資料洞察實驗室五位成員游為翔、林家慶、周俊川、杜靖愷和張育誠來說,去年9月底收到資料、12月底就要發表報告,短短三個月的時間無疑是一大壓力,他們笑說,投注的心力與時間幾乎是實際上的兩倍,「可以說做了半年吧!」

中研院資訊科學院資料洞察實驗室負責操刀博客來最新一次的網路購書大數據專案。
蔡仁譯攝

這樣一個資料科學團隊,在實際接軌圖書產業的資料時,遇到過什麼樣的難題?又有什麼收穫?

「面對到的第一個問題,其實就是資料『很髒』。」周俊川說,這讓團隊光是前期在清理資料就花了不少心力。例如說,明明是同一個作者,但在資料上卻有兩種呈現方式,或是外國作者有譯名,但明明是同一人,在每本書的翻譯都不一樣;或者說書名,系列套書在命名時也沒有統一的格式。也因為書名、作者這些資料在欄位上沒有定義,在搜資料時就需要花費很多工夫,只好看到一個規則、就寫一個規則,然後清理,然後再去找一次有沒有漏洞。或者資料的定義不夠清楚,一本書可能分為平裝版、精裝版,但本質上其實都是同一本書。

整個流程中,資料清理花了近兩個月時間、資料分析大概一個月,再來才是最後的統整以及視覺化呈現。有時候做到有點崩潰的時候,看到長成像是「86586^||^1^||^277^||^^||^0^||^0^001064」的資料,「你不覺得那看起來很像笑臉嗎?這時候就覺得連資料都在嘲笑我。」游為翔笑說。

第二,則是資料科學中,領域知識的重要性。「11月的時候我們去報告一次,回來之後大改方向。」游為翔回憶,經過第一次資料的梳理,得出來的結果多是已知的,這也帶出這次專案執行中最大的困難,其實是最常獲得「喔?這我知道啦,所以呢?」的回應。

因為許多資訊過去是內化在圖書銷售經驗裡頭的。杜靖愷舉例,像是剛開始曾分析出一個結果是會買歐美漫畫的人特別不一樣,他同時也會去看人文社會科學的書。但這一點,圖書專業領域的人都會知道。另外,像是團隊一開始以為書籍的出版日期能夠拿來應用,但在與對方討論的時候才發現日期並沒有一定的規則,如果硬做下去不會有結果。「很多限制無法一開始就知道,要等遇到了才會知道。以為有pattern(模式)可循,但其實沒有。」

林家慶認為,「他們憑經驗、我們靠驗證,而且用統計的方式呈現關係的存在,但如果要得出更多insight,就得不斷的換方法、換方向,從錯誤中不斷嘗試。」

而在資料的預測性分析中,團隊最後也利用書籍特徵、書名關鍵字及上市前的市場狀況來發展出暢銷書預測模型,以文學小說暢銷書的預測準確度來說,已經可以接近八成。「心得是,不要先預設立場,不要覺得資料太少太淺,就做不出什麼東西。」林家慶認為。

用數據說話的思維

而在這樣的專案合作中,除了用資料得出更深刻的讀者輪廓之外,用數據說話的思維,其實才是博客來這次導入資料科學方法最大的收穫。

「你要用客觀的方式去表達,用數據去佐證主觀的意見。」張靜如表示,比方說過去博客來在經營圖文書、尤其旅遊類書籍時,會先跟出版社溝通要在網路上放上大量的內頁介紹才會吸引讀者,提升銷售表現,出版社往往只會認為是單方面的說法、不一定全都買單,而這些過去內化在自己的經驗裡的想法,現在可以用數據呈現正相關,說服彼此達成更好的共識。

資料是驗證事實的一種方式,也是開啟未來應用的一把鎖匙。「除了預測未來什麼事發生之外,現在對博客來來說重要的是『怎麼讓它發生?』。我們覺得既然我們有這樣的龐大的資料量,這是可以在好的分析工具之下有更好的應用。」

平常做專案的日子,就像這樣長時間待在實驗室裡與資料奮鬥。
蔡仁譯攝

而在這一次合作之前,都沒接觸過圖書產業的資料洞察實驗室成員,也從這樣的過程中得出興趣,即使專案結束,還是持續嘗試更多方法,「例如說書的封面如何量化?我們現在就試著用類神經網路的模型去做。」對一般人來講這很抽象,但資料科學就是要化抽象為結果,從未知到已知,也是從已知到未知的的一門學問。

每日精選科技圈重要消息

3 走進農田裡的資料科學家,吳君孝:資料是一門探索未知的學問

吳君孝提供
「我想要去證明,資料科學是一門探索未知的學問。我現在要做的就是從方法論,到讓這件事產生價值。」今年剛成立阿龜微氣候天眼通團隊的資料科學家吳君孝說。

「那時候我其實不知道這對我的人生來說有什麼意義。」阿龜微氣候天眼通團隊資料科學家吳君孝回憶,2004年他讀大學時沈迷於寫程式,當時去試聽一堂叫做資料探勘(Data Mining)的課,然後決定從教室走出去。

他描述,當時看到的東西還很學術、很技術,「那時候不知道為什麼要學?也不知道會發現什麼?」例如在上資料庫課程時他同樣感到困惑,因為即使學CRM(客戶管理系統),但那個年代的資料不多,就算拿來分析,也無法把現象描繪的很全面。

吳君孝當時認為,資料探勘本身應該是門很實用的知識,但當時的應用很少,攤開學術論文也多在追求演算法的準確率,不像現在的資料科學論文都已走到應用端。後來的轉捩點,在於網路的興起,用戶創造的資料越來越多,可以分析的資料也越來越全面,傳統熟知的資料探勘用在全新的資料,才催生了新的應用。

跟資料奮鬥的日子

接觸資料的早,應用卻還沒長出來。但陰錯陽差地,吳君孝後來的職業生涯都與資料探勘脫不了干係。

2011年他進入資策會,前三年是資料工程師,一開始做數據分析,負責處理各種使用者的行為資料跟雲端數據管理平台開發。2012年,大數據興起,資料的應用也開始多了,「當時我就想,這麼多的資料該怎麼發現它的價值?」在資策會的後三年,他開始實際跨入客戶端解決問題,接觸到的都是環保署、農委會、警政署等政府中央部會,經手過警政、媒體、經濟、環保、資安、農業、食安等不同領域的資料。

吳君孝與資料為伍的日子從2011年至今已超過6年。
吳君孝提供

這時候,吳君孝的身份也從原先的資料工程師,慢慢往所謂的資料科學家轉型。例如,他幫忙做警政情資系統,透過使用者行為編碼去做犯嫌習性分析,估算犯嫌可能出現的區域;或者透過爬梳社群媒體裡的公開言論,做輿情分析軟體、提前預估可能的犯案行為等。

印象最深刻的專案是,當時他幫忙做涉及食安風險的廠商分析,把原先擅長的使用者行為分析技術,應用在找具有可能性的公司上面。他拿了包括環保署、財稅部、食藥署、衛福部、工商登記等來自不同部會、融合近十幾種公開資料來做公司特性解析,再進一步分析什麼樣的廠商最有可能買進毒化物原料。

對他而言,跨領域的合作難,一方面是資料多,前三個月都在做資料的清洗跟建模,一方面也是因為接觸到的問題難。例如要找出具有可能性的廠商,就得對毒化物如何流入食品製程的經過非常了解。吳君孝回憶,為了累積領域知識,他三天兩頭就往台大跑,去請教專家問題,「我查了塑化劑、甲醛、二甲基甲醯胺⋯⋯」即使是幾年前的專案,現在一脫口還是能說出各種專有名詞,「我甚至想過要去讀食品化學博士。」他笑說。

「有趣的是,一開始在跟食安專家討論時,他們覺得資本額越大的公司,越不可能發生食安事件。」當然,這樣的假設並不成立,因為透過與專家合作、以及從資料看到的嫌疑者都是大公司,「所以應該是透過資料去證明說,到底是不是這樣?」吳君孝說,後來數起食安風暴興起,政府召開食安會議,應證了當時他建立的風險特性模型是有效的。

不過,近七年來與各個政府單位為伍的日子,也讓他看到侷限。像是大家對於大數據的幻想就是一點,這讓他遇過非常多匪夷所思的需求,最扯的一次來自某政府部門,「那時候大數據這個詞很夯,他們(官員)希望可以透過資料分析,計算出最有可能被問到的問題,讓他們每天在接受質詢時有題庫可答。」

吳君孝認為,其實資料科學沒有固定的方法可以走,他不會說你做1、2、3、4,就會得出結果。這奠定了他對資料科學的方法論:從需求出發。先了解需求,再去想你應該要怎麼做、資料來源可能是什麼?不同的問題適合分析的模型都不一樣,你要找最適合的模型來回答你的問題,但更多問題是沒有現成的模型的。

「他們聽不懂,所以我想要去證明,資料科學是一門探索未知的學問。我現在要做的就是從方法論,到讓這件事產生價值。」他說。

走進農業的資料科學家

當初走出課堂的吳君孝,在十年多後的今天,帶著資料科學走進了農業。

今年2月剛從資策會離職的他,職業生涯也翻開新的一頁,他申請G0V的計畫,組成一個「阿龜微氣候天眼通」團隊,成員包括農夫、農業專家、軟硬體工程師、資料分析師、科學家等來自各領域的人,要把資料科學的精神導入到農業裡,實際解決問題。

過去兩年吳君孝接過農委會的案子,因此熟知農業既存的問題。他說,農業是與資訊隔閡最大的行業,這讓許多資訊人要跨入農業卻不得其門而入。但這幾年越來越多青農返鄉,他們非常希望有資訊化的工具補足實務經驗上的不足,而最好的切入點就是資料。

吳君孝說,團隊想要做的「微氣候資料科學」,是透過田間感測器,把蒐集到的環境資料傳到雲端平台,再透過前端視覺化的儀表板,讓農夫可以在日常工作的時候觀看各種關於環境監控、農務決策,或是病蟲害知識的資訊。

例如,現在團隊已經做出了灌溉最佳化模型,讓農夫做更好的決策。未來,團隊希望能將這樣的東西開源,讓這些資料能發揮最大的價值。吳君孝認為,每個資料科學家都會有自己分析時的偏好跟思維,所以如果能夠透過開放資料,讓其他人也能用自己的方式去建模,才會使農業資料科學的價值極大化。

從一開始不懂資料有什麼價值,到跨入資料工程、分析,最後讓資料在農業中落地。吳君孝笑說,現在自己不僅工作,連生活都跟資料科學脫不了干係,甚至就連買房、自己小孩的成長經歷,都自己做了模型參考,「就是好玩吧!」

每日精選科技圈重要消息

4 當醫師遇上資料科學,吳沛燊:資料要解決的一直是人的問題

賀大新攝
平常星期一到五,吳沛燊是台大復健科的住院醫師;而在下班或是週末的時間,他是均一教育平台的資料科學顧問。

「33%復健科醫師 + 33%數據統計阿宅 + 33%馬拉松愛好者 + 1%無限可能」台大復健科醫師吳沛燊,用這樣的綜合體來形容自己。

平常星期一到五,他是台大復健科的住院醫師;而在下班或是週末的時間,他是均一教育平台的資料科學顧問,綜合起來目前最大的困擾是「時間都不夠用」。

吳沛燊之所以會成為一名資料科學家,歷經過人生中幾次轉彎。大學時他本來讀的是台大電機系,在大二時轉醫學系。今年踏入住院醫師第三年的他,過去幾年早已經習慣用資料解決工作上遇到的大小事。

2014年,他發覺醫院的系統設計往往都從工程師的角度出發,沒有考慮到人因的因素,而繁瑣的系統,反而干擾到一名醫師能夠花在臨床的時間。例如寫病歷時需要不斷重複拼貼、往往十幾分鐘的時間就是浪費,整天都要坐在電腦前,反而沒心力花在照顧病人身上,於是他開始自己寫系統,將醫院的資料自動化。

吳沛燊平日是台大醫院復健科醫師,他笑說,目前最大的困擾是時間都不夠用。
賀大新攝

「懂一點數據,對工作上有很大的幫助,你的feedback(回饋)會很快。」吳沛燊說。例如過去醫師做臨床研究,遇到資料時需要假手醫院的工程部門,但懂資料就可以自己做。像是他當時在臨床的經驗累積了2、300個病人,總會思考一個問題:到底這些病人常出現的共同問題是什麼?這類問題通常怎麼去處理?大概的效果又是如何?於是他開始試著用系統化的方式去記錄跟追蹤、分析資料。

舉例來說,大部分肩膀痛的人一開始他都建議做復健,大部分效果不好,但如果是建議病人先打針再去做復健,成效就比較好。這時候就可以套上更複雜的模型,用小資料套上貝氏模型得出結果,「只要能夠找到一些小小的pattern(模式),就可以大幅改善。」他說。

從醫療到教育

原先只是為了更好的處理工作上會遇到的問題,吳沛燊在Coursera平台上自學R語言,也修當時史丹佛人工智慧實驗室主任吳恩達的機器學習課程。另外,他也上資料科學平台Kaggle,找醫學類的題目來做,除了對臨床經驗有幫助外,也連帶培養自己在資料科學領域的研究能力,「這應該算是我第一次跳級打怪,玩這個可以快速成長。」

吳沛燊把自己學習資料科學的經驗分享到自己的Facebook上,讓均一教育平台執行長呂冠緯找上他,問他有沒有興趣合作。對他來說,誘因是可以摸到真正的資料,因此開始以外部顧問的方式合作。

到了均一教育平台擔任外部顧問後,也讓吳沛燊開始真正用資料科學在實踐、解決問題。正如同醫學,教育也是一門艱深的學問,讓他必須花心力去讀教育理論、教育心理學,深入了解使用者的內心,才能開始去問更複雜的問題。從一開始只問「使用者流量有沒有增加?」,再問到「使用者到底為什麼會來?來了到底有沒有學到東西?」這類的問題。例如還有用資料建模型,做到預測使用者心態。像是當使用者答錯題目遇到挫折時,要用什麼辦法激勵不同心態的人,是要推薦他再接再勵,還是給他一個更難的題目?唯有理解每一個人不同的狀況,才能達到均一在幫助學生學習的初衷。

吳沛燊認為,幾次轉換跑道都是出自對人的興趣,資料的本質也是如此。
賀大新攝

吳沛燊認為,不管是在醫院的臨床經驗,或者是均一教育平台,其實都會產生大量的數據。但如果不是因為對資料的意識(awareness),就會讓這些資料跑過去了,出社會的學習是情境式的學習,碰到問題就學著解決,試著「從data(數據)到insight(洞察)到action(行動)」。

而對他來說,從電機到醫學,再到跨入教育領域,一直都是因為自己對理解「人」本身有興趣,「Data本身也是要回應這個問題的,因為不管它多複雜多fancy(花俏),最後還是都要解決人身上的問題。」

每日精選科技圈重要消息

5 台灣發展資料科學的路,未來方向怎麼走?

Shutterstock
台灣在資料科學領域看似也已經踏出第一步,但在未來的路上,還有什麼挑戰?

雖然資料科學家看似站在風口上,台灣在資料科學領域看似也已經踏出第一步,但在未來的路上,仍有許多挑戰。

首先,學界跟業界的隔閡是一環。正因為資料科學是一門十分入世的學問,資料科學家的養成不能只來自學校。台灣資料科學年會理事長陳昇瑋就觀察,「我們說gap(落差)通常是學校老師、老師的研究與業界的gap。」學校教育專注的是技術,但要接軌到業界往往還有一段距離。

「比較難完全在學校中得到完整的picture(藍圖),真正打仗的時候,就會遇到很多我以為我知道、但其實我不知道的問題。」台大統計所學生黃大維,也從自己的兩段實習經驗中看到學界跟業界的差距。

因此,對於以資料科學家為志的人來說,最好的方式,或許就是在學期間透過實習或參加比賽的方式提前打下基礎。 台大資工系副教授、Appier首席資料科學家林軒田認為,資料科學家相關的技能培養可能來自學校或是透過線上課程,但要能擁有做研究的邏輯思考能力,就必須透過實戰經驗。「當你去參加比賽、專案時,你面對的是課程裡沒有遇到的問題,在解決問題的過程就培養或反映了你的研究能力,所以我會建議學生廣泛的去嘗試不一樣的想法。」他說。

第二點是,願意投入資料科學領域的台灣企業確實在成長,但依陳昇瑋的觀察,目前比較積極投入的產業還是集中在IT、數位廣告、銀行這幾個領域,還有新創公司。

在他看來,現在台灣追尋資料的風潮,其實還只在導回正軌的過程。也就是,對資料的不熟悉曾經讓許多企業存有迷思,例如總有企業擔心「資料出去會造成什麼我不知道的、可能會有的什麼風險。」他說,「然後通常下一步問說風險是什麼卻講不出來。」而現在許多台灣企業都已經意識到資料很重要,也著急著要找解決方法。

台灣資料科學年會理事長陳昇瑋認為,現在台灣追尋資料的風潮,其實還只在導回正軌的過程。
台灣資料科學年會

只是在台灣有能力也有意願「養」一整個完整資料科學團隊的企業仍在少數。而原因或許不難想像,一方面除了在前期就要投入比較高的系統建置成本,以及付出相對高的人力成本之外,資料科學大多無法在短期內對企業做出實質貢獻,恐怕也是讓企業卻步的一個原因。

這樣的思維回到供給端的狀況就是,資料科學家在台灣恐怕是有形無勢,讓資料科學家等於年薪百萬入場券的想法,在台灣並不完全成立。在中國、新加坡都有面試經驗的黃大維認為,「台灣這類型的資訊比較少,薪資開的比較高的都是國外的。大家想要但又不確定這些人可以帶來多少效益,做這行的其實都知道問題,entry level的薪水不會特別高。」。

人才與企業,是找不到人還是配不到對?

另一個狀況是,「大家都想做,但不好找,找不到人。」對此,陳昇瑋認為,技術變化的速度太快,企業除了可以提供在職訓練,從內部員工訓練起之外,與學術界的介接也是另一條路。例如資料科學競賽平台Kaggle或許就是一個很好的模式,鼓勵台灣企業把資料放上平台,透過企業出題,讓學校老師可以帶著學生解題,「好處是你會真的讓別人知道,你是有資料sense的。企業內部是真的可以掌握資料,學生也可以知道你是在解決什麼樣的問題。」

而林軒田則認為,台灣比較缺乏的其實是人才在畢業以後,有一個可以發揮的空間。林軒田認為,大家都說自己缺人才,但首先應該是要提供一個可以讓他們持續進步的環境,給他們有挑戰性的問題。開放的企業文化是一環、留得住人才的薪資條件也是一環,不然會很難面對美國、中國與全球的競爭。

Appier首席資料科學家林軒田認為,企業應該要有好的環境、企業文化,才能吸引到優秀資料科學家與AI人才。
吳晴中攝

如陳昇瑋有相同的觀察,林軒田也認為目前台灣企業對資料的心態(mindset)已處於「現在進行式」。但他也認為,「只有心態是不夠的,他還要回頭去檢視他需要哪些資料,有了資料後又要做什麼步驟,想要達成的目標是什麼?」這些問題,台灣企業其實都還在摸索,如果只有mindset沒有步驟,這些都會讓優秀的人才卻步。「這有磨合期,但要怎麼開始?企業想要進一步運用資料、往AI轉型,那環境要變得對學校人才更為友善,也要培養更多人才,讓他們信任。」

在揭開資料科學家所謂迷人的面紗之後,最根本的問題還是要回到產業供應鏈。如果台灣確實看到了全球趨勢,並且選擇投入,那麼投入後該認真做的或許是:就像資料科學家賦予資料價值一般,也要賦予這樣的人才更多價值。

每日精選科技圈重要消息