說到資料科學,可不是把一堆數據放到演算法和模型中、按下按鈕、接著就等答案出來這麼簡單。
深耕資料科學領域數十年的鄧白氏集團首席數據科學家安東尼·斯克里芬諾(Anthony Scriffignano)雖然是電腦科學技術出身,但他強調,資料科學不只是用一堆資料和分析工具,核心價值在於用科學方法和數據,試圖接近假設並回答重要的問題。
擺脫工具迷思,資料科學家需具備扎實基本功、問對問題
「 大數據只是鐵鎚,資料科學家必須是一名木匠,幫助客戶達到他們想要的目標。 」斯克里芬諾解釋,科學背後的方法論來自於某種觀察世界的角度,而根據觀察產生問題後,才會開始制定研究方法、收集資料、試著回答問題。
不過在商業上,人們常忽略制定問題的重要性,直接想如何應用數據,而他們就得找出客戶想應用數據的真正原因,把問題逐步拆解成比較容易解決的小問題。
斯克里芬諾舉例,曾有客戶直接請鄧白氏告訴他們中國有多少企業,但他們必須更深入追問,才不會讓客戶覺得取得想要的數據、卻達不到最初目的。例如,客戶想在中國開拓新市場或讓中國業務成長,需要的數據可能不同,又假設客戶如果是船運公司,那代表他們只需要製造、運輸產業的相關數據,而不需要餐廳、銀行等其他產業的資料。
他再舉例,業務成長其中也涵蓋不同問題,例如想獲得更多客戶,還是從現有客戶賺更多錢,這是兩個不同的問題,必須先釐清問題才能給出更好的答案。
因此作為一名資料科學家,斯克里芬諾認為,不只要了解統計、擁有建模、機器學習等操作資料的能力,同樣也要擁有夠廣泛商業知識,才能了解環境變化、制定問題,把大數據分析的結果具象化成故事。他舉例,如果只是單純處理資料,和資料科學的關聯性會越來越小,「就像一名只負責布置糖霜的烘焙師。」
從了解問題開始,大數據如何應用在金融科技
大數據可以應用在各個領域,其中一個受到不小影響的就是金融科技(FinTech)產業。舉例來說,借貸公司透過大數據分析算出更精準的個人信用評等、提供小額借貸,又或者股票交易公司利用大數據找出市場可疑的股票操作行為。
正如斯克里芬諾指出,金融領域早在1950年代就開始應用科技,但FinTech這個名詞一直到近幾年才出現,關鍵就是大數據崛起,在人手都有電腦和手機後,企業能收集大量個人數據、用戶也期待能更快獲得金融服務。
而從大數據分析延伸而來的機器人流程自動化(RPA),也是金融領域常見的應用之一。斯克里芬諾指出,根據帕累托法則(Pareto Optimality),80%的建議都是常識,而這些是可以機器人發揮的地方,人腦則能用在回答更複雜、獨特的問題。但和資料科學的核心價值一樣,機器人得了解問題,提供有意義的建議,否則「只能用更快的速度回覆很糟的建議」。
「如果你的目標是應用大數據,那需要換個目標。」回到資料科學,斯克里芬諾提醒:「永遠從問題開始,而非數據。」否則,在這堆數據海中找到正解的難度,將不只是大海撈針,而是更像在一堆針找出一根特定的針。