如何跟資料科學家合作？|數位時代 BusinessNext

近年來資料科學（Data Science）、機器學習（Machine Learning）一直都是很夯的話題，也有不少像我一樣的PM會對於怎麼開發資料型產品（Data Product）很有興趣。很幸運的，我現在工作的領域中有不少接觸資料型產品的機會，在過程中有自己摸索一下跟資料科學家合作的方式，這篇會以一個資料型PM初心者的角度，跟大家分享如何開啟跟資料科學家的對話。

一個完整的資料團隊（Data team）中其實有很多角色，這邊所謂的「資料科學家」主要是指在團隊裡面負責設計與開發演算法、機器學習模型的人，與資料分析師（Data Analyst）和資料工程師（Data Engineer）不同。

什麼是資料型產品（Data Product）

在去找資料科學家之前，我們要先知道 「什麼樣的問題適合用數據來解決」。

收集到的數據資料可以有很多用途，例如大家最熟悉的AB testing（利用資料去了解產品對用戶的影響），或者是在產品規劃前期做的數據分析（利用資料去找出目前產品最大的問題）。

若我們將這些數據與運算，直接融入產品功能中，它就是一種廣義的資料型產品。以下是幾種常見的例子：

推薦系統： 這個大家應該非常熟悉，例如YouTube的影片推薦，根據用戶行為等資料，去找出用戶最有可能繼續延伸觀看的影片。
內容分類： 例如Spotify上有許多的播放清單，除了個人化推薦以外，將類似曲風的音樂放在一起的「分類（Cluster）」也是常見的資料型產品。
影像辨識： 例如淘寶的照片搜尋功能，辨認與分析用戶上傳的照片，去尋找有相似特徵的商品圖像。
垃圾信件偵測： 例如Gmail會去運算找出哪些信件可能會是垃圾郵件，幫你放到垃圾信件夾裡面。

資料科學不是萬靈丹，要先想清楚現在要解決的問題，是否適合與需要用複雜的資料運算手段。

我該怎麼跟資料科學家提需求？

1. 定義問題

身為PM大家應該都對這一步很熟悉了，不過在用戶問題背後，可能會有一些資料型產品特有的問題，要特別注意一下。比如說常見的Cold Start問題：用戶剛註冊時還不清楚他的喜好；又或剛上架的商品用戶互動的資料較少等等。有蠻多策略可以解決Cold Start，例如用熱門商品或新鮮貨取代推薦商品、甚至在使用者創建帳戶時直接問他的喜好等等，這些策略與其說是資料科學家的職責，更是PM的產品決策，在做產品規劃的時候要納入考量。

2. 確立要優化的指標（Metrics）

對資料科學家來說，優化的指標跟要解決的問題是緊緊綁在一起的。所以在描述完用戶問題之後，立馬跟他們說你想要優化的指標就對了！

例如，假設我希望做一個搜尋結果排序，讓品質好的商品可以被放在最上面，我們可以定義說「這個優化我是希望提升搜尋結果的點擊率」或「我希望優化後用戶會看更多商品」，讓資料科學家來協助思考解法。畢竟有些時候模型和算法就是根據目標來運算，我們不一定知道機器學習模型裡面實際的規則是什麼。

3. 實驗假設與Insight根據

雖然PM不應該直接提供解法、定義規則，但是還是要提供Insight和你的實驗假設，幫助資料科學家思考要怎麼選擇與設計模型。 比如說我們知道在二手拍賣平台中，買家很喜歡新上架的商品，也很喜歡回覆快速的賣家，所以我們假設將算法調整成「新商品 + 回覆快速賣家有優勢」可以讓算法更成功，這樣資料科學家就可以朝這個方向思考，他的成果也會更貼近你的想像。

● 延伸閱讀：產品研究金三角：產業、數據、使用者

4. 告訴資料科學家你將如何應用

資料的運算大多是偏後端的工作，不過像是在建立推薦系統時，最好也可以大概簡介一下UI會怎麼呈現、使用者到時候會怎麼跟這個內容互動等等，也可以幫助思考。

5. 準備演算法需要的數據素材

問題和解法都搞清楚後，資料科學家還是需要足夠的數據才有辦法開始動手。在資料不足的情況，PM要一起規劃收集資料的策略。

加分題：跟資料科學家分享你的中長期願景與策略

除了當下的問題，如果能夠分享接下來持續優化的策略，也可以讓資料科學家知道要怎麼替他的模型鋪路唷！

如果有什麼不清楚，就大方的問你的資料科學夥伴吧！（這篇文章也是透過不斷的問問題累積而成的）

我該怎麼驗證演算法成果？

上線前：Eyeball Test驗證「品質」

跟測試設計原型（Prototype）類似，可以先從簡單的質化驗證方式開始，把算法套到真正的產品上，一起跟資料科學家看看結果，或者給其他同事看。例如：推薦商品的個人化，可以套用同事的帳號，讓他們看看結果的相關度和品質是否符合預期。也可以套用在一些極端狀況或不同的使用者區隔中來做驗證。這個方法好像聽起來蠻陽春的，不過卻是上線前蠻重要的一步。

上線後：AB Test驗證「成效」

跟所有產品改動一樣，跑實驗可以很好的驗證成效。除了主要指標以外，還可以看一些跟資料相關的指標，例如：目前的推薦關鍵字可以成功涵蓋多少搜尋，或有多少比例的違規商品能夠被演算法抓出來等等。這些測量可以幫助我們決定是否要收集更多資料，或是否要繼續優化演算法能夠涵蓋的範圍等等。

● 延伸閱讀：產品實驗設計踩雷實務分享：隨機分配好重要！

我想成為資料型PM，需不需要去上一些資料科學的課？

我也有問過資深的PM這個問題，他給我的答案是，

對於PM來說比起機器學習的模型運算與細節，更重要的是把「資料」當成一種「解決問題的手段」。

由PM定義出「要解決什麼問題（What to solve）」，然後再來跟工程師和資料科學家一起討論「用什麼手段解決（How to solve）」。

當然就像我們跟軟體工程師合作一樣，了解程式運作的邏輯和概念會有幫助，不過就像我們不需要真的會coding，身為PM只要對資料和演算法的關係有基礎概念，就已經有很多事情可以嘗試了。

● 延伸閱讀與參考資料：
Data Science Fundamentals for Product Managers
Machine Learning for Product Managers

Coursera上面也有很多不錯的資料科學課程，我個人覺得對沒有技術背景的PM（如本人）有些稍微困難，但如果有時間，它是很棒的學習資源！

若有興趣了解更多關於資料團隊的合作，也可以參考以下這篇：【PM夥伴攻略】如何跟資料分析師合作？

責任編輯：陳建鈞

（本文由產品三眼怪授權轉載自Medium）

《數位時代》長期徵稿，針對時事科技議題，需要您的獨特觀點，歡迎各類專業人士來稿一起交流。投稿請寄edit@bnext.com.tw，文長至少800字，請附上個人100字內簡介，文章若採用將經編輯潤飾，如需改標會與您討論。

（觀點文章呈現多元意見，不代表《數位時代》的立場。）