[陳昇瑋] 倡議以分享為前提的「真」技術演講

近幾年大數據或資料科學 (以下簡稱資料科學) 的會議不勝枚舉,無論是社群、政府、法人、學校、業界,各界都不乏熱心人士積極舉辦相關的研討會或座談會。主要的目的,基本上都在於促進聽眾對於資料科學的興趣及期待。但是,除此之外,好像甚少實際告訴大家下一步怎麼做,才能讓資料科學接地氣,實際在台灣發展起來。因此,在 2014 年,我們發起了一場不一樣的資料科學研討會,不只是要把大家的興趣激發起來而已,而是要滿足大家的求知慾,那些聽說的在國外發生的以資料科學創造價值的工作,究竟技術上是怎麼達成的?

Chris Cox 在 Facebook F8 2016 進行技術演說,Facebook 提供
(圖說:Chris Cox 在 Facebook F8 2016 進行技術演說,Facebook 提供)

技術演講其實不簡單

如何將應用資料分析從一團亂糟糟的資料建立出有價值的應用,這類商業應用背後在技術層面的來龍去脈,當然不會在報章雜誌中看到,而是要親身經歷,才能夠完整夠有深度地描述。因此,在規劃台灣資料科學年會時,希望能依照兩條講師邀請原則,提供一場滿滿的「真」技術演講的盛會給對期待進入此領域的資料科學愛好者。這兩條講師邀請準則原則是:

  1. 講師為有資料處理及分析實戰經驗者。
  2. 講師需要解釋資料怎麼來、資料的實際長相、如何進行資料處理,如何建立模型,計算的效能如何評估,這些細節至少都必須有相當程度的說明。

關於第一條原則,如果在講師的電腦中,找不到 R, Python, SublimeText, Visual Studio, vim, ssh clients 這些工具(編按:這些多半都是資料科學實作時常用的一些工具),大概就沒有辦法邀請成為年會的分享講者。

戴志洋於 2016 學生計算機年會(SITCON)進行主題演說,James Huang 攝影
(圖說:戴志洋於 2016 學生計算機年會(SITCON)進行主題演說,James Huang 攝影)

但這樣還是不夠的,麻煩的是,很多人在做經驗分享時,習慣是這樣演講的:
1. 我是誰;
2. 我大概做了什麼(怎麼做的是秘密,怎麼可以告訴你);
3. 我們 (的公司/平台/產品) 很厲害吧!

以筆者的自身經歷來說,聽過一場五十分鐘的大數據技術演講,聽完後,資料量多大,多少筆數,多少屬性,完全沒有概念;是幾萬筆,幾十萬筆,幾百萬筆,還是更多呢?如果實際舉手發問,問了三次,對方還是只能不斷強調「資料量很大很大,處理起來要很久很久」,沒辦法繼續討論下去,當然令人懷疑他本身是否知道答案。

這樣的演說,除了宣傳資料科學及幫聽眾做觀念上的啟蒙以外,沒有太多實質的好處。聽一場也是啟蒙,聽十場還是只啟了蒙,沒有更深入的瞭解。對於已經啟蒙,想要進一步瞭解原理或進行知識交流的聽眾來說,只是時間的徒然浪費。這也是為什麼經過了無數場演講的淬煉,會有了上述的第二條原則:也就是講師需要把資料怎麼來的,資料長什麼樣子,怎麼處理的,模型怎麼建的,效能如何評估,至少都必須有相當程度的說明。

技術細節分享不等於外流公司機密

每次提到技術細節的分享,就會有人說,這是公司機密啊,怎麼可以外流。真的這樣想的話,這些公司機密也太好偷了吧;看看這篇 Uber 資料分析師所寫的「以貝氏模型推估 Uber 乘客的目的地(Making a Bayesian Model to Infer Uber Rider Destinations)」對比某些台灣公司的標準這位資料分析師大概得因為洩露公司機密切腹了。

真實 Uber 目的地先驗機率(左圖)與抽樣的搭乘者先驗機率資料(右圖)。越大的圓圈半徑表示有越多的目的地出現在模型資料上,數位時代翻攝自 Uber 新聞室。
(圖說:真實 Uber 目的地先驗機率(左圖)與抽樣的搭乘者先驗機率資料(右圖)。越大的圓圈半徑表示有越多的目的地出現在模型資料上,數位時代翻攝自 Uber 新聞室。)

然而以上文這樣的方法為例,說真的也只是用了現成統計模型/機器學習的方法的直接應用,這是最直接的套用,也通常是有些經驗的資料科學者都會做的工作。聽眾期待的,是在分享實際套用過程中得到的經驗,例如可能會踩到哪些雷、哪邊可能會出現意想不到的情況等等,分享資料處理/分析技術上的 know-how,可以互相幫助同行節省試誤的時間。這分享的本質,與商業機密說差太遠了。更何況,沒有 Uber 那特殊而龐大的資料集,就算知道方法也做不到相同的分析,對多數情況而言都是多慮。換句話說:技術及 know-how 並沒有那麼容易被偷走,也沒有那麼容易套用在其它情境。

分享的價值在於讓聽眾舉一反三;同時,聽眾的一個問題或回饋,有時也可以讓講者本身發現自己的盲點,學習到更多

技術分享演講中,除了技術的交流,實戰經驗的分享也很有價值。在經驗的分享層面,聽眾期待的不是聽「講古」或「話當年」。講師若曾遇到什麼有趣的資料,就把它秀出來;若曾遇到什麼特別的狀況,就透過投影片把事實呈現出來,描述那段過程,而不只是歸納的心得或心法。很多時候,多些投影片是必須的,最怕講者忘我,講個十分鐘不換頁,也忘了用投影片多呈現一些具體的事實/資料/圖表,讓聽眾更容易把知識內化,而不是聆聽講者自身已經內化再外化的觀察,這不一定適用於所有人的知識或原則。因為人人各自有一套吸收經驗及組織知識的方法,所以若能把事實(資料),以及講者個人歸納的心得同時呈現出來,通常是更好的作法

多多分享,通常會發現自己得到更多

講者邀請原則看似簡單只有兩條,但要找到合適的講者卻相對困難。也許是因為台灣還缺乏熱情分享知識的文化,擔心知識分享出來自己就會喪失競爭力,也可能只是缺乏自信的問題。在筆者自身的經驗裡,多多分享,通常會發現自己得到更多;筆者的信念是唯有嘗試這樣做過,才能夠瞭解這層真諦。

聯合國開發計畫署亞洲總部創新顧問馬金馨於 2015 臺灣資料愛好者年會進行資料新聞分享,James Huang 攝影。
(圖說:聯合國開發計畫署亞洲總部創新顧問馬金馨於 2015 臺灣資料愛好者年會進行資料新聞分享,James Huang 攝影。)

這幾年,筆者的主要工作是在推廣資料科學,不過發現卻最大的阻礙是台灣仍缺乏知識分享的文化。大數據研討會及演講每幾天就有一場,卻甚少聽到以技術分享為前提的討論,這樣的活動再多,大家還是瞎子摸象,有聽沒有懂,會以為大數據是個玄學。另一方面,大伙兒喊著想學,學成後沒有動機分享,造成台灣的技術人只能持續由國外輸入最新的技術養分,這也是我們要努力改變的。

2016 年已經快過完一半;我們也花上了好幾個月,努力邀請熱心分享資料分析經驗的五十位講師,一齊在2016 台灣資料科學年會分享他們的第一手資料分析經驗。在這兒邀請所有的資料科學同好者於 7/14 (四)- 7/17 (日) 來中研院一同參與以分享為前提的技術演講,也歡迎對資料科學有興趣的朋友們,持續關注台灣資料科學年會官網及粉絲頁,接收相關的活動資訊!

十分期待以台灣資料科學年會技術議程為起始,倡議以分享為前提的技術演講。讓技術人能站在彼此的肩膀上眺望,省去大夥兒三更半夜獨自琢磨技術的時間,同時促成台上與台下進行更多實際的技術交流,讓技術發展能在台灣生根,做為數位產業發展的養份與基石。

@@ACTIVITYID:602@@

《數位時代》長期徵稿,針對時事科技議題,需要您的獨特觀點,歡迎各類專業人士來稿一起交流。投稿請寄edit@bnext.com.tw,文長800至1000字,兩天內會回覆是否採用,文章會經編輯潤飾,如需改標會與您討論。
陳昇瑋

台灣資料科學協會理事長、中央研究院資訊科學研究所研究員暨資料洞察實驗室主持人,研究領域為使用者滿意度、多媒體及社群系統及計算社會學等,在使用者/社群意見及感受的淬取及量化方面持續有代表性的研究創見。

堅信資料及資料分析的價值,長期推廣資料科學及其在各領域的應用,發起台灣資料科學協會及[台灣資料科學年會][1],期能將對於資料科學的熱情傳達給大眾,一起來探索資料科學的潛力,並將資料科學引入每個人的專業領域之中。他期待讓資料分析在台灣不再是口號,而是大家真實拿來解決問題及創造價值的工具。

追蹤我們