五個避免被資料誤導的建議與為何與我們切身相關

2018.04.18 by
leafwind
leafwind 查看更多文章

對數據與資料有著高度好奇心,喜歡研究資訊落差、數據操弄與資料分析等議題,現為新創軟體工程師,每天在人工智慧與現實數據拉扯,閒暇時經營部落格《all about data》。

romeovip_md via Shutterstock
數據應該類比成「能量」,它的確頗具價值,但怎麼使用才能發揮效益,最終還是靠引擎,也就是使用資料的「方法」。錯誤的解讀,不但無法發揮價值,可能還會適得其反。

數據的存在是為了引導,而非誤導。

當我們講Data(數據/資料)的時候,通常是指已經轉換成電腦的數位訊號。

而真實世界的類比訊號要轉換成數位,都必須經過取樣(sampling)、量化(quantization)、編碼(encoding) 等步驟。

影像訊號是這樣、聲音訊號是這樣,還有人的購買記錄、GPS位置記錄、IP記錄、瀏覽記錄,所有我們分析的數據,都是經過轉換得來。

然而,取樣有偏差、量化有誤差、編碼會有損失,還會根據數據的收集方法、實驗方法、推導方法 等方式影響解讀,一直到最後結論之前,這中間的每一項過程都是加工。

只看別人加工過的結論就照單全收是很危險的事情,因為那些結論必須建立在正確的數據解讀前提之下,才有意義。

資料應該起到「引導」的作用,很多時候卻變成「誤導」我們做決定

王堅博士講,數據是人類第一次自己創造了能源、創造了資源,衣服人家穿過,你穿就會不值錢,數據是人家用過,你用會更值錢,你用過以後出去更值錢,是越用越值錢的東西。

數據應該類比成「能量」,它的確頗具價值,但怎麼使用才能發揮效益,最終還是靠引擎,也就是使用資料的「方法」。

錯誤的解讀,不但無法發揮價值,可能還會適得其反。

商業上說數據驅動,很多時候是老闆在驅動數據

我們常說數據驅動 (Data Driven),無非是想要做出正確的決策。

比如一間公司要決定一個產品的功能、時程、外型、定價等等。這些重大、明顯的決策,已經被不少專家提出來要謹慎,過度仰賴數據驅動(Data Driven)會有危險。

或許不少人也經歷過上司「看著一堆荒謬的數字,臉不紅氣不喘地講出愚蠢結論」的情況,那其實只是HiPPO (highest paid person’s opinion,意即「最高薪人士的意見」),假裝是數據先決罷了。

以下是一些參考資料,像有一篇英文文章《The problem with data driven decisions》寫得很好,摘錄一些我認為很受用的句子:

Rich in Data and Poor in Insight

Data is a false God. You can tag every link, generate every metric, and run split tests for every decision, but no matter how deep you go, no matter how many hours you invest, you’re only looking at one piece of the puzzle. Besides, has anyone ever A/B tested the practice of running A/B tests? There could be better, albeit less measurable things, for a development team to do.

(中譯)
數據是偽神(或假神,不過偽神比較好懂,西方宗教用語
你可以標記任何連結、產生任何指標、對每一個決定分開跑測試
但不管你做得多深入、你投資多少時間,你只是在觀察謎題的一小部分
並且,有人曾經對 A/B test 做過 A/B test 嗎?(當然沒有辦法)
我們仍然有更好的(雖然可衡量數字也比較少的)事物讓開發團隊去做

在《Know the difference between data-informed and versus data-driven》一文中也說到:

1. The data you can collect is often systematically biased in unfixable ways.
2. Not everything is an optimization problem

(中譯)
1. 你可以收集到的數據通常都(以一種很難修復的方式)存在系統性的偏差
2. 並非任何事都是「最佳化問題」

「解讀資料」是每個人切身相關的事情

我們每天都無法避免接受資訊洪流的轟炸,即使你我不是高階經理人、主管,商業決策也離我們很遠,但市井小民還是會受到很多錯誤的解讀過程影響,因而改變選擇傾向,相信那些「加工過的數據」做出錯誤決定。

有很多日常生活的例子可以說明,我們看到的數據幾乎全部都是被整理過的:

  • 被操作過的數據抹黑後,改變支持的政黨
  • 被刻意斷章取義的報導洗腦,潛移默化改變價值觀
  • 被隱藏部分資訊的金融產品,讓你誤以為有利可圖

如果照單全收而不思考,很容易就被有話語權的操作者牽著走。

五個避免反被資料誤導的方法

1. 保持好奇心與懷疑

永遠記得,所有結論都經過一連串的處理:

取樣、量化、編碼、收集、實驗、推導

所以看到任何結論,第一件事情就是把句號改成問號。

每一個步驟都可以去想以下問題:

他是怎麼做的?
有沒有更好的設計方法來問這個問題?
有沒有更貼切的假設?他為什麼不這樣假設?
如果結論跟我的想像或直覺不一致,那是為什麼?
再類似的想法都可以找出些微不同的地方

2. 試著用自己的方式解讀、甚至想像

對原文問了問題之後,反過來開始問自己:

如果讓我自己歸納、提出假設、設計實驗
也就是自己拿到第一手的數據,會變成什麼樣?

如果原作者沒提供資料就下結論,那就趁這個機會自己去蒐集,驗證是否正確。

如果原作者有提供資料但卻跟你搜集到的有出入,那就找出差異的原因:是作者被誤導,還是作者想要誤導大家?

3. 不要違背直覺、脫離現實經驗

舉例來說,某天的賣場記錄看到不少人結帳都買了泡麵。

當我們只看到數據,卻不知道日期、價格、贈品等訊息,有些人就會過度推論:

「是不是台灣人開始不愛吃飯了?」

「是不是有一款泡麵超夯」

然而實際去賣場之後可能會發現:其實只是颱風要來、特價活動,甚至是贈品很超值,等等這些很稀鬆平常的理由。

任何數據都是為了反映現實,一旦脫離現實就沒意義。

但這件事情非常難,因為我們從小就是在取樣偏差(自己的經驗)中長大。

每個人都覺得自己的常識才是常識。

每個人都覺得自己的直覺才是直覺。

每個人都覺得自己心中的世界才是真實世界。

但每個人的生活經驗與直覺又都有所差異,不可能所有人都是對的。

只能透過不斷觀察、蒐集資料、反問自己、修正對世界的認知來彌補。

4. 實踐在生活中

我自己常在看完文章之後,馬上把自己覺得不對勁的部份筆記下來。

這裡有幾篇寫過的例子:

譬如看到大家都很窮的數字時,不是只跟著結論說「對!根本都存不到錢!」;也不是說「他們都太會花了,都是月光族!」

而是看到這些消費數字的意義,試著理解並推敲來龍去脈、找到行為背後真正代表的問題(雖然我這樣推論不一定就是對的)。

譬如有人拿消費者物價指數算出一個不合理的薪水時,可以在理解CPI的定義之後,知道這樣的算法與現實脫鉤。

譬如看到台積電新人年薪148萬的新聞,可以查資料推算出前三年平均約110萬,第一年甚至只有80萬。

再加上高分紅有其對應的「延遲性」與「無保障性」,進一步折扣出更真實的年收入。

5. 最後,不斷思考,才不會被資訊垃圾淹沒

我們生在「垃圾資訊」洪流,每個人都擁有比以前更強的搜尋能力,有能力知道更多事情。但也因此必須自己主動篩選,或被動讓別人替我們篩選,隨時檢視這些資料來源與推論是否正確,就像隨時關心你我吃的食物從哪裡來一樣重要。

參考資料

<How to Avoid Being Deceived By Data>

這篇比較偏統計與資料科學,給專業的研究者看,這裡大致摘要出六個重點:

  • 隨時保持懷疑
  • 一定要確認樣本
  • 「相關」不等於「因果」
  • 「後此謬誤」與其他說故事的方法
  • 「平均」會說謊
  • 注意視覺化方法的把戲
《數位時代》長期徵稿,針對時事科技議題,需要您的獨特觀點,歡迎各類專業人士來稿一起交流。投稿請寄edit@bnext.com.tw,文長至少800字,請附上個人100字內簡介,文章若採用將經編輯潤飾,如需改標會與您討論。

(觀點文章呈現多元意見,不代表《數位時代》的立場。)

每日精選科技圈重要消息