用iPhone、聽電台司令的人智商更高?你可能犯下遺漏變數、被數據誤導的錯誤

2017.12.18 by
數位書選
shutterstock
許多研究和媒體報導指出,擁有戴眼鏡、使用iPhone、聽電台司令樂團、熬夜、左撇子、喝比較多酒等特質的人比較聰明。這是怎麼一回事?我們瘋了嗎?

本文摘自:《決斷的演算》,時報出版

對很多家長來說,要確保自己的孩子比同儕更聰明,是壓力很大的一件事。所以我們會帶孩子做天賦評估,從很小就開始接受訓練,並替他們報名各式各樣想像得到的課程。

但到頭來,實情是,我們根本大可省下大把的鈔票(與時間)。我們做了研究,現在,我們要告訴大家,如何讓你的小孩更聰明。

根據最近的數據顯示,聰明的人具備以下這些特點:

上述每一個因素,都被指稱是和智力有關的特質。如果你十分渴望在自家休旅車保險桿上貼上「孩子晉身榮譽榜的驕傲家長」貼紙,顯然你要做的就是替孩子配一副眼鏡,教他們使用iPhone,聽幾場雷根總統的演說,和電台司令一起玩樂團,午夜之前別讓他們上床,把他們的慣用手改成左手,並開始訓練他們的酒量(當然,要等他們到了法定喝酒年齡)。

我們瘋了嗎?

沒有。我們只是讀了幾篇看來是從統計分析中得出錯誤結論的研究和媒體報導。具體來說,是一些把「相關性」和「因果關係」混為一談報告與文章,無意間誤導了讀者重點所在。

我們應該要注意到這裡有兩個問題:有時候,原創性的科學研究也可能誤把相關性當成因果關係;然而,在日常生活中,你更可能遭遇到的,是媒體以錯誤的方式報導科學研究的發現。我們已經看過很多範例,媒體把科學發現報導成一種因果關係,但原始的研究僅表明其中有相關性而已。

從統計的觀點來看,我們可以在任兩個因素之間找到很多明顯的關連,比方說,戴眼鏡和高智商。這類關連──指數據之間有某種關係──稱為「相關性」。但就像本章接下來要探索的,兩個因素之間存在著統計關係,並不代表兩者之間存在著有意義的連結。

使用智慧型手機就會有智慧?

就從iPhone的研究談起吧, 這項研究探索每一州的iPhone使用情況,與各州擁有學士學位者在人口中的占比(以及其他因素)之間的關係,發現「iPhone的使用率和教育水準呈正相關。」但這僅表示iPhone使用者占比最高的州,同時也是擁有學士學位者占比最高的州而已。這不必然代表如果你用iPhone就會變得比較聰明。

相關性只是一種「雙變項關係」──這是一種花俏的說法,用來說明兩個變數之間有關係。雙變項關係並不代表一件事是引發另一件事的原因。請這樣想:你可以觀察到兩件事在統計上顯然有關係,但這樣的關係卻無法針對你真正在乎的問題提供任何答案──為什麼會出現這樣的關係,這份關係對於身為數據使用者的我們又有什麼意義?

前述這些觀察到的關係,彼此之間並非因果關係,可能的原因很多。比方說,如果你檢視「戴眼鏡的人比較聰明」這個說法,會發現原始研究實際上說的是上學的年限和近視之間有關係。讓我們暫且假設,上學越多年,代表你能成為更聰明的人(這是很強烈的假設,而且議題和原始文章不同)。這份研究從來沒說比較聰明的人都會戴眼鏡,而是指出,在學校多讀幾年書和你的視力之間有關係。兩者天差地遠,而且這裡講的是一種相關性。新聞為了要引起你注意,特意說視力和智力之間有關係,但研究的結論比較慎重,而且意義可能大不相同。比方說,實際上的關係可能反因為果:上學校的年限越長,眼睛承受的壓力越大,因此引發近視,戴眼鏡是為了矯正視力。

那麼,熬夜的人比較聰明,這個說法又是怎麼一回事?嗯,原始研究指出,研究當中智商最低的群組平均在晚間11點41分上床,而智商最高的群組則在午夜12點29分上床睡覺。這篇研究進行幾種統計分析,發現即便計入種族、年齡、性別、婚姻狀況、育兒狀況、教育水準、所得、宗教,以及工作時數的差異,智商比較高的人確實比較晚睡。在這樣的脈絡之下,統計分析顯然控制的不只是一組簡單的雙變項關係而已。但即便如此,統計學家仍不會將此視為因果關係的證據,不過是比較周密的相關性罷了。即便有這樣的分析,仍無法證明熬夜能提高智商。同樣的,因果關係可能是相反的,換言之,因為聰明,這些人必須熬夜做很多事。如果說,高智商的人比較可能熬夜把功課做完並多讀點書,這樣說有道理嗎?你可能看到同樣的統計關係,但因與果剛好相反。

所以,如果你希望孩子聰明,不用替他們配眼鏡,或買iPhone了。

看看少了什麼

人不只是想變得更聰明一點,還希望能更快樂、更健康、更富裕。正因為如此,你才會讀到以下這類新聞標題:

我們樂於住在星巴克附近,但不是因為可以提高房價,文章中也沒有證明這一點。我們不爭論數據,數據宣稱,離星巴克最近的房子在五年間增值超過20%,距離稍遠一點的房子則增值不到17%。但我們要質疑以下這種主張:「星巴克帶動了房價上漲」。

有可能,星巴克把店面開在市中心,這些地點房價本來就漲得比較快。星巴克的創意長兼全球開發長﹙過去是房地產總監﹚亞瑟.魯賓菲爾﹙Arthur Rubinfeld﹚還寫了一本書,詳論一般的加盟業者可以從星巴克的店址選擇中學到什麼,他的祕訣包括注意停車場的油污(這是代表附近交通流量大的信號)。
星巴克選擇的地點或許有人行道,而一般人樂於住在有人行道的地方。也或許,每開一家新的星巴克,隔壁就會來一家蘋果專賣店,而後者才是帶動房價上漲的理由。

我們不知道。這是重點。

遺漏變數

前述所有因素,包括市中心、人行道、蘋果專賣店等等,都可能是「遺漏變數」。遺漏變數的存在,是相關性不等於因果關係的主要原因之一。
請記住,當我們在談雙變項關係時,真的是這兩個變項之間的關係嗎?問題就在於,相關變數通常不只兩個。你找到兩個變數之間有關係(也稱為「相依」),但實際上還有第三個變數也很重要,這就是遺漏變數(而且,沒錯,你可能會有多個遺漏變數)。

星巴克有可能真的讓你的房屋增值,但星巴克也有可能是任何其他因素的「代理變數」,比方說人行道等等。就本例來說,代理變數是你認為和另一個因素密切相關的因素,但兩者其實並不相等。比方說,智商就是一個人天生能力的代理變數。智商測驗無法衡量你實際的能力,只是能知道在一個應該可以測出智力高低的測驗中,你的表現有多好。

在星巴克的範例中,我們知道兩個變數之間有關係,但我們不知道是否有其他遺漏變數。如果有任何遺漏變數存在,你就不知道你是否有區隔出其他有意義的關係。你必須確定你已經控制了其他會影響結果的因素,許多實證經濟學家與統計學家在他們整個職業生涯中,都在擔心遺漏變數的問題。

最後,當你在研究相關性時,請記住變數可能是正相關,也可能是負相關。就把這簡單想成兩個因素是同方向或是反方向變動即可。正相關性:星巴克的出現讓房價上漲,一方水漲,另一方跟著船高。負相關性的運作方式則相反:院子裡雜草叢生,讓你的房價下跌。在這個範例裡,當一個因素增加,另一個就會減少。在多數統計關係裡,我們在乎的是變動方向。如果我們發現你家附近出現一家星巴克反而拉低房價,就無法在星巴克和房價之間得出相同的結論。

另一種我們一開始用來測試相關性的方法,是看看這是否符合我們的經濟直覺。比方說,如果我們看到一份研究說毒販數目和房價之間有正相關性──換句話說,毒販越多,房價越高──我們馬上就會起疑(懷疑數據,同時也懷疑毒販)。嘗試找出相關性的類型,或許能幫助你判斷是否真的是因果關係,以及可能有哪些遺漏變數。

你永遠都無法確定是不是考慮到了每一個因素,但你通常可以刪去顯然很荒謬的因素。統計不會永遠完美,但能給我們一個框架,讓我們用科學的方法評估數據。

每日精選科技圈重要消息