2018年3月10日 星期六

數字會說真話,但也會說假話

數字會說真話,但也會說假話

相信大家都知道,孩子的耳朵與身高同步增長,但拉長他的耳朵,身高不會增高。這說明了兩者數字相關,但不具因果關係。

現在不少人,特別是政治人物,喜歡拿數字解釋事情。數字通常是真的,能解釋「相關性」,但很可能沒有「因果性」。這是最常犯的錯誤,但我看到不少大學教授也掉入陷阱!要知道,制定政策的依據在於「因果性」,而非「相關性」。

舉個例子。先聲明,這旨在說明數字陷阱,不代表喝咖啡與流產一定無關。美國女經濟學家歐絲特嗜愛咖啡也愛紅酒,她搜尋數百篇醫學研究後發現,喝咖啡而流產的比率遠高於不喝咖啡的女士。後來她懷孕了,但仍每天喝兩三杯咖啡,甚至每天喝一次紅酒。為什麼呢?歐絲特發現研究存在「遺漏參數」。

不喝咖啡及喝咖啡而流產的女士有一共通點,就是收入較低,營養不良機會大增,而且集中從事工時長或需輪班的勞動工作,所以喝咖啡提神。經過驗證,從事勞動工作而流產的相關性,較喝咖啡而流產的相關性高出近百倍,「喝咖啡」與「流產」相關,但「從事工時長或輪班工作」才存在因果關係。(在統計上,稱複共線性 multicollinearity)。

最後,練習一下,看到「台大生有5成來自大台北地區」的新聞,您應該推論不公平嗎?有甚麼「遺漏參數」呢?(eaton)

沒有留言: