2015年6月14日 星期日

大數據的問題@eaton

大數據的問題 @eaton

梁先生講到大數據的問題:以往統計資料是以抽樣方法產出樣本,資料具備乾淨度,但大數據的資料非常凌亂混雜;更重要的是,過去結合學理所執行的實證分析強調精準,力求做出因果關係(causation)的認定,就是要知道事情何以至此(why);而大數據技術只能做到相關性(correlation)的瞭解,亦即僅知變數間的關係為何(what)。

抽樣樣本就比較乾淨嗎?很不一定。大數據資料的分析項度可以因需要而有選擇性,從而提高資料的乾淨度。分析大數據資料不是做學術研究,不必強調結論為普遍性原則,只要適用被分析的對象即可,如此才可能依個別特性差異使用量身訂製的分析模式。大數據資料的分析法包括演算法跟統計學,兩種方法的邏輯不同,不過找出預測信度高的演算法需要靈感與想像力。目前為止,我還是認為,大數據還沒那麼神,對創新的貢獻不大。

http://www.new7.com.tw/talk/talkView.aspx?i=TXT20150527165058FJZ
-----------------------
【梁國源專欄】戀上大數據之前 必須知道的事2015-05-27 16:51

http://www.new7.com.tw/talk/talkView.aspx?i=TXT20150527165058FJZ
去年九合一選舉,柯文哲的競選團隊利用大數據(Big Data)將他送上台北市長寶座後,讓台灣從政府單位到大小企業,皆加入追逐大數據的美夢中,猶如十多年前的“.com”風潮。

不可諱言,大數據技術相當重要,就像一九九○年代的網際網路(Internet)般。即使目前大數據應用尚介於萌芽─成長階段之間,且InfoChimps報告指出,大數據專案的失敗率仍高達五五%。但單就目前成功的案例來看,如以大數據分析紐約非法改建住宅相關資訊,有效減少消防員救援時受傷或死亡的機率,已讓人難以抗拒它的魅力。而與改變通訊形態的Internet相比,改變處理資訊方式的大數據,未來發展將更無可限量。

然而,大數據應用雖是各領域未來發展趨勢,卻非解決所有問題的萬靈丹。從統計學的觀點來看,大數據資料豈止巨量,甚至是趨近無限大,與傳統的統計分析以樣本為執行基礎不同;再者,以往統計資料是以抽樣方法產出樣本,資料具備乾淨度,但大數據的資料非常凌亂混雜;更重要的是,過去結合學理所執行的實證分析強調精準,力求做出因果關係(causation)的認定,就是要知道事情何以至此(why);而大數據技術只能做到相關性(correlation)的瞭解,亦即僅知變數間的關係為何(what)。

在這三種特質下,盲目地利用大數據所得的相關性結果去推論預定目標群中的人事物,是極有可能產生虛假相關(spurious correlation)。例如國外有部分犯罪學家聲稱,可以大數據預測某些犯罪案件的發生,仿若電影《關鍵報告》(Minority Report)再現。問題是,這些案件終究沒有成真,卻逕自陷人於罪或貼上負面標籤,又何嘗不是侵害人權?

再者,大數據應用普及化後,對隱私權侵害已不難預見;而政府與大企業取得個人各種行為數據較其他人容易,形成資訊極不對稱,甚或造成老大哥(Big Brother)監控疑慮,就像已曝光的美國稜鏡計畫(PRISM);抑或須以反托辣斯法制衡,避免Google、Facebook等業者重演早年微軟宰制電腦市場的局面。

最重要的是,縱使大數據應用再強大,也只能依賴相關性做到創新,卻始終無法達到發明的境界。因為,唯有人類獨到的創造力、直觀及追求知識的理想,才是社會進步的根源。就像蘋果創辦人賈伯斯(S. Jobs)推出以設計感著稱的iPhone等劃時代電子產品,依靠的並非大數據,而是獨一無二的直覺。

沒有留言: