1. 程式人生 > >來自大資料的反思:需要你讀懂的10個小故事

來自大資料的反思:需要你讀懂的10個小故事


2011年以來,大資料旋風以“迅雷不及掩耳之勢”席捲中國。毋庸置疑,大資料已然成為繼雲端計算、物聯網之後新一輪的技術變革熱潮,不僅是資訊領域,經濟、政治、社會等諸多領域都“磨刀霍霍”向大資料,準備在其中逐得一席之地。

中國工程院李國傑院士更是把大資料提升到戰略的高度,他表示【1】,資料是與物質、能源一樣重要的戰略資源。從資料中發現價值的技術正是最有活力的軟技術,在資料技術與產業上的落後,將使我們像錯過工業革命機會一樣延誤一個時代。

在這樣的認知下,“大資料”日趨變成大家“耳熟能詳”的熱詞。圖1所示的是谷歌趨勢(Google Trends)顯示的有關大資料熱度的趨勢,從圖1中可以看到,在未來的數年裡,“大資料”的熱度可能還是“高燒不退”(圖1中虛線為未來趨勢)。


圖1 大資料趨勢(圖片來源:作者截圖)

在大資料熱火朝天前行的路上,多一點反思,多一份冷靜,或許能讓這路走的更好、更遠?例如,2014年4月,大名鼎鼎的《紐約時報》發表題為《大資料帶來的八個(不,是九個!)問題》(Eight (No, Nine!) Problems With Big Data)”的反思文章【2】,其中文中的第九個問題,就是所謂的“大資料的炒作(we almost forgot one last problem: the hype)”。同樣為重量級的英國報刊《財經時報》(Financial Times,FT)也刊發了類似反思式的文章“大資料:我們正在犯大錯誤嗎?(Big data: are we making a big mistake?

)”【3】

在大資料熱炒之中,大資料的價值是否被誇大了?是否存在人造的“心靈雞湯”?大資料技術便利帶來的“收之桑榆”,是否也存在自己的副作用——“失之東隅”——個人的隱私何以得到保障?大資料熱炒的“繁華過盡”,資料背後的巨大價值是否還能“溫潤依舊”?在眾聲喧譁之中,我們需要冷靜審慎地思考上述問題。

太多的“唐僧式”的說教,會讓很多人感到無趣。下文分享了10個從“天南地北”收集而來的小故事(或稱段子),從這些小故事中,可對熱炒的大資料反思一下,這或許能讓讀者更加客觀地看待大資料。有些小故事與結論之間的對應關係,或許不是那麼妥帖,諸位別太較真,讀一讀、樂一樂、想一想就好!

故事01:大資料都是騙人的啊——大資料預測得準嗎?

從前,有一頭不在風口長大的豬。自打出生以來,就在豬圈這個世外桃源里美滿地生活著。每天都有人時不時地扔進來一些好吃的東西,小豬覺得日子愜意極了!高興任性時,可在豬圈泥堆裡打滾耍潑。憂傷時,可趴在豬圈的護欄上,看夕陽西下,春去秋來,歲月不爭。“豬”生如此,夫復何求?
根據過往數百天的大資料分析,小豬預測,未來的日子會一直這樣“波瀾不驚”地過下去,直到它從小豬長成肥豬……在春節前的一個下午,一次血腥的殺戮改變了豬的信念:尼瑪大資料都是騙人的啊……慘叫嘎然而止。

圖2 大資料預測:都是騙人的

這則“人造寓言”是由《MacTalk·人生超程式設計》一書作者池建強先生“杜撰”而成的【4】。池先生估計是想用這個搞笑的小寓言“黑”一把大資料。

我們知道,針對大資料分析,無非有兩個方面的作用:(1)面向過去,發現潛藏在資料表面之下的歷史規律或模式,稱之為描述性分析(Descriptive Analysis);(2)面向未來,對未來趨勢進行預測,稱之為預測性分析(Predictive Analysis)。把大資料分析的範圍從“已知”拓展 到了“未知”,從“過去” 走向 “將來”,這是大資料真正的生命力 和“靈魂” 所在。

那頭“悲催”的豬,之所以發出“大資料都是騙人的啊”吶喊,是因為它的得出了一個錯誤的“歷史規律”:根據以往的資料預測未來,它每天都會過著“飯來張口”的豬一般的生活。但是沒想到,會發生“黑天鵝事件”——春節的殺豬事件。

黑天鵝事件(Black Swan Event) 通常是指,難以預測的但影響甚大的事件,一旦發生,便會引起整個局面連鎖負面反應甚至顛覆。讀者可閱讀納西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)所著的暢銷書《黑天鵝》,來獲得對“黑天鵝事件”更多的理解。

其實,我們不妨從另外一個角度來分析一下,這個搞笑的小寓言在“黑”大資料時,也有失敗的地方。通過閱讀知道,舍恩伯格教授在其著作《大資料時代》的第一個核心觀點就是:大資料即全資料(即n=All,這裡n為資料的大小),其旨在收集和分析與某事物相關的“全部”資料,而非僅分析“部分”資料。

那頭小豬,僅僅著眼於分析它“從小到肥”成長資料——區域性小資料,而忽略了“從肥到沒”的歷史資料。資料不全,結論自然會偏,預測就會不準。

要不怎麼會有這樣的規律總結呢:“人怕出名,豬怕壯”。豬肥了,很容易先被抓來殺掉。這樣的“豬”血淚史,天天都上演的還少嗎?上面的小寓言,其實是告訴我們:資料不全,不僅坑爹,還坑命啊!

那麼,問題來了,大資料等於全資料(即n=All),能輕易做到嗎?

故事02:顛簸的街道——對不起,“n=All”只是一個幻覺

波士頓市政府推薦自己的市民,使用一款智慧手機應用——“顛簸的街道(Street Bump,網站訪問連結:http://www.streetbump.org/)”。這個應用程式,可利用智慧手機中內建的加速度感測器,來檢查出街道上的坑窪之處——在路面平穩的地方,感測器加速度值小,而在坑坑窪窪的地方,感測器加速度值就大。熱心的波士頓市民們,只要下載並使用這個應用程式後,開著車、帶著手機,他們就是一名義務的、兼職的市政工人,這樣就可以輕易做到“全民皆市政”。市政廳全職的工作人員就無需親自巡查道路,而是開啟電腦,就能一目瞭然的看到哪些道路損壞嚴重,哪裡需要維修,如圖3所示。


圖3 顛簸的街道 (圖片來源:作者截圖)

波士頓市政府也因此驕傲地宣佈,“大資料,為這座城市提供了實時的資訊,它幫助我們解決問題,並提供了長期的投資計劃”。著名期刊《連線》(Wired)也毫不吝嗇它的溢美之詞【5】:這是眾包(Crowdsourcing)改善政府功能的典範之作。

眾包是《連線》雜誌記者Jeff Howe於2006年發明的一個專業術語,用來描述一種新的商業模式。它以自由自願的形式外包給非特定的大眾網路的做法。眾包利用眾多志願員工的創意和能力——這些志願員工具備完成任務的技能,願意利用業餘時間工作,滿足於對其服務收取小額報酬,或者暫時並無報酬,僅僅滿足於未來獲得更多報酬的前景。

然而,從一開始,“顛簸的街道”的產品設計就是有偏的(bias),因為使用這款App的物件,“不經意間”要滿足3個條件:(1)年齡結構趨近年輕,因為中老年人愛玩智慧手機的相對較少;(2)使用App的人,還得有一部車。雖然有輛車在美國不算事,但畢竟不是每個人都有;(3)有錢,還得有閒。前面兩個條件這還不夠,使用者還得有“閒心”, 想著開車時開啟“顛簸的街道”這個App。想象一下,很多年輕人的智慧手機安裝的應用程式數量可能兩位數以上,除了較為常用的社交軟體如Facebook或Twitter(中國使用者用得較多的是微博、微信等)記得開機執行外,還有什麼公益軟體“重要地”一開車就記得開啟?

“顛簸的街道”的理念在於,它可以提供 “n=All(所有)”個坑窪地點資訊, 但這裡的“n=All(所有)”也僅僅是滿足上述3個條件的使用者記錄資料,而非“所有坑窪點”的資料,上述3個條件,每個條件其實都過濾了一批樣本,“n=All”註定是不成立的。在一些貧民窟,可能因為使用手機的、開車的、有閒心的App使用者偏少,即使有些路面有較多坑窪點,也未必能檢測出來。

《大資料時代》的作者舍恩伯格教授常用“n=All”,來定義大資料集合。如果真能這樣,那麼就無需取樣了,也不再有采樣偏差的問題,因為取樣已經包含了所有資料。

暢銷書《你的數字感:走出大資料分析與解讀的誤區》(Numbersense: How to Use Big Data to Your Advantage)的作者、美國紐約大學統計學教授Kaiser Fung,就毫不客氣地提醒人們,不要簡單地假定自己掌握了所有有關的資料: “N=All(所有)”常常僅僅是對資料的一種假設,而不是現實。

微軟-紐約首席研究員Kate Crawford也指出,現實資料是含有系統偏差的,通常需要人們仔細考量,才有可能找到並糾正這些系統偏差。大資料,看起來包羅永珍,但“n=All”往往不過是一個頗有誘惑力的假象而已。

“n=All”,夢想很豐滿,但現實很骨感!

但即使具備全資料,就能輕易找到隱藏於資料背後的有價值資訊嗎?請接著看下面的故事。

故事03:醉漢路燈下找鑰匙——大資料的研究方法可笑嗎?

一天晚上,一個醉漢在路燈下不停地轉來轉去,警察就問他在找什麼。醉漢說,我的鑰匙丟了。於是,警察幫他一起找,結果路燈周圍找了幾遍都沒找到。於是警察就問,你確信你的鑰匙是丟到這兒嗎?醉漢說,不確信啊,我壓根就不知道我的鑰匙丟到哪兒。警察怒從心中來,問,那你到這裡來找什麼?醉漢振振有辭:因為只有這裡有光線啊!


圖4 醉漢路燈下找鑰匙(圖片來源:經濟學人)

這個故事很簡單,看完這個故事,有人可能會感嘆醉漢的“幼稚”、“可笑”。但不好笑的是,“烏鴉笑豬黑,自己不覺得”,這個故事也揭示了一個事實:在面臨複雜問題時,我們的思維方式也常同這個醉漢所差無幾,同樣也是先在自己熟悉的範圍和領域內尋找答案,哪怕這個答案和自己的領域“相隔萬里”!

還有人甚至認為,醉漢找鑰匙的行為,恰恰就是科學研究所遵循的哲學觀。前人的研究成果,恰是是後人研究的基石,也即這則故事中的“路燈”。到路燈下找鑰匙,雖看來有些荒唐,但也是“無奈之下”的明智之舉。

資料那麼大,價值密度那麼低,你也可以去分析,但從何分析起?首先想到的方法和工具,難道不是當下你最熟悉的?而你最熟悉的,就能確保它就是最好的嗎?

沃頓商學院著名教授、紐約時報最佳暢銷書作者喬納•伯傑(Jonah Berger)從另外一個角度,解讀這個故事【6】:在這裡,浩瀚的黑夜就是如同全資料,“鑰匙”就好比是大資料分析中我們要找到的價值目標,他認為,“路燈”就好比我們要達到這個目標的測量“標尺”,如果這個標尺的導向有問題,順著這個標尺導引,想要找到心儀的“鑰匙”,是非常困難的!在我們痴迷於某項自己熟悉的特定測量標尺之前,一定要提前審視一下,這個測量標尺是否適合幫助我們找到那把“鑰匙”,如果不能,趕快換一盞“街燈”吧!

如果在黑暗中丟失的鑰匙,是大資料中的價值,那這個價值也太稀疏了吧。下面的故事,讓我們聊聊大資料的價值。