1. 程式人生 > >論大資料教的起源

論大資料教的起源

作為嚴肅的學術性自媒體,我們從今天開始進入一個更加聖潔的領域——大資料(Big Data)。請諸位讀者找一個面朝大海、春暖花開的小木屋(把你的手機桌布換成這樣一副圖也可以),慢慢地閉上眼晴,從心靈深處盪漾起一串串的 0 和 1,隨著本文的展開,進入令人激動和顫抖的大資料之國,用虔誠的祈禱去解決你生命中的一切悲哀與彷徨吧!

為什麼這段話飽含淚水?因為我對大資料愛得深沉。

在當今的中國,你不能把大資料僅僅看成一項技術,它已經成為網際網路時代一種新宗教。現在,IT 相關或不相關從業者們最關心的三個終極哲學問題就是:我從哪裡來?我要到哪裡去?我為什麼會出現在大資料群裡(見下圖)?當然,筆者並非此教的神職人員,因此更多的是從旁觀者的角度,來探討“大資料教”的源流與發展。

enter image description here

首先,要解釋一下“Big Data”這個詞本身。大多數讀者可能並不知道,其中的“big”這個詞,實際上是音譯自漢語的藉詞,而原文諸位都不陌生,就是“逼格”。為什麼要在“data”前面加上這樣的定語呢?大資料在宗教化之前有什麼實際功用麼?大資料相關的社會階級現狀與訴求又如何呢?彆著急,聽我慢慢道來。

我們先來看看歷史上狹義的大資料是什麼樣的。在網際網路紀元之前,主要的資料處理是針對交易資料。什麼是交易資料呢?也就是業務運營過程中不得不記錄的資料,例如銀行的轉帳、存款、利息,運營商的充值、流量減免等。由於一致性要求高、時延控制嚴格、價值密度高,交易資料的加工和處理並不簡單,而傳統的 IT 廠商,特別是 IOE(IBM、Oracle、EMC),在這方面積累了大量的產品和經驗。

而網際網路誕生以後,以使用者上網行為為代表的行為資料,也被無心插柳地記錄下來了。這些行為資料的體量巨大,但在一開始並沒有得到真正的重視。不過,隨著個性化推薦、計算廣告、個人徵信等業務優化和變現應用的開展,大家發現,這些行為資料裡也蘊含著巨大的總量價值。不過,由於價值密度低、一致性要求不高,行為資料的加工處理,往往並不適用 IOE 的方案,而是為成本大大降低、吞吐量大大提高的開源框架所替代,並且其輸出的結果一般是服務於自動的機器,而非領導與人工決策者。

簡單來說,以開源框架為基礎,大規模地處理使用者行為資料,並服務於自動化的決策過程,是大資料在宗教化之前基本的外延。

然而,當主流媒體和專家討論大資料時,你看到的卻往往是這樣的語錄:

  • 大資料科學家=統計學家+程式設計師+講故事的人+藝術家

  • “體會、體驗、直覺、靈機一動、內省”這些看似與大資料無關的東西有可能恰恰就是大資料的核心

  • 全球資料量每 18 個月翻番,到2015年,中國專用大資料人才預計缺口將達到 1400 萬

  • 大資料將改變{你的生活|全球貿易|傳統教育|石油開採|…}

如果將這些語錄收集在一起,一本新的經書就誕生了。與《聖經》或《古蘭經》一樣,它涉及你生活的方方面面,從靈魂深處對中午吃麵應該打什麼滷、出門應該先邁哪隻腳,以及是否應該帶著尿布喝啤酒等問題(編者注:沃爾瑪通過大資料分析發現年輕的爸爸買完尿布通常會買一瓶啤酒犒勞自己,因此沃爾瑪就把啤酒和尿布放在一塊銷售),給予哲學上和方法論的指導。這就是讓每一個網際網路人瘋狂的大資料教。

大資料教的影響已經滲透到了我們身邊的每一個細節之中:去年,一位快板表演藝術家曾經找到我,跟我探討是不是能把他們這種藝術形式改名為“大數來寶”;前兩天,我幾歲的兒子困惑於我和別人通話時經常提到的“大資料”一詞,滿臉狐疑地問我:“爸爸,你為什麼要把大樹鋸了啊?”

大資料能夠在中國的土壤上開枝散葉,取代陰陽五行成為解釋和指導世間萬物的第一法則,並不是偶然的,這與中國人的宗教觀大有關係。筆者有位朋友的遠方親戚,在西北三次皈依某教,因為每皈依一次可以領一袋面。聽說不明真相的教皇老人家,看著中國教徒數量的增長沾沾自喜。我有點莫名的悲哀:難道他連積分牆的留存差都不懂麼?

既然宗教已經由目的變成了手段,那麼信什麼,怎麼信,就不再是一成不變的,而且可以與時俱進,不斷髮展和演變。這樣的宗教觀在越南人的高臺教那裡達到了頂峰,看看他們的諸神列表就明白了:高臺仙翁大菩薩摩柯薩、釋迦牟尼、耶穌、老子、孔子、觀世音、李白、關公、姜太公、牛頓、維克多·雨果、莎士比亞、丘吉爾、克里孟梭、孫中山。您還打算信什麼?都給您預備齊了!那麼大資料這樣一個讓萬民興奮的概念,自然不會被中國的宗教締造者們放過。

一門宗教的興起,少不了兩個必要的條件:

首先,要有大多數人的認知層次不能解釋的自然或社會現象;

在中國傳統的商業運營中,資料的作用是被嚴重忽視了的。大量以個人崇拜和價值觀為核心競爭力的中小企業,從來沒有想到過用資料來輔助老闆們的神諭。因此,當他們聽說大洋彼岸的網際網路眾巨頭居然在資料神的幫助下,建立起一套躺著掙錢的商業體系,頓時感到無比錯愕。

於是,他們在生命中第一次拿起了計算器,打開了 Excel,面對著跳動的小數點激動地流下淚來。“I got it! I got it! Big data! My god!”而大資料,也就理所當然地成為他們心目中的神祗,和自己後半生財富無可替代的守護者。至於 Hadoop、Spark 這些神物,就如同新宗教裡的雲、羅、傘、蓋、花、罐、魚、腸,無需窺視其中天機,只要虔心禮讚與宣傳。

其次,某些特定的人或階級能夠從中獲得權力或利益。

大資料這樣一個宗教化概念,能夠為其教士群體帶來什麼樣的利益呢?在中國,一個概念要想成功宗教化,成為政府、企業、資本和不明真相的群眾共同膜拜的物件,關鍵要看其是否能“落地”。這裡的落地,指的是落實到房地產行業。對下層信眾而言,管你是基督教、天主教還是印度教,誰能分給我一袋面,我就信誰!

對上層教士而言,管你是物聯網、電子商務還是雲端計算、大資料,誰能讓我找個由頭拿地,我就傳誰的教!你看看這些概念,電子商務,可以建倉儲基地;雲端計算,可以建計算中心;而大資料,可以建資料中心。管他是倉儲基地還是資料中心,總免不了有些配套的寫字樓乃至住宅,這才是整個體系關鍵的杵門子。

於是,在萬民頂禮大資料的時代狂歡中,上層集團通過對教義(白皮書)、教會(行業聯盟)、教主(大資料專家)的組織與控制,可以獲得土地與財富,盡情地享受供養的特權;而中層教士們通過宣教大資料烏托邦,為各品種的豬插上資料的雙翼,順利地飛上風口,自己也可以在大資料時代守住中產與社會的中堅地位。

大資料教興起的時間雖然不長,卻誕生了錯綜複雜的諸多流派。除了共同信仰大資料神,他們在教義和戒律方面幾乎互無關聯,特別需要一次系統的論戰與總結。大資料教的主要流派包括:資料中心派、Excel 派、解決方案派、開源工具派、形而上學派、精品購物指南派等等。

令人遺憾的是,在這樣的時代裡,還有部分企業和偽專家,置改造世界的偉業於不顧,拘泥於站在陰暗面上報 Hadoop 和 Spark 的 Bug、指摘個性化推薦演算法的侷限性,深深地陷入工具主義和實用主義的泥潭。這樣狹隘的視野與思維,恐怕遲早為行業洪流所淘汰。

@北冥乘海生 2018.9

——————
推薦閱讀:
《The Coder》9 月刊聚焦程式設計師的職場江湖