大資料三個特點的理解
寫這篇文章始於對維克托前輩《大資料時代》的理解與思考,大資料的浪潮已經一波一波地拍打在中國的土地上,各行各業都在積極的探索與這一技術的接軌和發展的機遇,所以能夠見證並親歷這一個變革技術的時代我們這一代是幸運的。之所以說大資料時代是一次變革,不光是其技術進步所帶來的,其伴隨的思維衝擊與變革也是前所未有的。這些對於大資料時代到來的讚美之詞,在追捧大資料的人群中可以說是聲音此起彼伏,溢於言表。但是根據我身臨其境的觀察發現人群中的聲音有不乏少數的嘈雜與偏頗,所以想寫一篇文章來表述自己的理解以及和網友前輩們進行相關的交流。
維克托前輩在《大資料時代》中提出了大資料所具有的三個特點:
- 資料更多:不是隨機樣本,而是全體資料。
- 資料更雜:不是精確性,而是混雜性。
- 資料關係:不是因果關係,而是相關關係。
以下分別簡述我對其的理解。
一、資料要全體不是樣本
大資料的大是指所研究的資料集是資料的全體,而非隨機取樣得到的樣本。可是大部分人會慣性地認為大資料的大就是比現有的資料更多更大的一個絕對量,而不會有資料全體的概念,也就是說如果我們研究的資料全體只有MB的數量級,那麼我們的研究也是大資料範疇。這一慣性的認為始於以前小資料時代的取樣統計學分析的延續,彼時的統計學家們證明出:取樣分析的精確性隨著取樣隨機性的增加而大幅度提高。但與樣本數量的增加關係不大,也就是當樣本的數量達到某個值之後,從新個體身上得到的資訊會越來越少。這一特性彌補了我們當時無法獲取和處理更多資料的缺陷,但是在我們的心底,對於獲得更多更精確資料的願望是不曾黯淡過的。
歷史不足一百年的統計抽樣分析被習慣看作是文明得以建立的基石之一,就像幾何學定理和萬有引力定律一樣。但是這無法掩蓋它因時代技術落後無法採集、儲存、處理、分析總體資料,而採取以小見大這種捷徑所造成的固有缺陷:1、由於隨機性無法真正做到,對於問題的子類別情況的考察就很困難;2、無法發現取樣過程中所缺失掉部分的資訊。
大資料的這一特性所告訴我們的就是要關注全體資料,我們不能滿足於正態分佈一般中庸平凡的現象,生活中真正經常隱匿在細節之中,而取樣分析法卻無法捕捉到這些細節。
二、接受混雜的資料
當我們的視野從樣本擴大到總體的時候,所涉及的資料必然或多或少的加入一些在原來的標準看來是錯誤的資料。對於這一點我想說明的是,錯誤的存在像任何事物一樣必然有其存在的理由,極度地追求精確性無異於對真理的刻意逃避。這個理由對於大資料來說應該包含兩點:資料的廣泛性和取樣的高頻性。對於資料的廣泛性,開爾文說過“測量就是認知”,認知就是從不懂到懂的過程,這個過程應當是連續的而非跳躍。約束的條件越多越細越好理解,但隨著認知的加深,我們會去除或修改一些約束條件,使得問題所包含的可能性更加廣泛,不可避免會出現一些相背於之前約束的現象存在,也就是混在。對於取樣的高頻特性,其會彌補之前間隙性少量資料所丟失的某些未知資訊。概括一句話就是:大道不分好壞,存在皆有理由。
大資料基礎上的簡單演算法比小資料基礎上的複雜演算法更加有效
三、相關關係超越因果關係
- 以往難於通過因果關係去推斷的許多事情,都可以通過去尋找相關性來進行預測。
- 但是追求確切因果性的行為不會消失,大資料的預測會作為這種行為的指路燈來看待,因為對待問題的因果思路所建立的假設會容易因偏見而產生錯誤,如果通過相關關係建立的因果命題卻可以作為實證主義的探究方向。這或許會成為一種社會科技進步的模式,兩種關係兩相補充相互促進。
- 據此也會產生一些困惑,相關關係對因果關係是有幫助,但在科技發展速度如此之快的今天,我們知道了“是什麼”後,“為什麼”還很重要麼?這所引起的時代過渡會不會造成一個理論的斷層,進而使得人們拋棄理論的重要性?
- 我覺得第三點提出的疑問是否定的,因為對研究結果的解讀需要使用理論的支援。