1. 程式人生 > >工業大資料漫談2:大資料的特性

工業大資料漫談2:大資料的特性

        談到大資料,很多人的第一反應就是非常大量的資料,其實不然,5P的資料也許不是大資料,1P的反而是大資料。也就是說,大資料並不意味著絕對的資料所佔空間的巨大。

        那麼,怎麼理解大資料的“大”呢?我覺得吳軍博士在《智慧時代》一書中對於“大”有一段精彩的描述:

        英語裡的large和big翻譯成中文都是大的意思,因此很少有人關心為什麼大資料使用"big data"這個英語片語,而不是"large data"。但是,在大資料被提出之前,很多通過收集和處理大量資料進行科學研究的論文,都採用large或者vast(海量)這兩個英文單詞,而不是big。比如我們常常可以看到論文的標題包含"largeScaled...""Vast Data""Large Amount..."等片語,但是很少用Big。

        那麼big,large和vast到底有什麼差別呢。large和vast在程度上略有差別,後者可以看成是very large的意思。而big和它們的差別在於,big更強調的是相對小的大,是抽象意義上的大,而large和vast常常用於形容體量的大小。比如"large table"常常表示一張桌子的尺寸很大,而如果說"big table"其實是要表示這不是一張小桌子,真實尺寸是否很大倒不一定,但是這樣的說法是要強調已經稱得上大了,比較抽象。

        通過上面的描述我們可以有一個認識,就是大資料的“大”是相對的,不是絕對的,不是說有一個標準,超過多少就是大資料,沒超過就是小資料。那問題又來了,什麼樣的資料就是相對的“大”呢?這其實就是今天我們要探討的,大資料的特點,也就是說,具備這些特點的資料就是所謂的大資料,不具備這些特點,你就是搞出來1個ZB的資料(小科普一下,1ZB=1024×1024×1024TB),也不算大資料。

        說來說去,到底大資料有什麼特性啊?你還說不說,不說走了啊。

        哎,別急別急,這就開始說嘛。

        先看看業界大牛們都怎麼說,最流行的是下面的段子:

        業界(其實就是IBM,IBM牛嘛)將大資料的特徵歸納為4個“V”(大量Volume,多樣性Variety,價值Value,及時性Velocity):第一,資料體量巨大。大資料的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,資料型別繁多。比如,網路日誌、視訊、圖片、地理位置資訊等等。第三,價值密度低,商業價值高。第四,處理速度快而且及時。

        我最煩老外動不動就把個什麼破事總結成4V、5S、3P、雙飛啥的,咦,好像有奇怪的東西混進來了,不要關注這些細節,我們都是正能量,哈!有時候往往為了拼湊而喪失了本來的含義。

        吳軍博士就對此提出了自己的看法,他認為大資料的核心特點是:

        ★大資料最明顯的特徵是體量大。

        ★(大資料的特性中)其中最重要的含義是多維度。實際上,多維度的講法更加簡明而準確。

        ★大資料的第三個重要特徵,就是它的全面性,或者說完備性。

        看看,大牛們打起來啦吧,吳軍博士直接把Value忽略了,Variety也不太認可,認為更重要的不是多樣,而是多維度,Velocity直接就覺得不重要,反而覺得全面和完備是大資料更重要的特性。

        再來看王堅博士的觀點,王堅博士走的更遠,直接把4V扔進了垃圾堆。王堅博士在《線上》一書中有如下描述:

        我分享時說“大資料”這個名字叫錯了,它沒有反映出資料最本質的東西。

        其實大資料很早以前就有,只是那時的“大”還沒有意義。世界上最大的資料估計和網際網路一點關係都沒有,最大的資料估計存在於歐洲核子研究組織(CERN),那裡的對撞機中運算的資料可能一輩子都算不完。

        今天資料的意義並不在於有多“大”,真正有意思的是資料變得線上了,這恰恰是網際網路的特點。所有東西都能線上這件事,遠比“大”更能反映本質。

        哇!不愧是阿里的技術委員會主席,直接否了大資料這個詞了。

        再來看看維克托·邁爾·舍恩伯格在《大資料時代》一書中是怎麼描述大資料的:

        大資料是人們在大規模資料的基礎上可以做到的事情,而這些事情在小規模資料的基礎上是無法完成的。大資料是人們獲得新的認知,創造新的價值的源泉;大資料還是改變市場、組織機構,以及“政府”與公民關係的方法。

        好,看完了各路大神的論述,對大資料的特性是不是徹底混亂了?沒關係,看我的乾坤大挪移神功!

        我把大牛們的中心思想總結了一下,提出了大資料的特性理解:

        1、資料在其應用領域相對較大。例如,當我們研究全國人民的姓氏時,13億人的全部名稱就是這個領域最大的資料了,也許在硬碟上只佔幾百M的空間,但是已經是相對較大的資料;

        2、資料具備可操作性。即資料是否可以被計算機進行運算與操作,是否在網際網路上倒不是必須的,因為一些資料的天然特性是不能存在於網際網路中的。但是必須要通過計算機可處理,如果該資料不具備可操作性,一般也就談不上我們理解的大資料;

        3、資料具有一定程度的完整性、連續性,即可分析。假如我們手裡有3000輛汽車的執行資料,但是都是斷裂的、錯誤的,就很難進行分析和處理。

        我個人認為如果資料具備以上幾個特點,其實就可以說是我們一般人理解的大資料了。