1. 程式人生 > 其它 >理解大資料

理解大資料

起因:

從上大學至今,對大資料日常接觸,在校期間伴隨著大資料這個名詞也走過了三年,碰巧在今天看到了一篇文章(文章大致內容是描述某某高校的今年入學新生的資料,但是文章標題上的“大資料”三個字引起了我的注意,並有所感想),對於現在許多自媒體在寫文章時硬是要冠上“大資料”這個詞,對於就讀資料科學與大資料技術專業的我來說,感到一種煩躁,所以寫下本文章。

 

大資料:

一個近年來比較火的詞,其主要特徵就是“大”,何謂大?或許有人認為大這個概念是相對的,但這種想法是在沒有標準定義的情況下適用的,“大資料”在中國發展了十年的時間,業界也有個大概的標準了。“大資料”的“大”所指向的資料是海量的資料,海量就比較好理解了,所以對於上述文章使用了“大資料”一詞,我就想問一下,它所使用的資料是否是海量的?在網路上可以查詢到的中國的大學學生人數最多的是吉林大學,但是其在校學生人數也不足8w,新入學的大一新生人數也應該在2.5w左右,這個資料量無論如何也稱不上海量,頂多就是個大一點的資料集。況且,文章所做到的,充其量就是傳統的資料統計分析,難道在“大資料”還沒有火起來的時候沒有這種報表處理嗎?何必要在一篇普普通通的文章上強加“大資料”呢,這無非就是為了吸引眼球、流量,但是這卻干擾了大眾對這一名詞的理解,有意或無意中貶低了相關從業人員的技術價值。

 

大資料的特點:4V

第一個V是多樣性(Variety),指大資料包含不同格式的資料,既包括我們常見的結構化資料,還包括半結構化網頁資料,以及非結構化的視訊、音訊資料等。多樣性同時也表現在資料來源上,大資料的來源包括社交網路、搜尋引擎、通話記錄、感測器等多種渠道。

第二個是海量(Volume),指大資料的資料量很大,PB級的資料增長將是比較常見的情況,而且非結構化資料的規模佔總資料量的80%-90%,且增長速度比結構化資料快10-50倍。

第三個是快速化(Velocity),主要包括兩層意思,一是資料的存在具有時效性,需要快速處理,否則會造成資料丟失或者失去意義,二是處理速度的快速化,一些應用需要實時的處理結果,用以輔助決策等。

第四個V是價值(Value),指大資料中蘊含一些有價值的資訊,因此需要對大資料進行有效的分析處理。

 

更多關於“大資料”的詳細內容在網路上都可以搜尋得到,不再過多解釋,本文僅為批評那些不知所謂的自媒體,文畢。