大資料到底是什麼?大資料技術有哪些優點?
究竟什麼是大資料?如何對大資料進行定義?大資料有哪些特徵?瞭解了這些才能更好的知道自己學習是怎樣的一門技術,以及它的前景如何。本文達妹就帶大家一起了解大資料。
DT時代,人人言必稱大資料,所有的新系統幾乎都是基於大資料,有人認為用了MongoDB就是大資料,也有人用了Hadoop就是大資料,或者認為資料量大就是大資料。
在這裡我還是要推薦下我自己建的大資料學習交流qq裙: 957205962, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴
更有甚者,筆者看到一篇新聞報道,說某企業成功實施大資料專案,結果只是SQL-Server叢集……天吶,這可是上世紀的技術了!
說了這麼多到底什麼是大資料呢,其實大資料並沒有教科書式的明確定義,但是卻有比較公認的特性描述,符合這些特性的就可以稱作大資料,即大資料的4個V。
第一個V——高容量
這個最好理解,資料量一定要大,才好意思稱自己為大資料嘛。大到什麼程度呢?依目前行情來看,至少也要到TB級,很多案例都是PB甚至更高。但如果是GB級,非說自己是大資料也不是不可以,就是有點無顏見江東父老啊……
第二個V——多樣化
這個很關鍵了!是區別於以往海量資料探勘的最主要特徵。它有兩層含義,一是資料來源多樣化,系統資料、裝置日誌、感測器、檔案系統等等來源。二是資料結構多樣化,這是核心特徵!要包含結構化資料、非結構資料(包括所謂半結構化資料)。
總結起來就是,多源異構。這就是為什麼有人認為使用NoSQL資料庫(如MongoDB)就是大資料了,因為滿足了多樣化的特徵,但其實還不夠。
第三個V——高速
即時效性,基本上至少也要達到億級資料一秒查詢,做的比較好的可以達到千億級資料一秒查詢。這個特徵幾乎決定了傳統技術架構無法滿足要求,因此Hadoop架構的出現催化了大資料的發展,也是有人認為Hadoop就是大資料的原因。
在這裡我還是要推薦下我自己建的大資料學習交流qq裙: 957205962, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴
第四個V——價值
這個很好理解,資料一定要有價值、而後才能產生價值。就好比存商品的叫才能倉庫,存垃圾的叫垃圾填滿坑一樣。沒價值的資料就像一個垃圾填滿坑,這也是為什麼資料治理在大資料實施中非常重要的原因之一。
最後,也是最重要的,以上4個V是邏輯與的關係,即需同時、注意是同時滿足上述四個特徵,就可以放心的說自己是大資料了!