1. 程式人生 > >轉載--宏觀認識大數據圈

轉載--宏觀認識大數據圈

hba 大數據應用 為什麽 分布式 介紹 價值 大數據時代 super 當我

原文鏈接

最近幾年IT技術的發展真的是日新月異,什麽雲計算、大數據、機器學習、AI等等名詞層出不窮。多數程序員內心其實是恐慌的,我也時常會感到危機感。每每看到“xx培訓,大數據就業,錢景好”我嘴上說不要,身體還是很誠實的。
大數據已經深入我們的生活當中,今天呢我們也不聊4個V(Volume 規模大、Varity 多樣性、Velocity 高速性、Value 價值大)也不談數據挖掘,機器學習。就單純的用大白話聊聊大數據。
從哪裏開始說呢,我們先馬後炮一句,可以說“大數據的出現是順應了潮流”。為什麽這麽講,我們回想一下。我們從PC時代進入了移動互聯網時代,現在又重提物聯網。聯網的設備越來越多,人們對於網絡的依賴時間越來越長,自然產生的數據就越來越大,種類也越來越多。在技術上呢我們發展出了分布式和雲計算,分布式技術和雲計算高速發展,進而推進了大數據發展的進程。自此大數據擁有了3個V,,天時地利。而最重要的是大量的數據裏面存在著大量的價值,以致於各大互聯網企業想在大數據時代去獲得紅利(比如Google利用人們的搜索記錄挖掘數據二次利用的價值,Amazon利用用戶的購買和瀏覽記錄進行商品的針對性推薦等)。這就是最後一個V也就是人和。所以大數據技術也在飛速發展,發展成從采集、處理、存儲、計算到應用這麽一個完整的體系。

看到這估計有很多大佬會說“這遊戲真好玩,我要充錢!”。那麽我們如何入門大數據呢。相信每個人都有自己的學習方法,我自己的經驗呢是首先要有大局觀,然後再深入實踐,最後補充基礎。因為計算機技術涉及到的知識非常廣,想把底子打好再學習相關技術是一件非常困難的事情,不是因為你底子打不好,而是你底子打好了技術也更新換代了。所以我們先從大局入手,對整個技術和行業有一個大的認識,再選擇某一塊進行具體的學習作為切入點,最終對整個行業有一個自己的認識。
概覽
技術分享圖片

上面這張圖呢就是我自己根據大數據技術的特性進行分類,包含存儲、計算、常用工具、應用四大部分。每個分類下有常用的技術和開源項目等。我們先上圖,看看各個模塊都包含哪些技術。

存儲
技術分享圖片

我這裏把存儲分為兩類,一類是分布式文件存儲,一類是分布式數據庫。上面列出了常用的開源項目,比如HDFS,Hadoop的一大核心。Ceph 為OpenStack提供支持,HBase、Cassandra、MongoDB、Redis我們在工作中經常使用到。這麽一看,大數據其實也不難對吧。
計算
技術分享圖片

這張圖就是對於大數據的處理和計算部分了,有Hadoop的另一大核心MapReduce,我們熟知的分布式計算引擎Spark和Flink,數據倉庫Hive,數據分析引擎Presto、Impala和Drill以及機器學習相關的模塊比如TensorFlow等等。這些都是我們接觸大數據之後經常用到的技術和工具。

常用工具
技術分享圖片

這張圖裏面很多工具是早於大數據技術已經發展起來的,比如Solr、ES,還有很多是通用的工具比如可視化的工具superset。他們有一個共同的特點就是,好用。可以幫助我們解決很多問題,在大數據的場景也不例外,都是需要我們熟悉和了解的。
對於應用部分呢我不是太熟悉就不多介紹了。通過上面這幾張圖片呢我們可以先對大數據有一個大局觀。要想學好大數據技術,首先你要知道大數據如何存儲吧,要知道大數據如何處理和計算吧,要知道我們在大數據應用中常用的工具吧。這些了解之後我們可以深入的去了解某個技術使用方法,優缺點,適用場景,實現原理,體系架構,優化技巧等等。當我們對於行業內常用的技術都有了一個大致的了解之後,面對客戶的需求,不同行業的特性就可以提出針對性的解決方案,而不是空談大數據的規模大、多樣性、高速性和價值高了。
所以,你到現在有大局觀了嗎?快和我一起學習大數據吧。

原文鏈接

轉載--宏觀認識大數據圈