1. 程式人生 > >如何高效快速的學習大數據

如何高效快速的學習大數據

http 容易 數據庫 flume 硬件 stash 收集 商業價值 整理

技術分享圖片

經常有初學者在博客和QQ問我,自己想往大數據方向發展,該學哪些技術,學習路線是什麽樣的,覺得大數據很火,就業很好,薪資很高。。。。。。。如果自己很迷茫,為了這些原因想往大數據方向發展,也可以,那麽我就想問一下,你的專業是什麽,對於計算機/軟件,你的興趣是什麽?是計算機專業,對操作系統、硬件、網絡、服務器感興趣?是軟件專業,對軟件開發、編程、寫代碼感興趣?還是數學、統計學專業,對數據和數字特別感興趣。。

其實這就是想告訴你的大數據的三個發展方向,平臺搭建/優化/運維/監控、大數據開發/設計/架構、數據分析/挖掘。請不要問我哪個容易,哪個前景好,哪個錢多。

我先普及一下大數據的4V特征:

  1. 數據量大,TB->PB

  2. 數據類型繁多,結構化、非結構化文本、日誌、視頻、圖片、地理位置等;

  3. 商業價值高,但是這種價值需要在海量數據之上,通過數據分析與機器學習更快速的挖掘出來;

  4. 處理時效性高,海量數據的處理需求不再局限在離線計算當中。

現如今,開源的大數據框架越來越多,越來越強,如下是我列舉的關於大數據技術方面的幾個服務框架:

文件存儲:Hadoop HDFS、Tachyon、KFS

離線計算:Hadoop MapReduce、Spark

流式、實時計算:Storm、Spark Streaming、S4、Heron

K-V、NOSQL數據庫:HBase、Redis、MongoDB

資源管理:YARN、Mesos

日誌收集:Flume、Scribe、Logstash、Kibana

消息系統:Kafka、StormMQ、ZeroMQ、RabbitMQ

查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

分布式協調服務:Zookeeper

集群管理與監控:Ambari、Ganglia、Nagios、Cloudera Manager

數據挖掘、機器學習:Mahout、Spark MLLib

數據同步:Sqoop

任務調度:Oozie

這麽多東東,怎麽開始,怎麽學習,別急,小編告訴你怎麽玩這些:大數據學習資料分享群119599574 不管你是小白還是大牛,小編我都挺歡迎,不定期分享幹貨,包括我自己整理的一份最新的適合2018年學習的大數據開發和零基礎入門教程,歡迎初學和進階中的小夥伴

如何高效快速的學習大數據