hadoop生態圈的詳解

阿新 • • 發佈：2017-06-26

hadoop生態圈 hadoop學習線路 hadoop件組 hadoop

學習和使用hadoop有一年了，這裏主要分享一下對hadoop整體上的理解，分門別類的介紹一下相關組件，最後提供了建議的學習路線，希望對hadoop的初學者有參考作用。

1. Hadoop核心件組有哪些? 廣義hadoop指什麽?

核心組件有：Hdfs、Yarn、MapReduce;
廣義上指一個生態圈，泛指大數據技術相關的開源組件或產品，如hdfs、yarn、hbase、hive、spark、pig、zookeeper、kafka、flume、phoenix、sqoop。

2. Spark與hadoop之間有什麽聯系

Spark也是一個生態圈，發展非很快，在計算方面比mapreduce要快很多倍，供了一個簡單而豐富的編程模型，支持多種應用，包括

ETL、機器學習、數據流處理、圖形計算；
Hadoop和Spark在某些方面有重疊，但組件之間都可以很好的協同作戰。

3. 分門別類介紹其中詳細組件

為了方便理解以下按照功能進行了分類，並且把較為流行的排在了前面介紹，列表如下：

分類	相關產品
文件系統	HDFS,目前大量采用的分布式文件系統，是整個大數據應用場景的基礎通用文件存儲組件 S3, Simple Storage Service簡單存儲服務，更好的可擴展性，內置的持久性，以及較低的價格
資源調度	YARN,分布式資源調度，可以接收計算的任務把它分配到集群各節點處理，相當於大數據操作系統，通用性好，生態支持好； Mesos，同YARN類似，偏向於資源的抽象和管理
計算框架	Spark序列，有流計算、圖計算、機器學習； Flink，支持計算數據不斷變化，即增量計算； Storm，專註於流式計算，功能強大； Mapreduce, 分布式計算基本計算框架，編程難度高，執行效率低
數據庫	Hbase，一種NoSQL列簇數據庫，支持數十億行數百萬列大型數據儲存和訪問，尤其是寫數據的性能非常好，數據讀取實時性較好，提供一套API，不支持SQL操作，數據存儲采用HDFS； Cassandra，對大型表格和 Dynamo支持得最好； Redis，運行異常快，還可應用於分布式緩存場景
SQL支持	Spark SQL，由Shark、Hive發展而來的，以SQL方式訪問數據源（如hdfs、hbase、S3、redis甚至關系統數據庫等，下同）； Phoenix，一套專註於SQL方式訪問hbase的JDBC驅動，支持絕大部分SQL語法，支持二級索引，支持事務，低延時； Hive，通過HQL（類似SQL）來統計分析生成查詢結果，通過解析HQL生成可以Mapreduce上執行的任務，典型的應用場景是與hbase集成；其它：impala、pig等，都實現了類似的功能，解決了直接寫map/reduce分析數據的復雜性，降低了數據分析工作者或開發人員使用大數據的門檻
其它工具	分布式協作zookeeper,可以理解為一個小型高性能的數據庫，為生態圈中與很多組件提供發布訂閱的功能，還可以監測節點是否失效（心跳檢測），如HBase、Kafka中利用zookeeper存放了主從節點信息； Kafka, 是一種分布式的，基於發布/訂閱的消息系統,類似於消息對列的功能，可以接收生產者（如webservice、文件、hdfs、hbase等）的數據，本身可以緩存起來，然後可以發送給消費者（同上），起到緩沖和適配的作； Flume,分布式的海量日誌采集、聚合和傳輸的系統，主要作用是數據的收集和傳輸，也支持非常多的輸入輸出數據源； Sqoop，主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞，可以將一個關系型數據庫（例如： MySQL ,Oracle ,Postgres等）中的數據導進到Hadoop的HDFS中，也可以將HDFS的數據導進到關系型數據庫中

4. 典型的組合使用場景

Hadoop、Spark生態圈的組件是相互配合使用的，每個組件都有自己“用武之地”，組合起來完成即可以滿足各種系統業務需求，下面列舉兩個例子：

（1）數據采集、存儲、分析場景

該場景下完成了整個數據的采集、存儲、分析，並輸出結果，組件搭配如下：

Flume + kafka(zookeeper)+ Hdfs + Spark/Storm/Hive + Hbase (Zookeeper、Hdfs) /Redis

說明如下：

Flume用來從種渠道（如http、exec、文件、kafka , …）收集數據，並發送到kaffka(當然也可以存放到hdfs、hbase、file、…)
Kafka可以緩存數據，與flume一樣也支持各種協議的輸入和輸出，由於kafka需要zookeeper來完成負載均衡和HA，所以需要zookeeper來支持
開始計算，這裏有三種選擇，Spark/Storm/Hive，各有優勢，相對Hive目前仍使用廣泛，該技術出現的較早；Storm專註於流式處理，延遲非常低； Spark最有前景的計算工具；不管用什麽，最終都是對數據的清理、統計，把得到的結果輸出
展示結果數據存儲，可以使用Hbase kafka(zookeeper) /Redis或mysql等，看使用場景（數據量大小等因素），由於處理之後的結果數據一般比較少可以直接放到Redis，然後就可以采用常規的技術展示出報表或其它消費方式使用這些計算後的結果數據

（2）數據存儲和實時訪問

這種場景非常類似常規應用開發場景，即通過java的JDBC來訪問大數據集群，組件搭配：

Jdbc + Solr + Phoenix/Spark sql + Hbase kafka(zookeeper) + Hdfs

說明如下：

Jdbc是通用的java操作數據庫的方式，使用的是sql語句
Solr為全文檢索，完成站點分詞搜索功能
Phoenix/Spark sql方便以jdbc方式訪問Hbase數據庫
Hdfs最終完成數據的物理存儲

5. 建議的學習線路

僅憑個人經驗，大概的分了三個階段，如下：

技術分享

本文出自 “飛浪博客” 博客，請務必保留此出處http://cpaqyx.blog.51cto.com/1443979/1941677

hadoop生態圈的詳解

hadoop生態圈詳解

學習和使用hadoop有一年了，這裡主要分享一下對hadoop整體上的理解，分門別類的介紹一下相關元件，最後提供了建議的學習路線，希望對hadoop的初學者有參考作用。 1. Hadoop核心件組有哪些? 廣義hadoop指什麼? l 核心元件有：Hdfs、Y

hadoop生態圈的詳解

hadoop生態圈 hadoop學習線路 hadoop件組 hadoop 學習和使用hadoop有一年了，這裏主要分享一下對hadoop整體上的理解，分門別類的介紹一下相關組件，最後提供了建議的學習路線，希望對hadoop的初學者有參考作用。 1. Hadoop核心件組有哪些? 廣義

Hadoop之WordCount詳解

ride 開始 zookeepe ati 程序 form 數組 -c 狀態花了好長時間查找資料理解、學習、總結這應該是一篇比較全面的MapReduce之WordCount文章了耐心看下去 1，創建本地文件在hadoop-2.6.0文件夾下創建一個文件夾data，在其

hadoop fs 命令詳解

detail -s AD 命令詳解 style 宋體 details s/4 AI 轉載: https://blog.csdn.net/bgk083/article/details/49454209hadoop fs 命令詳解

Hadoop生態圈-hive編寫自定義函數

Hadoop生態圈-Hive的基本使用方法

Hadoop生態圈-Hbase過濾器（Filter）

Hadoop生態圈-hive優化手段-作業和查詢優化

Hadoop生態圈-phoenix的視圖（view）管理

oop 視圖聲明版權作品管理原創 view 創作　　　　　　　　　　　　　　　　　　　　　　Hadoop生態圈-phoenix的視圖（view）管理　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正傑版權

Hadoop生態圈-Flume的組件之sink處理器

sin AD 生態圈 ado hadoop生態圈 sink 轉載 flume 創作　　　　　　　　　　　　　　　　　　Hadoop生態圈-Flume的組件之sink處理器　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正傑版權聲

Hadoop生態圈-Flume的組件之自定義攔截器（interceptor）

events nbsp sin capacity figure IV mem nap code 　　　　　　　　　　　　　　　　Hadoop生態圈-Flume的組件之自定義攔截器（interceptor）　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

Hadoop生態圈-Kafka的完全分布式部署

Hadoop生態圈-Kafka的API之生產者-消費者

HA size ron 作品消費消費者 hadoop ado 原創　　　　　　　　　　　　　　　　　　　　Hadoop生態圈-Kafka的API之生產者-消費者　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正傑版權

Hadoop生態圈-Azkaban部署實戰

Hadoop生態圈-Cloudera Manager的基本使用

Hadoop生態圈-使用Ganglia監控flume中間件

作品 code ystemd png 節點 grep 開源 aci nsa 　　　　　　　　　　　　　　　　　　　　Hadoop生態圈-使用Ganglia監控flume中間件　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正傑版

Hadoop生態圈-CDH5.15.1升級預設的spark版本

　　　　　　　　　　　　　　　　　　Hadoop生態圈-CDH5.15.1升級預設的spark版本　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正傑版權宣告：原創作品，謝絕轉載！否則將追究法律責任。　　在我的CDH5.11叢集中，預

Hadoop生態圈-CDH5.15.1升級默認的spark版本

ras top cloudera cat group ons wget 聲明 pan 　　　　　　　　　　　　　　　　　　Hadoop生態圈-CDH5.15.1升級默認的spark版本　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者

Hadoop之HDFS詳解

1、HDFS的概念和特性　　它是一個檔案系統，其次是分散式的　　重要特性：　　　　1).HDFS中的檔案在物理上是分塊儲存（block）,新版預設128M 　　　　2).客戶端通過路徑來訪問檔案，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data 　　

Hadoop之Hive詳解

1、什麼是Hive 　　hive是基於hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映為一張資料庫表　　並提供類sql查詢功能 2、為什麼要用Hive 　　1、直接使用hadoop所面臨的問題　　　　人員學習成本太高　　　　專案週期要求太短　　　　MapReduce實現複雜查詢邏輯開發

hadoop生態圈的詳解

1. Hadoop核心件組有哪些? 廣義hadoop指什麽?

2. Spark與hadoop之間有什麽聯系

3. 分門別類介紹其中詳細組件

4. 典型的組合使用場景

5. 建議的學習線路

相關推薦