Hadoop自學筆記(一)常見Hadoop相關項目一覽
本自學筆記來自於Yutube上的視頻Hadoop系列。網址:
https://www.youtube.com/watch?v=-TaAVaAwZTs(當中一個)
以後不再贅述
自學筆記,難免有各類錯誤紕漏。請看者謹慎。
Hadoop的使用還有大數據時代什麽的就不說了。Hadoop不是一個單獨的工具,而是一整個生態系統。包括一系列工具。所以首先要先介紹一下Hadoop相關的工具和各類概念,是以後經常會接觸到的。
1. Hadoop Core
a) HDFS Hadoop分布式文件系統,Hadoop的核心之中的一個。會把TB, PB, ZB的數據切割成為以64M(默認)大小的數據塊分布存儲在不同硬盤上,而且給予備份(默認3份)
b) MapReduce Hadoop的數據處理模型。
簡單來說,處理能夠分為Map階段和Reduce階段。Map階段找出要處理的數據,Reduce階段來處理這些數據得到想要的結果。
c) YARN 未來版本號,相當於MapReduce2.0版。
一些升級比方。原來的MapReduce系統中,有JobTracker和TaskTracker,前者關註Name Node, 後者關註TaskNode, 在YARN裏面JobTracker 會更仔細一點,分成幾個分別關註job或者data等
2. Hadoop Projects
a) Pig,Hive:負責分析數據的。有點類似Hadoop
b) HBase, Cassandra. HBase是NOSQL類的數據庫。Hadoop的數據存儲方式。而且與Pig和Hive無縫集成,基於google的big table, 能夠支持數百萬列和億行的數據。
Cassandra主要涉及用來與Hadoop數據進行即時交互的工具。
c) HCatalog, Lucene, Hama, Crunch: HCatalog是日誌工具,能夠記錄我們用不同的工具如
d) Avro, Thrift: 提供數據的序列化/,讓我們能夠把數據序列化後在不同的程序間共享。Avro能夠說是Hadoop基本的數據序列化工具。 Thrift主要用於不同開發語言間的數據序列化。
e) Drill, Mahout: 數據智能化。Drill用於數據挖掘;Mahout用於數據分類等。比方依據你聽的音樂智能推薦。
3. Hadoop Incubation:
a) Sqoop: 關系數據庫和hadoop之間的數據交換
b) Flume: 即時日誌處理系統
c) Chukwa:
d) Zookeeper:同步server和不同的Cluster之間和合作,同一時候提供統一管理界面
e) Oozie: 大致相當於任務管理,比方先完畢一個Pig,然後再做一個Hive,然後Sqoop轉換,用Oozie控制
f) Knok。安全控制
g) HDT。用eclipse來開發Hadoop,比方MapReduce等。
h) Spark:宣稱比Hadoop快上百倍,主要把hadoop硬盤操作的東西放入內存中操作。Shark類似Spark,相相應hive.
i) Ambari:管理整個project的工具
j) 具體每一種工具,能夠去incubator.apache.org/projects/
Hadoop自學筆記(一)常見Hadoop相關項目一覽