1. 程式人生 > >Hadoop自學筆記(一)常見Hadoop相關項目一覽

Hadoop自學筆記(一)常見Hadoop相關項目一覽

-a https class Lucene 百萬 data fcm you 轉換

本自學筆記來自於Yutube上的視頻Hadoop系列。網址:

https://www.youtube.com/watch?v=-TaAVaAwZTs(當中一個)

以後不再贅述


自學筆記,難免有各類錯誤紕漏。請看者謹慎。


Hadoop的使用還有大數據時代什麽的就不說了。Hadoop不是一個單獨的工具,而是一整個生態系統。包括一系列工具。所以首先要先介紹一下Hadoop相關的工具和各類概念,是以後經常會接觸到的。


1. Hadoop Core


a) HDFS Hadoop分布式文件系統,Hadoop的核心之中的一個。會把TB, PB, ZB的數據切割成為以64M(默認)大小的數據塊分布存儲在不同硬盤上,而且給予備份(默認3份)


b) MapReduce Hadoop的數據處理模型。

簡單來說,處理能夠分為Map階段和Reduce階段。Map階段找出要處理的數據,Reduce階段來處理這些數據得到想要的結果。


c) YARN 未來版本號,相當於MapReduce2.0版。

一些升級比方。原來的MapReduce系統中,有JobTrackerTaskTracker,前者關註Name Node, 後者關註TaskNode, YARN裏面JobTracker 會更仔細一點,分成幾個分別關註job或者data


2. Hadoop Projects


a) PigHive:負責分析數據的。有點類似Hadoop

裏面的SQL工具。主要是由於每次使用就去寫MapReduce程序太麻煩(並且也不是人人都喜歡java),所以有這些工具來提供類SQL的支持。差別是Pig更像提供了一種腳本語言,然後會將其轉化為MapReduce, 而Hive提供類SQL語言。叫HiveQL


b) HBase, Cassandra. HBaseNOSQL類的數據庫。Hadoop的數據存儲方式。而且與PigHive無縫集成,基於googlebig table, 能夠支持數百萬列和億行的數據。

Cassandra主要涉及用來與Hadoop數據進行即時交互的工具。


c) HCatalog, Lucene, Hama, Crunch: HCatalog是日誌工具,能夠記錄我們用不同的工具如

PigHive的查詢記錄等。Lucene提供搜索功能。各類搜索。Hama在分析科學研究數據時候經常使用,Crunch用來表現MapReducepipeline。上述四個工具都能夠提供可視化的界面。


d) Avro, Thrift: 提供數據的序列化/,讓我們能夠把數據序列化後在不同的程序間共享。Avro能夠說是Hadoop基本的數據序列化工具。 Thrift主要用於不同開發語言間的數據序列化。


e) Drill, Mahout: 數據智能化。Drill用於數據挖掘;Mahout用於數據分類等。比方依據你聽的音樂智能推薦。

技術分享

3. Hadoop Incubation:

a) Sqoop: 關系數據庫和hadoop之間的數據交換

b) Flume: 即時日誌處理系統

c) Chukwa:

d) Zookeeper:同步server和不同的Cluster之間和合作,同一時候提供統一管理界面

e) Oozie: 大致相當於任務管理,比方先完畢一個Pig,然後再做一個Hive,然後Sqoop轉換,用Oozie控制

f) Knok。安全控制

g) HDT。用eclipse來開發Hadoop,比方MapReduce等。

h) Spark:宣稱比Hadoop快上百倍,主要把hadoop硬盤操作的東西放入內存中操作。Shark類似Spark,相相應hive.

i) Ambari:管理整個project的工具

j) 具體每一種工具,能夠去incubator.apache.org/projects/

技術分享

Hadoop自學筆記(一)常見Hadoop相關項目一覽