Hadoop自學筆記（一）常見Hadoop相關項目一覽

阿新 • • 發佈：2017-05-26

-a https class Lucene 百萬 data fcm you 轉換

本自學筆記來自於Yutube上的視頻Hadoop系列。網址：

https://www.youtube.com/watch?v=-TaAVaAwZTs（當中一個）

以後不再贅述

自學筆記，難免有各類錯誤紕漏。請看者謹慎。

Hadoop的使用還有大數據時代什麽的就不說了。Hadoop不是一個單獨的工具，而是一整個生態系統。包括一系列工具。所以首先要先介紹一下Hadoop相關的工具和各類概念，是以後經常會接觸到的。

1. Hadoop Core

a) HDFS Hadoop分布式文件系統,Hadoop的核心之中的一個。會把TB, PB, ZB的數據切割成為以64M（默認）大小的數據塊分布存儲在不同硬盤上，而且給予備份（默認3份）

b) MapReduce Hadoop的數據處理模型。

簡單來說，處理能夠分為Map階段和Reduce階段。Map階段找出要處理的數據，Reduce階段來處理這些數據得到想要的結果。

c) YARN 未來版本號，相當於MapReduce2.0版。

一些升級比方。原來的MapReduce系統中，有JobTracker和TaskTracker,前者關註Name Node, 後者關註TaskNode, 在YARN裏面JobTracker 會更仔細一點，分成幾個分別關註job或者data等

2. Hadoop Projects

a) Pig，Hive:負責分析數據的。有點類似Hadoop

裏面的SQL工具。主要是由於每次使用就去寫MapReduce程序太麻煩（並且也不是人人都喜歡java），所以有這些工具來提供類SQL的支持。差別是Pig更像提供了一種腳本語言，然後會將其轉化為MapReduce，而Hive提供類SQL語言。叫HiveQL。

b) HBase, Cassandra. HBase是NOSQL類的數據庫。Hadoop的數據存儲方式。而且與Pig和Hive無縫集成，基於google的big table, 能夠支持數百萬列和億行的數據。

Cassandra主要涉及用來與Hadoop數據進行即時交互的工具。

c) HCatalog, Lucene, Hama, Crunch: HCatalog是日誌工具，能夠記錄我們用不同的工具如

Pig， Hive的查詢記錄等。Lucene提供搜索功能。各類搜索。Hama在分析科學研究數據時候經常使用，Crunch用來表現MapReduce的pipeline。上述四個工具都能夠提供可視化的界面。

d) Avro, Thrift: 提供數據的序列化/，讓我們能夠把數據序列化後在不同的程序間共享。Avro能夠說是Hadoop基本的數據序列化工具。 Thrift主要用於不同開發語言間的數據序列化。

e) Drill, Mahout：數據智能化。Drill用於數據挖掘；Mahout用於數據分類等。比方依據你聽的音樂智能推薦。

技術分享

3. Hadoop Incubation:

a) Sqoop: 關系數據庫和hadoop之間的數據交換

b) Flume: 即時日誌處理系統

c) Chukwa:

d) Zookeeper：同步server和不同的Cluster之間和合作，同一時候提供統一管理界面

e) Oozie: 大致相當於任務管理，比方先完畢一個Pig,然後再做一個Hive,然後Sqoop轉換，用Oozie控制

f) Knok。安全控制

g) HDT。用eclipse來開發Hadoop,比方MapReduce等。

h) Spark：宣稱比Hadoop快上百倍，主要把hadoop硬盤操作的東西放入內存中操作。Shark類似Spark，相相應hive.

i) Ambari：管理整個project的工具

j) 具體每一種工具，能夠去incubator.apache.org/projects/

Hadoop自學筆記（一）常見Hadoop相關項目一覽

-a https class Lucene 百萬 data fcm you 轉換本自學筆記來自於Yutube上的視頻Hadoop系列。網址： https://www.youtube.com/watch?v=-TaAVaAwZTs（當中一個）以後不再贅述自學筆

Hadoop自學筆記（一）常見Hadoop相關項目一覽

Hadoop自學筆記（一）常見Hadoop相關項目一覽

hadoop學習筆記（一）

大資料Hadoop學習筆記（一）

Hadoop自學筆記（三）MapReduce簡單介紹

Hadoop學習筆記（一）從官網下載安裝包

C# Hadoop學習筆記（一）—環境安裝

hadoop自學記錄（一）

hadoop搭建筆記（一）

初識ExtJS 6----自學筆記（一）

《Unity Shader入門精要》自學筆記（一）

Android studio 自學筆記（一）自定義 Dialog

WPF自學筆記（一）：簡易記事本（Rich TextBox）

Electron小白入門自學筆記（一）

uni-app小白入門自學筆記（一）

雪廬小酒學ExtJS（一）:ExtJS 6.2 項目搭建

SSM整合（一）：創建項目

從零開始VUE（一）運行Vue項目

大數據筆記（一）——Hadoop的起源與背景知識

《Hadoop Yarn權威指南》學習筆記（一）——Yarn架構

《資料演算法-Hadoop/Spark大資料處理技巧》讀書筆記（一）——二次排序

Hadoop自學筆記（一）常見Hadoop相關項目一覽

相關推薦