大資料Hadoop生態系統介紹

阿新 • • 發佈：2022-04-04

一、概述
二、Hadoop的發展簡史
三、Hadoop生態系統

一、概述

Hadoop是Apache軟體基金會下一個開源分散式計算平臺，以hdfs（Hadoop Distributed File System）、MapReduce（Hadoop2.0加入了YARN，Yarn是資源排程框架，能夠細粒度的管理和排程任務，還能夠支援其他的計算框架，比如spark）為核心的Hadoop為使用者提供了系統底層細節透明的分散式基礎架構。hdfs的高容錯性、高伸縮性、高效性等優點讓使用者可以將Hadoop部署在低廉的硬體上，形成分散式系統。目前最新版本已經是3.x了，

官方文件

1）Hadoop發行版本

1、Apache Hadoop發行版

官方地址：https://hadoop.apache.org

Apache版本最原始（最基礎）的版本，對於入門學習最好。

2、DKhadoop發行版

Github地址：https://github.com/dkhadoop/dk-fitting

有效的集成了整個HADOOP生態系統的全部元件，並深度優化，重新編譯為一個完整的更高效能的大資料通用計算平臺，實現了各部件的有機協調。因此DKH相比開源的大資料平臺，在計算效能上有了高達5倍（最大）的效能提升。DKhadoop將複雜的大資料叢集配置簡化至三種節點（主節點、管理節點、計算節點），極大的簡化了叢集的管理運維，增強了叢集的高可用性、高可維護性、高穩定性。

3、Cloudera發行版

官方地址：https://www.cloudera.com/products/open-source/apache-hadoop.html

CDH是Cloudera的hadoop發行版，完全開源，比Apache hadoop在相容性，安全性，穩定性上有增強。

4、Hortonworks發行版

官方地址：https://www.cloudera.com/products/hdp.html

Hortonworks 的主打產品是Hortonworks Data Platform (HDP)，也同樣是100%開源的產品，其版本特點：HDP包括穩定版本的Apache Hadoop的所有關鍵元件;安裝方便，HDP包括一個現代化的，直觀的使用者介面的安裝和配置工具。

5、華為hadoop發行版

華為FusionInsight大資料平臺是集Hadoop生態發行版、大規模並行處理資料庫、大資料雲服務於一體的融合資料處理與服務平臺，擁有端到端全生命週期的解決方案能力。除了提供包括批處理、記憶體計算、流計算和MPPDB在內的全方位資料處理能力外，還提供資料分析挖掘平臺、資料服務平臺，幫助使用者實現從資料到知識，從知識到智慧的轉換，進而幫助使用者從海量資料中挖掘資料價值。

2）Hadoop1.x -》 Hadoop2.x的演變

3）Hadoop2.x與Hadoop3.x區別對比

License

Hadoop 2.x - Apache 2.0，開源
Hadoop 3.x - Apache 2.0，開源

支援的最低Java版本

Hadoop 2.x - java的最低支援版本是java 7
Hadoop 3.x - java的最低支援版本是java 8

容錯

Hadoop 2.x - 可以通過複製（浪費空間）來處理容錯。
Hadoop 3.x - 可以通過Erasure編碼處理容錯。

資料平衡

Hadoop 2.x - 對於資料，平衡使用HDFS平衡器。
Hadoop 3.x - 對於資料，平衡使用Intra-data節點平衡器，該平衡器通過HDFS磁碟平衡器CLI呼叫。

儲存Scheme

Hadoop 2.x - 使用3X副本Scheme。
Hadoop 3.x - 支援HDFS中的擦除編碼。

儲存開銷

Hadoop 2.x - HDFS在儲存空間中有200％的開銷。
Hadoop 3.x - 儲存開銷僅為50％。

儲存開銷示例

Hadoop 2.x - 如果有6個塊，那麼由於副本方案（Scheme），將有18個塊佔用空間。
Hadoop 3.x - 如果有6個塊，那麼將有9個塊佔用6塊空間，3個用於奇偶校驗。

YARN時間線服務

Hadoop 2.x - 使用具有可伸縮性問題的舊時間軸服務。
Hadoop 3.x - 改進時間線服務v2並提高時間線服務的可擴充套件性和可靠性。

預設埠範圍

Hadoop 2.x - 在Hadoop 2.0中，一些預設埠是Linux臨時埠範圍。所以在啟動時，他們將無法繫結。
Hadoop 3.x - 但是在Hadoop 3.0中，這些埠已經移出了短暫的範圍。

工具

Hadoop 2.x - 使用Hive，pig，Tez，Hama，Giraph和其他Hadoop工具。
Hadoop 3.x - 可以使用Hive，pig，Tez，Hama，Giraph和其他Hadoop工具。

相容的檔案系統

Hadoop 2.x - HDFS（預設FS），FTP檔案系統：它將所有資料儲存在可遠端訪問的FTP伺服器上。 Amazon S3（簡單儲存服務）檔案系統Windows Azure儲存Blob（WASB）檔案系統。
Hadoop 3.x - 它支援所有前面以及Microsoft Azure Data Lake檔案系統。

Datanode資源

Hadoop 2.x - Datanode資源不專用於MapReduce，我們可以將它用於其他應用程式。
Hadoop 3.x - 此處資料節點資源也可用於其他應用程式。

MR API相容性

Hadoop 2.x - 與Hadoop 1.x程式相容的MR API，可在Hadoop 2.X上執行。
Hadoop 3.x - 此處，MR API與執行Hadoop 1.x程式相容，以便在Hadoop 3.X上執行。

支援Microsoft Windows

Hadoop 2.x - 它可以部署在Windows上。
Hadoop 3.x - 它也支援Microsoft Windows。

插槽/容器

Hadoop 2.x - Hadoop 1適用於插槽的概念，但Hadoop 2.X適用於容器的概念。通過容器，我們可以執行通用任務。
Hadoop 3.x - 它也適用於容器的概念。

單點故障

Hadoop 2.x - 具有SPOF的功能，因此只要Namenode失敗，它就會自動恢復。
Hadoop 3.x - 具有SPOF的功能，因此只要Namenode失敗，它就會自動恢復，無需人工干預就可以克服它。

HDFS聯盟

Hadoop 2.x - 在Hadoop 1.0中，只有一個NameNode來管理所有Namespace，但在Hadoop 2.0中，多個NameNode用於多個Namespace。
Hadoop 3.x - Hadoop 3.x還有多個名稱空間用於多個名稱空間。

可擴充套件性

Hadoop 2.x - 我們可以擴充套件到每個群集10,000個節點。
Hadoop 3.x - 更好的可擴充套件性。我們可以為每個群集擴充套件超過10,000個節點。

訪問資料

Hadoop 2.x - 由於資料節點快取，我們可以快速訪問資料。
Hadoop 3.x - 這裡也通過Datanode快取我們可以快速訪問資料。

HDFS快照

Hadoop 2.x - Hadoop 2增加了對快照的支援。它為使用者錯誤提供災難恢復和保護。
Hadoop 3.x - Hadoop 2也支援快照功能。

平臺

Hadoop 2.x - 可以作為各種資料分析的平臺，可以執行事件處理，流媒體和實時操作。
Hadoop 3.x - 這裡也可以在YARN的頂部執行事件處理，流媒體和實時操作。

群集資源管理

Hadoop 2.x - 對於群集資源管理，它使用YARN。它提高了可擴充套件性，高可用性，多租戶。
Hadoop 3.x - 對於叢集，資源管理使用具有所有功能的YARN。

二、Hadoop的發展簡史

Hadoop最初是由Apache Lucene專案的創始人Doug Cutting開發的文字搜尋庫。Hadoop源自始於2002年的Apache Nutch專案——一個開源的網路搜尋引擎並且也是Lucene專案的一部分。
在2004年，Nutch專案也模仿GFS開發了自己的分散式檔案系統NDFS（Nutch Distributed File System），也就是HDFS的前身。
2004年，谷歌公司又發表了另一篇具有深遠影響的論文，闡述了MapReduce分散式程式設計思想。
2005年，Nutch開源實現了谷歌的MapReduce。
到了2006年2月，Nutch中的NDFS和MapReduce開始獨立出來，成為Lucene專案的一個子專案，稱為Hadoop，同時，Doug Cutting加盟雅虎。
2008年1月，Hadoop正式成為Apache頂級專案，Hadoop也逐漸開始被雅虎之外的其他公司使用。
2008年4月，Hadoop打破世界紀錄，成為最快排序1TB資料的系統，它採用一個由910個節點構成的叢集進行運算，排序時間只用了209秒。
在2009年5月，Hadoop更是把1TB資料排序時間縮短到62秒。Hadoop從此名聲大震，迅速發展成為大資料時代最具影響力的開源分散式開發平臺，併成為事實上的大資料處理標準。

三、Hadoop生態系統

HDFS——Hadoop分散式檔案系統，GFS的Java開源實現，運行於大型商用機器叢集，可實現分散式儲存。
MapReduce——一種並行計算框架，Google MapReduce模型的Java開源實現，基於其寫出來的應用程式能夠執行在由上千個商用機器組成的大型叢集上，並以一種可靠容錯的方式並行處理T級別及以上的資料集。（第一代的計算框架，自身存在一些弊端，所以導致企業裡已經很少使用了）。
Yarn——Apache Hadoop YARN （Yet Another Resource Negotiator，另一種資源協調者）是一種新的 Hadoop 資源管理器，它是一個通用資源管理系統，可為上層應用提供統一的資源管理和排程，它的引入為叢集在利用率、資源統一管理和資料共享等方面帶來了巨大好處。
Spark——Spark是加州大學伯克利分校AMP實驗室（Algorithms, Machines, and People Lab）開發的通用記憶體並行計算框架，借鑑了MapReduce之上發展而來的，繼承了其分散式平行計算的優點並改進了MapReduce明顯的缺陷。使用場景如下：
1. 複雜的批量處理（Batch Data Processing），偏重點在於處理海量資料的能力，至於處理速度可忍受，通常的時間可能是在數十分鐘到數小時；
2. 基於歷史資料的互動式查詢（Interactive Query），通常的時間在數十秒到數十分鐘之間
3. 基於實時資料流的資料處理（Streaming Data Processing），通常在數百毫秒到數秒之間
Storm——Storm用於“連續計算”，對資料流做連續查詢，在計算時就將結果以流的形式輸出給使用者。如今已被Flink替代。
Flink——Apache Flink是一個面向資料流處理和批量資料處理的可分散式的開源計算框架，它基於同一個Flink流式執行模型（streaming execution model），能夠支援流處理和批處理兩種應用型別。由於流處理和批處理所提供的SLA(服務等級協議)是完全不相同，流處理一般需要支援低延遲、Exactly-once保證，而批處理需要支援高吞吐、高效處理，所以在實現的時候通常是分別給出兩套實現方法，或者通過一個獨立的開源框架來實現其中每一種處理方案。
Flume——一個可用的、可靠的、分散式的海量日誌採集、聚合和傳輸系統。
Hive——是為提供簡單的資料操作而設計的分散式資料倉庫，它提供了簡單的類似
SQL語法的HiveQL語言進行資料查詢。
Zookeeper——分散式協調系統，Google Chubby的Java開源實現，是高可用的和可靠的分散式協同（coordination）系統，提供分散式鎖之類的基本服務，用於構建分散式應用。
Hbase——基於Hadoop的分散式資料庫，Google BigTable的開源實現是一個有
序、稀疏、多維度的對映表，有良好的伸縮性和高可用性，用來將資料儲存到各個計算節點上。
Cloudbase——基於Hadoop的資料倉庫，支援標準的SQL語法進行資料查詢。
Pig——大資料流處理系統，建立於Hadoop之上為平行計算環境提供了一套資料工
作流語言和執行框架。
Mahout——基於HadoopMapReduce的大規模資料探勘與機器學習演算法庫。
Oozie——MapReduce工作流管理系統。
Sqoop——資料轉移系統，是一個用來將Hadoop和關係型資料庫中的資料相互轉
移的工具，可以將一個關係型資料庫中的資料匯入Hadoop的HDFS中，也可以將HDFS
的資料匯入關係型資料庫中。
Scribe——Facebook開源的日誌收集聚合框架系統。

這裡只是列舉了一部分Hadoop生態裡的元件，稍微介紹了一下，上面提到的目前企業裡最常見的元件的原理介紹，安裝部署，以及企業級使用會在後續分享出來，請耐心等待……

大資料Hadoop生態系統介紹

@ 目錄一、概述 1）Hadoop發行版本 1、Apache Hadoop發行版 2、DKhadoop發行版 3、Cloudera發行版

[大資料]Hadoop HDFS檔案系統命令集

基本格式: hadoop fs -cmd [args] 1 Query 顯示命令的幫助資訊 # hadoop fs -help [cmd] 檢視HDFS檔案及目錄

大資料Hadoop 學習心得003 （操作篇）

主要對於Hadoop的MapReduce: MapReduce: Map:解析分發資料 Reduce：執行計算邏輯例如：DB--sql語句根據地址來從access運算資料（採用分而治之，並非採用單一的節點進行運算，多節點參與運算）

大資料開發_Linux系統之centos7 搭建 _ 靜態ip的配置

Linux系統之centos7 搭建第一階段靜態ip的配置大資料環境準備：三臺電腦（虛擬機器）

大資料技術生態體系

1.資料來源層：資料庫資料 Oracle、MySQL、SqlServer… 檔案日誌資料 Tomcat 日誌… 視訊、PPT等

一文縱覽大資料計算生態

歡迎關注wx公眾號：DLab資料實驗室關注更多知識乾貨～概述大資料計算髮展至今，已經形成了一個百花齊放的大資料生態，通用的、定製的，批量的、實時的，關係的、圖的、非結構的，資料計算的

大資料 hadoop

技術標籤：大資料hadoop 1.HADOOP背景介紹 1.1 什麼是HADOOP 1.HADOOP是apache旗下的一套開源軟體平臺 2.HADOOP提供的功能：利用伺服器叢集，根據使用者的自定義業務邏輯，對海量資料進行分散式處理 3.HADOOP的

大資料Hadoop基準測試標準你知道嗎？

技術標籤：大資料隨著開源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技術的商用化，大資料管理技術得到了突飛猛進的發展。

大資料Hadoop之mapreduce（二）

一、Mapreduce原理分析 1.1maptask執行機制　　（1）首先，讀取資料元件Inputformat（預設為TextInputFormat）會通過getsplit（）方法對對應目錄中的檔案進行邏輯切片，預設128M，一個切片對應一個maptask。

大資料 | 分散式檔案系統 HDFS

HDFS全稱Hadoop Distributed File System，看名字就知道是Hadoop生態的一個元件，它是一個分散式檔案系統。

大資料開發Linux系統之SSH的免登入原理

什麼是SSH 簡單說，SSH是一種網路協議，用於計算機之間的加密登入。如果一個使用者從本地計算機，使用SSH協議登入另一臺遠端計算機，我們就可以認為，這種登入是安全的，即使被中途截獲，密碼也不會洩露。

大資料開發Linux系統入門之netstat 命令學習

netstat 命令用於顯示與 IP、TCP、UDP 和 ICMP 協議相關的統計資料，一般用於檢驗本機各埠的網路連線情況。netstat 是在核心中訪問網路及相關資訊的程式，大資料培訓它能提供 TCP 連線，TCP 和 UDP 監聽，程

大資料智慧加工系統——紙上原型分析

紙上原型：具體流程：導航欄分為“匯入”、“字典”和“視覺化”三個模組；側邊欄分為“匯入檔案”和“已匯入”兩個模組。

大資料智慧加工系統進度報告

核心技術： Flask框架 Pandas 檔案上傳資料字典檢視進度報告：主要實現了使用者登入、檔案上傳、資料字典檢視功能。

大資料流處理框架介紹

　　實時流處理簡單概述：實時是說整個流處理相應時間較短，流式計算是說資料是源源不斷的，沒有盡頭的。實時流處理一般是將業務系統產生的資料進行實時收集，交由流處理框架進行資料清洗，統計，入庫，並可以通過視

Hadoop生態系統

簡介 Hadoop是一個開發和執行處理大規模資料的軟體平臺,是Appach的一個用java語言實現開源軟體框架，實現在大量計算機組成的叢集中對海量資料進行分散式計算。今天我們來詳細介紹下hadoop的生態系統。

大資料Hadoop-Spark叢集部署知識總結（一）

大資料Hadoop-Spark叢集部署知識總結一、啟動/關閉 hadoop myhadoop.sh start/stop 分步啟動：

大資料Hadoop之——計算引擎Spark

目錄一、概述 1）Spark特點 2）Spark適用場景二、Spark核心元件三、Spark專業術語詳解

大資料Hadoop快速入門教程

1、Hadoop生態概況 Hadoop是一個由Apache基金會所開發的分散式系統整合架構，使用者可以在不瞭解分散式底層細節情況下，開發分散式程式，充分利用叢集的威力來進行高速運算與儲存，具有可靠、高效、可伸縮的特點

大資料Hadoop生態系統介紹

一、概述

1）Hadoop發行版本

1、Apache Hadoop發行版

2、DKhadoop發行版

3、Cloudera發行版

4、Hortonworks發行版

5、華為hadoop發行版

2）Hadoop1.x -》 Hadoop2.x的演變

3）Hadoop2.x與Hadoop3.x區別對比

二、Hadoop的發展簡史

三、Hadoop生態系統

相關推薦