Hadoop(分散式計算開發框架)

阿新 • • 發佈：2019-01-15

Apache Hadoop專案為可靠的，可擴充套件的分散式計算開發開源軟體。

Apache Hadoop軟體庫是一個框架，它允許使用簡單的程式設計模型跨計算機群集分散式處理大型資料集。它旨在從單個伺服器擴充套件到數千臺機器，每臺機器提供本地計算和儲存。該庫本身不是依靠硬體來提供高可用性，而是設計用於在應用層檢測和處理故障，從而在一組計算機之上提供高可用性服務，每個計算機都可能出現故障。

該專案包括這些模組：

Hadoop Common：支援其他Hadoop模組的常用工具。
Hadoop分散式檔案系統（HDFS）：一種分散式檔案系統，可提供對應用程式資料的高吞吐量訪問。
Hadoop YARN：

作業排程和叢集資源管理的框架。
Hadoop MapReduce：一種用於並行處理大型資料集的基於YARN的系統。
Apache的其他Hadoop相關專案包括：

Ambari：一種用於供應，管理和監控Apache Hadoop叢集的基於Web的工具，其中包括對Hadoop HDFS，Hadoop MapReduce，Hive，HCatalog，HBase，ZooKeeper，Oozie，Pig和Sqoop的支援。Ambari還提供了一個用於檢視叢集執行狀況的儀表板，例如熱圖以及以可視方式檢視MapReduce，Pig和Hive應用程式以及以使用者友好的方式診斷其效能特徵的功能。
Avro：

資料序列化系統。
Cassandra：無單點故障的可擴充套件多主資料庫。
Chukwa：管理大型分散式系統的資料收集系統。
HBase：可擴充套件的分散式資料庫，支援大型表格的結構化資料儲存。
Hive：提供資料彙總和即席查詢的資料倉庫基礎架構。
Mahout：可擴充套件的機器學習和資料探勘庫。
Pig：用於平行計算的高階資料流語言和執行框架。
Spark：用於Hadoop資料的快速和通用計算引擎。Spark提供了一個簡單而富有表現力的程式設計模型，支援廣泛的應用程式，包括ETL，機器學習，流處理和圖計算。
Tez：一種基於Hadoop YARN的通用資料流程式設計框架，它提供了一個強大且靈活的引擎，可執行任意DAG任務來處理批處理和互動式用例的資料。Hado生態系統中的Hive，Pig和其他框架以及其他商業軟體（例如ETL工具）正在採用Tez，以取代Hadoop MapReduce作為基礎執行引擎。
ZooKeeper：

分散式應用程式的高效能協調服務。

Hadoop(分散式計算開發框架)

Hadoop(分散式計算開發框架)

大資料之hadoop分散式計算框架MapReduce

分散式計算開源框架Hadoop的簡介以及在實際中的運用

大資料時代之hadoop(五)：hadoop 分散式計算框架（MapReduce）

關於Hadoop分散式計算：多個Map分佈在不同節點上執行

[全圖解]Windows下的hadoop雲端計算開發環境！只要兩步！

【stark_summer的專欄】專注於開發分散式任務排程框架、分散式同步RPC、非同步MQ訊息佇列、分散式日誌檢索框架、hadoop、spark、scala等技術如果我的寫的文章能對您有幫助，請您能給點捐助,請看首頁置頂

分散式計算框架Hadoop原理及架構全解

分散式計算框架Hadoop

學習大資料課程 spark 基於記憶體的分散式計算框架（二）RDD 程式設計基礎使用

分散式計算hadoop三大元件

NutzWk 5.1.2 釋出，Java 微服務分散式開發框架

百度開源高效能 Python 分散式計算框架 Bigflow

【技術世界】分享大資料領域技術、包括但不限於Storm、Spark、Hadoop等分散式計算系統，Kafka、MetaQ等分散式訊息系統， MongoDB等NoSQL,PostgreSQL等RDBMS，SQL優

拉開大變革序幕（下）：分散式計算框架與大資料

淺談分散式計算的開發與實現（1）

Mars——基於矩陣的統一分散式計算框架

分散式計算框架綜述

Hadoop的計算框架——shuffle流程理解要點

Parallel Python（pp）分散式計算框架安裝和配置問題（基於win10系統）

Hadoop(分散式計算開發框架)

相關推薦