1. 程式人生 > >Hadoop(分散式計算開發框架)

Hadoop(分散式計算開發框架)

Apache Hadoop專案為可靠的,可擴充套件的分散式計算開發開源軟體。

Apache Hadoop軟體庫是一個框架,它允許使用簡單的程式設計模型跨計算機群集分散式處理大型資料集。它旨在從單個伺服器擴充套件到數千臺機器,每臺機器提供本地計算和儲存。該庫本身不是依靠硬體來提供高可用性,而是設計用於在應用層檢測和處理故障,從而在一組計算機之上提供高可用性服務,每個計算機都可能出現故障。

該專案包括這些模組:

Hadoop Common:支援其他Hadoop模組的常用工具。
Hadoop分散式檔案系統(HDFS):一種分散式檔案系統,可提供對應用程式資料的高吞吐量訪問。
Hadoop YARN:

作業排程和叢集資源管理的框架。
Hadoop MapReduce:一種用於並行處理大型資料集的基於YARN的系統。
Apache的其他Hadoop相關專案包括:

Ambari:一種用於供應,管理和監控Apache Hadoop叢集的基於Web的工具,其中包括對Hadoop HDFSHadoop MapReduceHiveHCatalogHBaseZooKeeperOoziePigSqoop的支援。Ambari還提供了一個用於檢視叢集執行狀況的儀表板,例如熱圖以及以可視方式檢視MapReduce,Pig和Hive應用程式以及以使用者友好的方式診斷其效能特徵的功能。
Avro:

資料序列化系統。
Cassandra:無單點故障的可擴充套件多主資料庫。
Chukwa:管理大型分散式系統的資料收集系統。
HBase:可擴充套件的分散式資料庫,支援大型表格的結構化資料儲存。
Hive:提供資料彙總和即席查詢的資料倉庫基礎架構。
Mahout:可擴充套件的機器學習和資料探勘庫。
Pig:用於平行計算的高階資料流語言和執行框架。
Spark:用於Hadoop資料的快速和通用計算引擎。Spark提供了一個簡單而富有表現力的程式設計模型,支援廣泛的應用程式,包括ETL,機器學習,流處理和圖計算。
Tez:一種基於Hadoop YARN的通用資料流程式設計框架,它提供了一個強大且靈活的引擎,可執行任意DAG任務來處理批處理和互動式用例的資料。Hado生態系統中的Hive,Pig和其他框架以及其他商業軟體(例如ETL工具)正在採用Tez,以取代Hadoop MapReduce作為基礎執行引擎。
ZooKeeper:
分散式應用程式的高效能協調服務。

相關推薦

Hadoop(分散式計算開發框架)

Apache Hadoop專案為可靠的,可擴充套件的分散式計算開發開源軟體。 Apache Hadoop軟體庫是一個框架,它允許使用簡單的程式設計模型跨計算機群集分散式處理大型資料集。它旨在從單個伺服器擴充套件到數千臺機器,每臺機器提供本地計算和儲存。該庫本身

大資料之hadoop分散式計算框架MapReduce

一、MapReduce構成 MapReduce分為兩部分,即map和reduce。 其中map是入隊(key,value),reduce則是聚合(計算)。 map過程的輸出時reduce過程的輸入。 需要注意的是這裡map中的key是可以重複的,reduce做聚

分散式計算開源框架Hadoop的簡介以及在實際中的運用

在SIP專案設計的過程中,對於它龐大的日誌在開始時就考慮使用任務分解的多執行緒處理模式來分析統計,在我從前寫的文章《Tiger Concurrent Practice —日誌分析並行分解設計與實現》中有所提到。但是由於統計的內容暫時還是十分簡單,所以就採用Memcache作為計數器,結合My

大資料時代之hadoop(五):hadoop 分散式計算框架(MapReduce)

        hadoop的核心分為兩塊,一是分散式儲存系統-hdfs,這個我已經在上一章節大致講了一下,另一個就是hadoop的計算框架-mapreduce。        mapreduce其實就是一個移動式的基於key-value形式的分散式計算框架。       

關於Hadoop分散式計算:多個Map分佈在不同節點上執行

1 背景&問題     學習Hadoop已經快一年了,也是似懂非懂的樣子。由於專案的原因,再次啟動Hadoop,一直以為這個很簡單就能夠實現多個機器一起完成一個任務,其實並不然。在實驗過程中,

[全圖解]Windows下的hadoop雲端計算開發環境!只要兩步!

轉載請註明出處:http://blog.csdn.net/crazyhan00 小站 lotobuy.com cygwin可以在windows下模擬出linux環境,在其上安裝hadoop即可進行開發,hadoop4win提供了已經安裝好hadoop的Cygwin映象,直接

【stark_summer的專欄 】專注於開發分散式任務排程框架分散式同步RPC、非同步MQ訊息佇列、分散式日誌檢索框架hadoop、spark、scala等技術 如果我的寫的文章能對您有幫助,請您能給點捐助,請看首頁置頂

專注於開發分散式任務排程框架、分散式同步RPC、非同步MQ訊息佇列、分散式日誌檢索框架、hadoop、spark、scala等技術 如果我的寫的文章能對您有幫助,請您能給點捐助,請看首頁置頂...

分散式計算框架Hadoop原理及架構全解

           Hadoop是Apache軟體基金會所開發的平行計算框架與分散式檔案系統。最核心的模組包括Hadoop Common、HDFS與MapReduce。HDFSHDFS是Hadoop分散式檔案系統(Hadoop Distributed File Syst

分散式計算框架Hadoop

Hadoop是Apache軟體基金會所開發的平行計算框架與分散式檔案系統。最核心的模組包括Hadoop Common、HDFS與MapReduce。 HDFS HDFS是Hadoop分散式檔案系統(Hadoop Distributed File System)的縮寫,

學習大資料課程 spark 基於記憶體的分散式計算框架(二)RDD 程式設計基礎使用

學習大資料課程 spark 基於記憶體的分散式計算框架(二)RDD 程式設計基礎使用   1.常用的轉換 假設rdd的元素是: {1,2,2,3}   很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完

分散式計算hadoop三大元件

設計原則:移動計算,而不是移動資料 計算層:Map/Reduce排程層:YARN資料層:HDFS 這三層之間沒有必然的依賴性,只是經常這麼搭配,而且都是hadoop那個包裡一起安裝的,三層都可以獨立執行,某一層或者某兩層換成其他的而另外兩層或者一層不換也是可以的 YARN 排程系統   Resource

NutzWk 5.1.2 釋出,Java 微服務分散式開發框架

   NutzWk 5.1.2 更新內容: 增加微服務異常時的友好錯誤提示; 增加Web服務的500錯誤頁面配置; 增加對不支援的IE版本友好提示; 修復Result類一個方法預設值為空的問題; 完善程式碼生成器,支援Vue版本程式碼生成 (IDEA官方外掛庫搜 w

百度開源高效能 Python 分散式計算框架 Bigflow

小編近日看到一個百度開源的python框架-Bigflow , 致力於提供一套簡單易用的介面來描述使用者的計算任務,並使同一套程式碼可以執行在不同的執行引擎之上。 Bigflow 的設計中有許多思想借鑑自 Google FlumeJava以及 Google Cloud Dataflow,另有部分

【技術世界】分享大資料領域技術、包括但不限於Storm、Spark、Hadoop分散式計算系統,Kafka、MetaQ等分散式訊息系統, MongoDB等NoSQL,PostgreSQL等RDBMS,SQL優

技術世界 分享大資料領域技術、包括但不限於Storm、Spark、Hadoop等分散式計算系統,Kafka、MetaQ等分散式訊息系統, MongoDB等NoSQL,PostgreSQL等RDBMS,SQL優...

拉開大變革序幕(下):分散式計算框架與大資料

因為對大資料處理的需求,使得我們不斷擴充套件計算能力,叢集計算的要求導致分散式計算框架的誕生,用廉價的叢集計算資源在短短的時間內完成以往數週甚至數月的執行等待,有人說誰掌握了龐大的資料,誰就主導了需求。雖然在十幾年間,通過過去幾十年的積澱,誕生了mapreduc

淺談分散式計算開發與實現(1)

閱讀目錄: 介紹 分散式計算簡單來說,是把一個大計算任務拆分成多個小計算任務分佈到若干臺機器上去計算,然後再進行結果彙總。 目的在於分析計算海量的資料,從雷達監測的海量歷史訊號中分析異常訊號(外星文明),淘寶雙十一實時計算各地區的消費習慣等。 海量計算最開始的方案是

Mars——基於矩陣的統一分散式計算框架

很高興在這裡宣佈我們的新專案:Mars,一個基於矩陣的統一分散式計算框架。我們已經在 Github 開源:https://github.com/mars-project/mars 。 背景 Python Python 是一門相當古老的語言了,如今,在資料科學計算、機器學習、以及深度學習領域,Python

分散式計算框架綜述

本來是發表到科技論線上的,誰知道被退稿了,那就發到這裡來吧。 0      引言 隨著網際網路的發展,web2.0時期[1]的到來,人類正式進入了資訊爆炸時期的。海量的資訊在很多應用都會出現,比如一些社交網路應用中記錄使用者行為日誌通常都是以GB甚至是TB為單位的。常

Hadoop計算框架——shuffle流程理解要點

1. 分割槽partition 每個MapTask的輸出都會被分割為多個分割槽,Reducer會根據JobTask維護的對映關係獲取自己應該處理的那一份。 有多少個Reducer,Mapper的輸出就應該有多少個分割槽。 這個分割槽動作叫做partition,具體邏輯是由p

Parallel Python(pp)分散式計算框架安裝和配置問題(基於win10系統)

“分散式計算”也是當今IT行業的一個非常火熱的名詞,大家都知道的谷歌機房,還有2013年諾貝爾物理學獎獲獎專案“希格斯波色子”,都利用了“分散式計算”來分擔一部分計算量從而提高計算效率,尤其在資料科學領域“分散式計算”起到舉足輕重的作用。 ParallelPy