什麽是Hadoop，怎樣學習Hadoop

阿新 • • 發佈：2017-12-19

朋友采集怎樣學習 dbase 概述運算中國認識 c++

概述：Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下，開發分布式程序。充分利用集群的威力進行高速運算和存儲。

Hadoop實現了一個分布式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特點，並且設計用來部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有著超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）文件系統中的數據。

Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數據提供了存儲，則MapReduce為海量的數據提供了計算。一句話來講Hadoop就是存儲加計算。

Hadoop這個名字不是一個縮寫，而是一個虛構的名字。該項目的創建者，Doug Cutting解釋Hadoop的得名：“這個名字是我孩子給一個棕黃色的大象玩具命名的。

Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點：

1、高可靠性 Hadoop按位存儲和處理數據的能力值得人們信賴。

2、高擴展性

Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。

3、高效性 Hadoop能夠在節點之間動態地移動數據，並保證各個節點的動態平衡，因此處理速度非常快。

4、高容錯性 Hadoop能夠自動保存數據的多個副本，並且能夠自動將失敗的任務重新分配。

5、低成本與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開源的，項目的軟件成本因此會大大降低。

Hadoop帶有用Java語言編寫的框架，因此運行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫，比如 C++。

Hadoop大數據處理的意義

Hadoop得以在大數據處理應用中廣泛應用得益於其自身在數據提取、變形和加載(ETL)方面上的天然優勢。Hadoop的分布式架構，將大數據處理引擎盡可能的靠近存儲，對例如像ETL這樣的批處理操作相對合適，因為類似這樣操作的批處理結果可以直接走向存儲。Hadoop的MapReduce功能實現了將單個任務打碎，並將碎片任務(Map)發送到多個節點上，之後再以單個數據集的形式加載(Reduce)到數據倉庫裏。

Hadoop由以下幾個項目構成

1、Hadoop Common ：Hadoop體系最底層的一個模塊，為Hadoop各子項目提供各種工具，如：配置文件和日誌操作等。

2、HDFS：分布式文件系統，提供高吞吐量的應用程序數據訪問，對外部客戶機而言，HDFS 就像一個傳統的分級文件系統。可以創建、刪除、移動或重命名文件，等等。但是 HDFS 的架構是基於一組特定的節點構建的（參見圖 1），這是由它自身的特點決定的。這些節點包括 NameNode（僅一個），它在 HDFS 內部提供元數據服務；DataNode，它為 HDFS 提供存儲塊。由於僅存在一個 NameNode，因此這是 HDFS 的一個缺點（單點失敗）。存儲在 HDFS 中的文件被分成塊，然後將這些塊復制到多個計算機中（DataNode）。這與傳統的 RAID 架構大不相同。塊的大小（通常為 64MB）和復制的塊數量在創建文件時由客戶機決定。NameNode 可以控制所有文件操作。HDFS 內部的所有通信都基於標準的 TCP/IP 協議。

3、MapReduce ：一個分布式海量數據處理的軟件框架集計算集群。

4、Avro ：doug cutting主持的RPC項目，主要負責數據的序列化。有點類似Google的protobuf和Facebook的thrift。avro用來做以後hadoop的RPC，使hadoop的RPC模塊通信速度更快、數據結構更緊湊。

5、Hive ：類似CloudBase，也是基於hadoop分布式計算平臺上的提供data warehouse的sql功能的一套軟件。使得存儲在hadoop裏面的海量數據的匯總，即席查詢簡單化。hive提供了一套QL的查詢語言，以sql為基礎，使用起來很方便。

6、HBase ：基於Hadoop Distributed File System，是一個開源的，基於列存儲模型的可擴展的分布式數據庫，支持大型表的存儲結構化數據。

7、Pig ：是一個並行計算的高級的數據流語言和執行框架，SQL-like語言，是在MapReduce上構建的一種高級查詢語言，把一些運算編譯進MapReduce模型的Map和Reduce中，並且用戶可以定義自己的功能。

8、ZooKeeper ：Google的Chubby一個開源的實現。它是一個針對大型分布式系統的可靠協調系統，提供的功能包括：配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務，將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

9、Chukwa ：一個管理大型分布式系統的數據采集系統由yahoo貢獻。

10、Cassandra ：無單點故障的可擴展的多主數據庫。

11、Mahout ：一個可擴展的機器學習和數據挖掘庫。

Hadoop 設計之初的目標就定位於高可靠性、高可拓展性、高容錯性和高效性，正是這些設計上與生俱來的優點，才使得Hadoop 一出現就受到眾多大公司的青睞，同時也引起了研究界的普遍關註。到目前為止，Hadoop 技術在互聯網領域已經得到了廣泛的運用，如Yahoo、Facebook、Adobe、IBM、百度、阿裏巴巴、騰訊、華為、中國移動等。

關於怎樣學習hadoop，首先要了解並且深刻認識什麽是hadoop，它的原理以及作用是什麽，包括基本構成是什麽，分別有什麽作用，當然，在學習之前，至少要掌握一門基礎語言，這樣在學習起來才會事半功倍，因為目前hadoop在國內發展時間不長，有興趣的朋友可以先找一些書籍來學習，打好基本功。

什麽是Hadoop，怎樣學習Hadoop

什麽是Hadoop，怎樣學習Hadoop

如何學習Hadoop，學習Hadoop要學什麼？怎麼學？

培訓學習Python，該選什麽樣的學習方式？

大數據是什麽？它和Hadoop又有什麽聯系？

360全景對企業和商家有什麽幫助，有什麽特點

什麽時候，你需要暫停項目

Android的Message Pool是個什麽鬼，Message Pool會否引起OOM——源代碼角度分析

java正則以什麽開始，以什麽結束

DOS當中的基本操作命令，如何切換磁盤，如何查看文件和文件夾，如何清屏，進入文件夾的命令，javac是什麽意思，作用是什麽？DOS如何建文件夾？退出文件夾？

什麽人合適學習利用自媒體淘客來賺錢

高維數據稀疏表示-什麽是字典學習（過完備詞典）

java中如何使用空參構造方法自動生成不同名字的對象，使用非靜態的屬性和靜態屬性有什麽區別，原因是什麽？如何理解static關鍵字

1.Linux是什麽與如何學習

shell,bash,zsh,console,terminal到底是什麽意思，它們之間又是什麽關系？

機器學習基石筆記6——為什麽機器可以學習（2）

什麽是開始學習英文的正確姿勢？

這個網頁用到了什麽技術，<script>標簽，還有雙大括號{{}}是什麽意思

10歲男孩全班第一，卻說爸媽沒什麽錢，不配有我這麽好的兒子

什麽是機器學習

幾個每次都讓我崩潰的Java概念——面向對象什麽的，最可惡了！

雲計算的前景如何？為什麽一定要學習linux系統？

什麽是Hadoop，怎樣學習Hadoop

相關推薦