1. 程式人生 > 實用技巧 >Hadoop基礎-02-組成構成

Hadoop基礎-02-組成構成

目錄

Hadoop概述

http://hadoop.apache.org/

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.
The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

  • 開源的
  • 分散式儲存和計算
  • 分散式

Modules

  • Hadoop Common: The common utilities that support the other Hadoop modules.
  • Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
  • Hadoop YARN: A framework for job scheduling and cluster resource management.
  • Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
  • Hadoop Ozone: An object store for Hadoop.

翻譯翻譯

  • 分散式檔案系統:HDFS用於將檔案分散式儲存載很多的伺服器上

  • 分散式計算框架:MapReduce實現在很多機器分散式平行計算

  • 分散式資源排程框架:YARN實現叢集資源管理以及作業的排程

Hadoop核心元件之HDFS.

起源

  • 源於Google的GFS的論文
  • 是GFS的克隆版

特點

  • 擴充套件,
  • 容錯,
  • 海量。

Hadoop核心元件之MapReduce

起源

  • 源於Google的MapRedece的論文
  • 是Google MapReduce的克隆版

特點

  • 擴充套件
  • 容錯
  • 海量離線處理

Hadoop核心元件之YARN

  • Yet Another Resource Negotiator
  • 負責整個叢集資源的管理和排程
    特點:
  • 擴充套件
  • 容錯
  • 多框架資源統一排程

Hadoop優勢

  • 資料儲存:資料塊多副本
  • 資料計算:重新排程作業計算
  • 機器擴充套件:可以線性擴充套件機器,叢集可以包含上千節點
  • 成本降低:去IoE
  • 生態圈成熟

Hadoop發展史

Hadoop生態圈

特點

  • 開源,活躍
  • 成熟
  • 囊括大資料大部分

Hadoop發行版選型

  • Apache社群版本

    • 優點:完全開源免費。社群活躍文件、資料詳實
    • 缺點:複雜的版本管理。版本管理比較混亂的,各種版本層出不窮,讓很多使用者不知所措。
      複雜的叢集部署、安裝、配置。通常按照叢集需要編寫大量的配置檔案,分發到每一臺節點上,容易出錯,效率低下。複雜的叢集運維。對叢集的監控,運維,需要安裝第三方的其他軟體,如ganglia,nagois等,運維難度較大。在Hadoop生態圈中,元件的選擇、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考慮相容性的問題,版本是否相容,元件是否有衝突,編譯是否能通過等。經常會浪費大量的時間去編譯元件,解決版本衝突問題。
  • 第三方發行版本(如CDH,HDP,MapR等)

    • 優點:基於Apache協議,100%開源。版本管理清晰。比Apache Hadoop在相容性、安全性、穩定性上有增強。第三方發行版通常都經過了大量的測試驗證,有眾多部署例項,大量的執行到各種生產環境。
    • 缺點:部分不開源

OOTB環境的使用

//切換到root
$ sudo -i
# cd /etc/sysconfig/network-scripts/
# ls

//刪除
# rm -f ifcfg-lo

PING baidu.com (220.181.38.148) 56(84) bytes of data.
64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=1 ttl=46 time=42.7 ms
64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=2 ttl=46 time=42.0 ms
64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=3 ttl=46 time=45.0 ms
64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=4 ttl=46 time=44.4 ms