Hadoop 系列（五）—— Hadoop 叢集環境搭建

阿新 • • 發佈：2019-12-31

一、叢集規劃

這裡搭建一個 3 節點的 Hadoop 叢集，其中三臺主機均部署 DataNode 和 NodeManager 服務，但只有 hadoop001 上部署 NameNode 和 ResourceManager 服務。

二、前置條件

Hadoop 的執行依賴 JDK，需要預先安裝。其安裝步驟單獨整理至：

Linux 下 JDK 的安裝

三、配置免密登入

3.1 生成密匙

在每臺主機上使用 ssh-keygen 命令生成公鑰私鑰對：

ssh-keygen
複製程式碼

3.2 免密登入

將 hadoop001 的公鑰寫到本機和遠端機器的 ~/ .ssh/authorized_key 檔案中：

ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop001
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop002
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop003
複製程式碼

3.3 驗證免密登入

ssh hadoop002
ssh hadoop003
複製程式碼

四、叢集搭建

3.1 下載並解壓

下載 Hadoop。這裡我下載的是 CDH 版本 Hadoop，下載地址為：archive.cloudera.com/cdh5/cdh/5/

# tar -zvxf hadoop-2.6.0-cdh5.15.2.tar.gz 
複製程式碼

3.2 配置環境變數

編輯 profile 檔案：

# vim /etc/profile
複製程式碼

增加如下配置：

export HADOOP_HOME=/usr/app/hadoop-2.6.0-cdh5.15.2
export  PATH=${HADOOP_HOME}/bin:$PATH
複製程式碼

執行 source 命令，使得配置立即生效：

# source /etc/profile
複製程式碼

3.3 修改配置

進入 ${HADOOP_HOME}/etc/hadoop 目錄下，修改配置檔案。各個配置檔案內容如下：

1. hadoop-env.sh

# 指定JDK的安裝位置
export JAVA_HOME=/usr/java/jdk1.8.0_201/
複製程式碼

2. core-site.xml

<configuration>
    <property>
        <!--指定 namenode 的 hdfs 協議檔案系統的通訊地址-->
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop001:8020</value>
    </property>
    <property>
        <!--指定 hadoop 叢集儲存臨時檔案的目錄-->
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/tmp</value>
    </property>
</configuration>
複製程式碼

3. hdfs-site.xml

<property>
      <!--namenode 節點資料（即元資料）的存放位置，可以指定多個目錄實現容錯，多個目錄用逗號分隔-->
    <name>dfs.namenode.name.dir</name>
    <value>/home/hadoop/namenode/data</value>
</property>
<property>
      <!--datanode 節點資料（即資料塊）的存放位置-->
    <name>dfs.datanode.data.dir</name>
    <value>/home/hadoop/datanode/data</value>
</property>
複製程式碼

4. yarn-site.xml

<configuration>
    <property>
        <!--配置 NodeManager 上執行的附屬服務。需要配置成 mapreduce_shuffle 後才可以在 Yarn 上執行 MapReduce 程式。-->
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <!--resourcemanager 的主機名-->
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop001</value>
    </property>
</configuration>

複製程式碼

5. mapred-site.xml

<configuration>
    <property>
        <!--指定 mapreduce 作業執行在 yarn 上-->
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
複製程式碼

5. slaves

配置所有從屬節點的主機名或 IP 地址，每行一個。所有從屬節點上的 DataNode 服務和 NodeManager 服務都會被啟動。

hadoop001
hadoop002
hadoop003
複製程式碼

3.4 分發程式

將 Hadoop 安裝包分發到其他兩臺伺服器，分發後建議在這兩臺伺服器上也配置一下 Hadoop 的環境變數。

# 將安裝包分發到hadoop002
scp -r /usr/app/hadoop-2.6.0-cdh5.15.2/  hadoop002:/usr/app/
# 將安裝包分發到hadoop003
scp -r /usr/app/hadoop-2.6.0-cdh5.15.2/  hadoop003:/usr/app/
複製程式碼

3.5 初始化

在 Hadoop001 上執行 namenode 初始化命令：

hdfs namenode -format
複製程式碼

3.6 啟動叢集

進入到 Hadoop001 的 ${HADOOP_HOME}/sbin 目錄下，啟動 Hadoop。此時 hadoop002 和 hadoop003 上的相關服務也會被啟動：

# 啟動dfs服務
start-dfs.sh
# 啟動yarn服務
start-yarn.sh
複製程式碼

3.7 檢視叢集

在每臺伺服器上使用 jps 命令檢視服務程式，或直接進入 Web-UI 介面進行檢視，埠為 50070。可以看到此時有三個可用的 Datanode：

點選 Live Nodes 進入，可以看到每個 DataNode 的詳細情況：

接著可以檢視 Yarn 的情況，埠號為 8088 ：

五、提交服務到叢集

提交作業到叢集的方式和單機環境完全一致，這裡以提交 Hadoop 內建的計算 Pi 的示例程式為例，在任何一個節點上執行都可以，命令如下：

hadoop jar /usr/app/hadoop-2.6.0-cdh5.15.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.15.2.jar  pi  3  3
複製程式碼

更多大資料系列文章可以參見 GitHub 開源專案： 大資料入門指南

Hadoop 系列（五）—— Hadoop 叢集環境搭建

一、叢集規劃這裡搭建一個 3 節點的 Hadoop 叢集，其中三臺主機均部署 DataNode 和 NodeManager 服務，但只有 hadoop001 上部署 NameNode 和 ResourceManager 服務。

Storm 系列（四）—— Storm 叢集環境搭建

一、叢集規劃這裡搭建一個 3 節點的 Storm 叢集：三臺主機上均部署 Supervisor 和 LogViewer 服務。同時為了保證高可用，除了在 hadoop001 上部署主 Nimbus 服務外，還在 hadoop002 上部署備用的 Nimbus 服務。Nimb

Hadoop 系列（四）—— Hadoop 開發環境搭建

一、前置條件 Hadoop 的執行依賴 JDK，需要預先安裝，安裝步驟見： Linux 下 JDK 的安裝

HBase 系列（四）—— HBase 叢集環境配置

一、叢集規劃這裡搭建一個 3 節點的 HBase 叢集，其中三臺主機上均為 Regin Server。同時為了保證高可用，除了在 hadoop001 上部署主 Master 服務外，還在 hadoop002 上部署備用的 Master 服務。Master 服務由 Zook

Flink 系列（二）—— Flink 開發環境搭建

一、安裝 Scala 外掛 Flink 分別提供了基於 Java 語言和 Scala 語言的 API ，如果想要使用 Scala 語言來開發 Flink 程式，可以通過在 IDEA 中安裝 Scala 外掛來提供語法提示，程式碼高亮等功能。開啟 IDEA,依次點選

Spark 系列（二）—— Spark開發環境搭建

一、安裝Spark 1.1 下載並解壓官方下載地址：spark.apache.org/downloads.h… ，選擇 Spark 版本和對應的 Hadoop 版本後再下載：

（十三）Kubernetes叢集環境搭建 -- 安裝kubernetes元件

技術標籤：Kubernetes 由於kubernetes的映象在過載，速度比較慢，這裡切換成和國內的映象

Hadoop 系列（八）—— 基於 ZooKeeper 搭建 Hadoop 高可用叢集

一、高可用簡介 Hadoop 高可用 (High Availability) 分為 HDFS 高可用和 YARN 高可用，兩者的實現基本類似，但 HDFS NameNode 對資料儲存及其一致性的要求比 YARN ResourceManger 高得多，所以它的實現也更加複雜，故

Hadoop 系列（二）—— 叢集資源管理器 YARN

一、hadoop yarn 簡介 Apache YARN (Yet Another Resource Negotiator)是 hadoop 2.0 引入的叢集資源管理系統。使用者可以將各種服務框架部署在 YARN 上，由 YARN 進行統一地管理和資源分配。

Hadoop 系列（一）—— 分散式檔案系統 HDFS

一、介紹 HDFS （Hadoop Distributed File System）是 Hadoop 下的分散式檔案系統，具有高容錯、高吞吐量等特性，可以部署在低成本的硬體上。

Hadoop 系列（七）—— HDFS Java API

一、簡介想要使用 HDFS API，需要匯入依賴 hadoop-client。如果是 CDH 版本的 Hadoop，還需要額外指明其倉庫地址：

Hadoop 系列（六）—— HDFS 常用 Shell 命令

1. 顯示當前目錄結構 # 顯示當前目錄結構 hadoop fs -ls<path> # 遞迴顯示當前目錄結構

Hadoop 系列（三）—— 分散式計算框架 MapReduce

一、MapReduce概述 Hadoop MapReduce 是一個分散式計算框架，用於編寫批處理應用程式。編寫好的程式可以提交到 Hadoop 叢集上用於並行處理大規模的資料集。

hadoop使用（五）

第1章引言 1.1 編寫目的對關於hadoop的文件及資料進行進一步的整理。 1.2 相關網站

Flink 系列（五）—— Flink Data Sink

一、Data Sinks 在使用 Flink 進行資料處理時，資料經 Data Source 流入，然後通過系列 Transformations 的轉化，最終可以通過 Sink 將計算結果進行輸出，Flink Data Sinks 就是用於定義資料流最終的輸出位置。Flink

Hive 系列（五）—— Hive 分割槽表和分桶表

一、分割槽表 1.1 概念 Hive 中的表對應為 HDFS 上的指定目錄，在查詢資料時候，預設會對全表進行掃描，這樣時間和效能的消耗都非常大。

Kafka 系列（五）—— 深入理解 Kafka 副本機制

一、Kafka叢集 Kafka 使用 Zookeeper 來維護叢整合員 (brokers) 的資訊。每個 broker 都有一個唯一標識 broker.id，用於標識自己在叢集中的身份，可以在配置檔案 server.properties 中進行配置，或者由程式自動生成。

HBase 系列（五）——HBase 常用 Shell 命令

一、基本命令開啟 Hbase Shell： # hbase shell 複製程式碼 1.1 獲取幫助 # 獲取幫助 help

Spark 系列（五）—— Spark 執行模式與作業提交

一、作業提交 1.1spark-submit Spark 所有模式均使用 spark-submit 命令提交作業，其格式如下：

Storm 系列（五）—— Storm 程式設計模型詳解

一、簡介下圖為 Strom 的執行流程圖，在開發 Storm 流處理程式時，我們需要採用內建或自定義實現 spout(資料來源) 和 bolt(處理單元)，並通過 TopologyBuilder 將它們之間進行關聯，形成 Topology。

Hadoop 系列（五）—— Hadoop 叢集環境搭建

一、叢集規劃

二、前置條件

三、配置免密登入

3.1 生成密匙

3.2 免密登入

3.3 驗證免密登入

四、叢集搭建

3.1 下載並解壓

3.2 配置環境變數

3.3 修改配置

1. hadoop-env.sh

2. core-site.xml

3. hdfs-site.xml

4. yarn-site.xml

5. mapred-site.xml

5. slaves

3.4 分發程式

3.5 初始化

3.6 啟動叢集

3.7 檢視叢集

五、提交服務到叢集

相關推薦