Ubuntu16.04環境下搭建Hadoop3.0.3偽分散式叢集

阿新 • • 發佈：2018-12-05

最近剛好趕上雙11騰訊促銷，於是搶購了一個8核16G記憶體的雲伺服器，加上業務上需要用到hadoop，hive，於是想搭建搭建一個hadoop分散式叢集，但是限於自己手頭上伺服器數量不多，因此打算先搭建一個hadoop偽分散式叢集。

首先介紹一下我的安裝環境：

（1）java version

（2）hadopp version

接下來，開始我的環境搭建之旅，由於在上學期間已經搭建過，所以這裡就不再很詳細的闡述，只是記錄重要的關鍵點。

（1）建立hadoop使用者

其實，完全可以用root使用者來操作hadoop的，但是畢竟root的許可權太高了，我們還是要令建立一個專門來管理hadoop的使用者，這裡就取名叫hadoop 。（以下是root模式下操作的）

useradd -m hadoop -s /bin/bash

這條命令建立了可以登入的hadoop使用者，並使用/bin/bash作為shell。

接著使用如下命令設定密碼，可簡單的設定為hadoop，按提示輸入兩次密碼：

sudo passwd hadoop

可為hadoop使用者增加管理員許可權，方便部署，避免一些對新手來說比較棘手的許可權問題

adduser hadoop sudo

至此已經建立好了hadoop使用者

（2）ssh免密登陸

使用su hadoop 切換到使用者hadoop

su hadoop

切換到hadoop使用者後，先更新一些apt，後續會使用apt安裝軟體，如果沒更新可能有一些軟體安裝不了。按ctrl+alt+t開啟終端視窗或者使用xshell建立遠端連線，執行如下命令：

sudo apt-get update

叢集，單節點模式都需要用到SSH登入（類似於遠端登入，你可以登入某臺Linux主機，並且在上面執行命令），Ubuntu預設已安裝了SSH client，此外還需要安裝SSH server:

sudo apt-get install openssh-server

安裝後，可以使用命令登入本機：

ssh localhost

此時會有如下提示（SSH首次登陸提示），輸入yes。然後按提示輸入密碼hadoop，這樣就可以登入到本機。

但這樣登入是需要每次輸入密碼的，我們需要配置成SSH無密碼登入比較方便。

首先推出剛才的ssh，就回到了原先的終端視窗，然後利用ssh-keygen生成金鑰，並將金鑰加入到授權中：

exit 退出剛才的ssh localhost
cd ~/.ssh/    若沒有該目錄，請執行一次ssh localhost
ssh-keygen -t rsa    會有提示，都按回車就可以
cat ./id_rsa.pub >> ./authorized_keys    加入授權

註釋：~的含義 
在Linux中，~代表的是使用者的主資料夾，即”/home/使用者名稱”這個目錄，如你的使用者名稱為hadoop，則~就代表”/home/hadoop”。此外，命令中的#後面的文字是註釋，只需要輸入前面命令即可。

此時再用ssh localhost命令，無需輸入密碼就可以直接登入了，如下圖所示。

需要注意的一點：

以上只是給hadoop使用者配置了免密登陸，但是root使用者沒有，如果後續想通過root使用者來管理hadoop，這裡建議在root使用者模式下，重複上述ssh免密的過程，具體如下：

1、從hadoop模式進入到root模式

sudo su

2、配置免密ssh

cd ~/.ssh/    若沒有該目錄，請執行一次ssh localhost
ssh-keygen -t rsa    會有提示，都按回車就可以
cat ./id_rsa.pub >> ./authorized_keys    加入授權

3、ssh localhost看需不需要密碼來驗證

（2）安裝java環境

這裡就不再贅述。注意jdk版本保持在1.8以上。

（3）安裝hadoop3.0.3

下載完hadoop檔案後一般可以直接使用。我們選擇將Hadoop安裝至/usr/local/中：

sudo tar -zxf ~/Downloads/hadoop-2.7.3.tar.gz -C /usr/local  #解壓到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.7.3/ ./hadoop  #將資料夾名改為hadoop
sudo chown -R hadoop ./hadoop     #修改檔案許可權  這一步一定要做，因為許可權很重要

Hadoop解壓後即可使用。輸入如下命令來檢查Hadoop是否可用，成功則會顯示Hadoop版本資訊：

cd /usr/local/hadoop
./bin/hadoop version

這樣操作還是不方便，我們可以hadoop命令配置成全域性的.

vim /etc/profile

新增以下hadoop配置資訊

#hadoop
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/sbin
export PATH=$PATH:$HADOOP_HOME/bin

export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

是配置的命令生效：

source /etc/profile

如下圖所示：

（4）搭建hadoop偽分散式叢集

Hadoop可以在單節點上以偽分散式的方式執行，Hadoop程序以分離的java程序來執行，節點既作為NameNode也作為DataNode，同時，讀取的是HDFS中的檔案。

需要對以下檔案進行修改:

1、hdfs-site.xml

<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>/usr/local/hadoop/data/dfs/name</value>
        <final>true</final>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>/usr/local/hadoop/data/dfs/data</value>
                </description>
                <final>true</final>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>
       <property>
             <name>dfs.http.address</name>
             <value>0.0.0.0:9870</value>
       </property>

           <property>
             <name>fs.checkpoint.dir</name>
             <value>/usr/local/hadoop/data/dfs/testdir</value>
       </property>
           <property>
             <name>fs.checkpoint.edits.dir</name>
             <value>/usr/local/hadoop/data/dfs/testdir</value>
       </property>
           <property>
                         <name>ipc.maximum.data.length</name>
                         <value>134217728</value>
                </property>

     <property>
          <name>dfs.webhdfs.enabled</name>
          <value>true</value>
     </property>


</configuration>

2、core-site.xml檔案（注意建立data資料夾以及裡面的資料夾，具體見下面配置路徑）

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9820</value>
  </property>
  <property>
    <name>io.file.buffer.size</name>
    <value>131072</value>
  </property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop/data/tmp</value>
    <description>Abase for other temporary directories.</description>
</property>
<property>
    <name>hadoop.proxyuser.hadoop.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.hadoop.groups</name>
    <value>*</value>
    </property>

<property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
</property>

</configuration>

3、hadoop-env.sh，新增以下兩行程式碼

export JAVA_HOME=/usr/jvm/java
export HADOOP_HOME=/usr/local/hadoop

4、以下四個檔案配置如下資訊（主要是給root使用者操作）

（5）驗證是否安裝成功

1、執行NameNode的格式化

hdfs namenode -format

成功的話，會看到”successfully formatted”和”Exitting with status 0”的提示，若為”Exitting with status 1”則是處錯。

2、開啟所有的程序

sbin/start-dfs.sh

3、jps檢視當前程序是否都啟動了（主要是如下截圖的6種）

4、web頁面檢視是否啟動，瀏覽器輸入IP+埠，出現如下截圖表示成功。

至此hadoop3x的偽分散式環境搭建完畢，hive的環境搭建在我的博文其他篇章，歡迎閱讀.

參考文章;

https://blog.csdn.net/qjk19940101/article/details/70544197

Ubuntu16.04環境下搭建Hadoop3.0.3偽分散式叢集

最近剛好趕上雙11騰訊促銷，於是搶購了一個8核16G記憶體的雲伺服器，加上業務上需要用到hadoop，hive，於是想搭建搭建一個hadoop分散式叢集，但是限於自己手頭上伺服器數量不多，因此打算先搭建一個hadoop偽分散式叢集。首先介紹一下我的安裝

Centos7上搭建hadoop3.0.3完全分散式（.tar.gz）

這裡搭建的是3個節點的完全分散式，即1個nameNode，2個dataNode,分別如下： master nameNode 192.168.0.249 node1 dataNode 192.168.0.251 node2 dataNode

Centos7搭建redis4.0.9偽分散式叢集環境

使用系統是Centos7 redis版本：4.0.9 gem版本：4.0.0 ruby版本：2.5.1 1.下載redis 上圖是從redis官網扒下來的，不過單機版安裝使用也沒啥難度，就不談了，make的時候要有C++編譯器，可以get set啥的就算是裝好了 yum

Linux下搭建kafka和zk偽分散式叢集【附詳細步驟】

前言 Kafka使用zk的分散式協調服務，將生產者，消費者，訊息儲存（broker，用於儲存資訊，訊息讀寫等）結合在一起。同時藉助zk，kafka能夠將生產者，消費者和broker在內的所有元件在無狀態的條件下建立起生產者和消費者的訂閱關係，實現生產者的負載均衡。kafka搭載zk，通常有3

Linux下搭建GeekOS-0.3.0實驗環境

Linux下GeekOS實驗所需要的軟體主要有nasm和bochs（音box）。1、nasm推薦使用0.98這個版本。如果用比較新的版本bochs引導系統映象時會出錯。直接下載linux下的可執行檔案，拷貝到/usr/bin/這個目錄下，然後在終端中輸入：sudo chmod +x /usr/bin/nasm

Ubuntu16.04環境下通過Cmake管理Opencv專案

Ubuntu16.04環境下通過Cmake管理Opencv專案 1、新建qt cmake工程 New Project -> Non-Qt Project -> Plain C++ Application 2、CMakeLists.txt檔案內

Ubuntu 18.04環境下搭建SSR（shadowsocksR）詳細流程

Ubuntu 18.04環境下搭建SSR（shadowsocksR）詳細流程配置SSR客戶端注意 Solution: 更方便的處理方法，寫個指令碼：配置SSR客戶端 Shadowsocks與Shadow

[joysticke]使用Ubuntu16.04環境下讀取USB手柄/方向盤資訊

1.獲取裝置的埠　　在插入裝置時，在/dev/input目錄下，作業系統會為每一個裝置分配event號，先插上的為event0,後插上的為event1。查詢裝置的裝置號用如下指令： cat /proc/bus/input/devices 　　獲得如下輸出 1 I: Bus=0

Ubuntu16.04環境下Python下xlearn機器學習庫的配置

一、xlearn的簡介參見：https://www.zhihu.com/question/37256015/answer/268151326，http://www.sohu.com/a/206728248_206784 在機器學習裡，除了深度學習和樹模型 (GB

Ubuntu16.04環境下命令列安裝驅動

去官網查適合自己的GPU驅動：依次執行如下語句安裝： sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt-get up

ubuntu16.04環境下， Ctrl+Alt+F1 進入終端字元介面登入出現login incorrect解決辦法

在安裝nvidia驅動的時候，需要ubuntu Ctrl+Alt+F1 進入終端字元介面登入出現login incorrect解決辦法：如圖出現這種情況的原因有兩個：輸入密碼的時候，不可以用小鍵盤。在tty介面應先登陸自己的賬號和密碼，如下圖：

(圖文詳細)ubuntu16.04 系統下python2 和python 3之間切換

背景：由於想要在linux下實現YOLO演算法，去網上查閱了很多資料，好多是用python2版本，然而anaconda3中有python3,系統預設的是Python 3.於是想在Python 2和 python 3之間自由切換。解決方法： 1. ctrl+alt+t開啟

faster-rcnn在ubuntu16.04環境下的超級詳細的配置

$ sudo cp Makefile.config.example Makefile.config # 備份配置檔案 $ sudo gedit Makefile.config # 修改編譯檔案 `````````````````````````````````````````````````````

Ubuntu16.04環境下安裝CUDA、cudnn、Caffe、Tensorflow、pytorch

【主題】Ubuntu16.04環境下安裝CUDA、cudnn、Caffe、Tensorflow、pytorch 【環境】筆記本：筆記本：惠普 Pavilion NoteBook 系統環境：Ubuntu16.04+Win10 64位雙系統顯示卡：NVIDIA GT

Ubuntu16.04環境下PyTorch簡易安裝教程

安裝NVIDIA GPU顯示卡驅動如果需要安裝cuda版本的PyTorch，電腦也有獨立顯示卡的時候，一般需要更新一下Ubuntu獨立顯示卡驅動。否則即使安裝了cuda版本的PyTorch也沒辦法使用GPU。因為我的膝上型電腦顯示卡是NVIDIA的，所以

Caffe學習1——在ubuntu16.04環境下安裝Caffe（CPU）

目前在網上，已經存在很多的Caffe安裝教程。本文主要介紹筆者在安裝Caffe——CPU版本所遇到的問題（主要參考了網上的部落格），以及相關解決方法。以下給出基於ubuntu 16.04系統的Caffe的CPU安裝步驟：1. 安裝gitsudo apt-get inst

Ubuntu16.04環境下git安裝與使用

一、git的安裝參見廖雪峰的git教程，在Linux使用sudo apt-get install git即可。二、建立本地版本庫在需要建立版本庫進行管理的根資料夾下，輸入git init命令，通過git init命令將這個資料夾變成git可以管理的倉庫：H:\

Ubuntu16.04環境下MySQL5.7安裝&配置以及遠端訪問

mysql> set character_set_client=utf8; mysql> set character_set_connection=utf8; mysql> set character_set_database=utf8; mysql> set charact

ubuntu16.04環境下重裝windows10

list err label 選擇 sea 操作引導 arc 格式本文針對MBR引導啟動，在ubuntu16.04和windows原來的雙系統環境下重裝windows10，重裝之前請務必備份好原有系統中的所有數據！！！ 1，從微軟官網下載win10鏡像文件。 2，安裝u

Ubuntu16.04環境下Python下Lightgbm機器學習庫的配置

一、Lightgbm簡介 xgboost的出現，讓調參俠們告別了傳統的機器學習演算法們：RF、GBM、SVM、LASSO等等，而微軟推出了一個新的boosting框架Lightgbm更是向前進一步，漸漸有取代的xgboost這一開源框架地位的趨勢。相比於xgboost，L

Ubuntu16.04環境下搭建Hadoop3.0.3偽分散式叢集

（1）建立hadoop使用者

（2）ssh免密登陸

（2）安裝java環境

（3）安裝hadoop3.0.3

（4）搭建hadoop偽分散式叢集

（5）驗證是否安裝成功

相關推薦