Ubuntu 16.04安裝Hadoop及Spark

阿新 • • 發佈：2019-01-21

安裝Hadoop及Spark(Ubuntu 16.04)

安裝JDK

下載jdk(以jdk-8u91-linux-x64.tar.gz為例)
新建資料夾

sudo mkdir /usr/lib/jvm
解壓下載的jdk檔案並移動到新建的資料夾下

sudo tar -xzvf jdk-8u91-linux-x64.tar.gz -C /usr/lib/jvm
進入jvm資料夾並重命名解壓出來的資料夾
```
cd /usr/lib/jvm
sudo mv jdk1.8.0_91 jdk
```

新增環境變數

sudo vim /etc/profile
# 新增如下配置
export JAVA_HOME=/usr/lib/jvm/jdk
export 
 CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

使配置生效

source /etc/profile
測試

java -version

安裝Scala

類似於jdk的安裝
下載scala(以scala-2.11.8.tgz為例)
解壓下載的scala檔案

sudo tar -xzvf scala-2.11.8.tgz -C /usr/local

重新命名

cd /usr/local
sudo mv scala-2.11.8 scala

新增環境變數

sudo vim /etc/profile
# 在最後新增下面內容
export SCALA_HOME=/usr/local/scala
export PATH=$SCALA_HOME/bin:$PATH

使配置生效

source /etc/profile
測試

scala -version

安裝Hadoop

Spark預設使用HDFS充當持久化層,所以需要安裝Hadoop,當然也可以不安裝

參考

安裝

安裝ssh

sudo apt install openssh-server

配置ssh無密登陸

ssh-keygen -t rsa   # 一直回車
cat ~/.ssh/id_rsa.pub >>  
~/.ssh/authorized_keys

測試ssh無密登陸

ssh localhost # 如果不提示輸入密碼則配置成功
下載Hadoop(以hadoop-2.7.2.tar.gz為例)
解壓

sudo tar -xzvf hadoop-2.7.2.tar.gz -C /usr/local

重新命名

cd /usr/local
sudo mv hadoop-2.7.2 hadoop

修改許可權

cd /usr/local
sudo chown -R yourusername:yourusername hadoop

配置環境變數

sudo vim /etc/profile
# 在最後新增下面程式碼
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

測試

hadoop version

Hadoop偽分散式配置

修改配置檔案core-site.xml

cd /usr/local/hadoop
vim ./etc/hadoop/core-site.xml
# 修改為如下
<configuration>
        <property>
             <name>hadoop.tmp.dir</name>
             <value>file:/usr/local/hadoop/tmp</value>
             <description>Abase for other temporary directories.</description>
        </property>
        <property>
             <name>fs.defaultFS</name>
             <value>hdfs://localhost:9000</value>
        </property>
</configuration>

修改配置檔案hdfs-site.xml

cd /usr/local/hadoop
vim ./etc/hadoop/hdfs-site/xml
# 修改為如下
<configuration>
        <property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

修改配置檔案hadoop-env.sh

cd /usr/local/hadoop
vim ./etc/hadoop/hadoop-env.sh
# 將 export JAVA_HOME=${JAVA_HOME} 更改為:
export JAVA_HOME=/usr/lib/jvm/jdk

執行NameNode格式化

hdfs namenode -format
執行

start-dfs.sh

測試

jps

有如下幾個程序

5939 Jps
5636 DataNode
5493 NameNode
5814 SecondaryNameNode

通過瀏覽器檢視

在瀏覽器中輸入一下地址:localhost:50070

配置YARN

修改配置檔案mapred-site.xml

cd /usr/local/hadoop
cp ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml
vim ./etc/hadoop/mapred-site.xml
# 修改為如下配置
<configuration>
        <property>
             <name>mapreduce.framework.name</name>
             <value>yarn</value>
        </property>
</configuration>

修改配置檔案yarn-site.xml

cd /usr/local/hadoop
vim ./etc/hadoop/yarn-site.xml
# 修改為以下配置
<configuration>
        <property>
             <name>yarn.nodemanager.aux-services</name>
             <value>mapreduce_shuffle</value>
            </property>
</configuration>

編寫啟動指令碼

#!/bin/bash
# 啟動hadoop
start-dfs.sh
# 啟動yarn
start-yarn.sh
# 啟動歷史伺服器,以便在Web中檢視任務執行情況
mr-jobhistory-daemon.sh start historyserver

編寫停止指令碼

#!/bin/bash
# 停止歷史伺服器
mr-jobhistory-daemon.sh stop historyserver
# 停止yarn
stop-yarn.sh
# 停止hadoop
stop-dfs.sh

通過 Web 介面檢視任務的執行情況

瀏覽器中輸入地址:localhost:8088

安裝Spark

下載spark(以spark-2.0.0-bin-hadoop2.7.tgz為例)
解壓下載的spark檔案

sudo tar -zxf spark-2.0.0-bin-hadoop2.7.tgz -C /usr/local

重新命名

cd /usr/local
sudo mv spark-2.0.0-bin-hadoop2.7 spark

新增環境變數

sudo vim /etc/profile
# 在最後新增下面內容
export SPARK_HOME=/usr/local/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

修改一下許可權

cd /usr/local
sudo chown -R yourusername:yourusername ./spark

拷貝配置檔案

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

修改配置檔案

cd /usr/loca/spark
vim ./conf/spark-env.sh
# 新增下面一行
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
export JAVA_HOME=/usr/lib/jvm/jdk

執行簡單示例

/usr/local/spark/bin/run-example SparkPi 2>&1 | grep "Pi is roughly"
啟動Spark

/usr/local/spark/sbin/start-all.sh

編寫指令碼

啟動Hadoop以及Spark

#!/bin/bash
# 啟動Hadoop以及yarn
start-dfs.sh
start-yarn.sh
# 啟動歷史伺服器
mr-jobhistory-daemon.sh start historyserver
# 啟動Spark
/usr/local/spark/sbin/start-all.sh

停止Hadoop以及Spark

#!/bin/bash
# 停止Spark
stop-dfs.sh
stop-yarn.sh
# 停止歷史伺服器
mr-jobhistory-daemon.sh stop historyserver
# 停止Hadoop以及yarn
/usr/local/hadoop/sbin/stop-all.sh

通過WEB頁面檢視

瀏覽器中輸入地址:localhost:8080

Ubuntu 16.04安裝Hadoop及Spark

安裝Hadoop及Spark(Ubuntu 16.04) 安裝JDK 下載jdk(以jdk-8u91-linux-x64.tar.gz為例) 新建資料夾 sudo mkdir /usr/lib/jvm 解壓下載的jdk檔案並移動到新建的資料夾下 sudo tar -xzvf jdk-8u91-linu

Ubuntu 16.04 安裝 Hadoop

安裝SSH、配置SSH無密碼登入安裝SSH Server 登入本機 $ sudo apt-get install openssh-server $ ssh localhost 配置無密碼登入 $ exit # 退出ssh localho

Ubuntu 16.04 安裝Wireshark及執行出錯的解決方法

Ubuntu 16.04 安裝Wireshark步驟： 1.1 新增wireshark源 sudo add-apt-repository ppa:wireshark-dev/stable 1.2 更新版本庫 sudo apt-get update 1.3 安裝wire

HRG（1）——Ubuntu 16.04 安裝Intel RealSense及環境配置

1 更新源開啟系統設定，軟體與更新這裡，Download from一定是Main server。我因為沒有改源重灌了將近十次Ubuntu。我根據上面網址中的指導一步步操作下來，在進行到安裝demo這句命令的時候 sudo apt-get install librealsen

Ubuntu 16.04安裝Spark

在阿里雲ECS伺服器的Ubuntu中安裝Spark 安裝Spark 安裝spark 從官網下載安裝包並解壓。修改Spark配置檔案 $ cd /usr/local/spark $ cp cp ./conf/spark-env.sh.template .

ubuntu 16.04 安裝ROS-Kinetic 及常見問題處理（詳細）

一、正常的安裝流程： 1、設定映象：在安裝ROS的時候可以選擇ROS官方的軟體源映象，但是速度會比較慢，因此比較推薦使用國內的，下面以中國科學技術大

ubuntu 16.04 安裝PhpMyAdmin

apt-get min tex server apache2 pac tle 賬號 pre 首先，安裝MySQL $ sudo apt-get install mysql-server $ sudo apt-get install mysql-client 安裝時輸出roo

ubuntu 16.04 安裝lamp

ubuntu安裝lamp lamp lamp安裝 sudo apt-get install apache2apache2 -vsudo apt-get install php7.0php7.0 -vsudo apt-get install libapache2-mod-php7.0cat /etc

Ubuntu 16.04 安裝Docker

his tput 64位 curl ins ade mon bfc lib 前置安裝確保你的系統是64位 $ sudo apt-get install apt-transport-https ca-certificates curl

Ubuntu 16.04 安裝 Docker

echo llb tor art res port ces size inf Ubuntu 16.04 安裝 docker 是一件很麻煩的事情，但鑒於 docker 的各種優點，還是忍了。參考docker官網。　　1.選擇國內的雲服務商，這裏選擇阿裏雲為例 curl -

在Ubuntu 16.04 安裝python3.6 環境並設置為默認

ins 設置 posit ubun -s install code python版本 ln -s 1.添加python3.6安裝包,並且安裝 sudo add-apt-repository ppa:jonathonf/python-3.6 sudo apt-get upd

在Ubuntu 16.04安裝 Let’s Encrypt並配置ssl

lan 域名 rtb blank cert org 配置 pac 安裝配置 1.安裝前準備 1）要確保python的默認版本為2.7及以上版本。 2）需要配置的apache、nginx需要提前配置綁定域名。 2.安裝ssl 在這個https://certbot.eff.or

如何在Ubuntu 16.04安裝的Git【轉】

date 創建文件訪問 title 源代碼 make tomat change 右鍵轉自：https://www.howtoing.com/how-to-install-git-on-ubuntu-16-04/ 介紹現代軟件開發中不可或缺的工具是某種版本控制系統。

Ubuntu 16.04安裝uGet替代迅雷，並在Chrome中設置為默認下載器

ria 點擊下載 sdn 顯示同時 bin style apt 使用 uGet是采用aria2作為下載後端，所以兩個軟件都必須同時安裝。 1、安裝uGet sudo add-apt-repository ppa:plushuang-tw/uget-stable

Ubuntu 16.04安裝XMind

下載每次 unzip pre set targe tar linux. 遺憾下載： http://www.xmind.net/download/linux/ 解壓 sudo unzip xmind-8-update2-linux.zip -d xmind8

Ubuntu 16.04安裝GIMP替代PS

get div clas 搜索 6.0 ref targe 替代 sudo GIMP雖然不能完全替代PS，但是也能彌補一下。系統默認源中已經包含了GIMP，不需要使用PPA這些。安裝： sudo apt-get install gimp 啟動：通過D

Ubuntu 16.04安裝FTP客戶端filezilla

com log ubuntu file 安裝 targe blog clas code 1、安裝： sudo apt-get install filezilla 參考： http://os.51cto.com/art/201103/247564.htmU

Ubuntu 16.04安裝Gufw防火墻（轉）

table 限制路由按鈕其他 ubuntu 在家 apt www 繼上一篇文章http://www.cnblogs.com/EasonJim/p/6851241.html講解的UFW防火墻是沒有界面的，下面將介紹在Gufw的GUI配置功能。 Ubuntu簡化了ipt

Ubuntu 16.04安裝Grub Customizer替代Startup-manager（解決找不到menu.lst，GRUB配置簡單介紹）

沒有 line 計算機引導 tps 最好 file 自己 otl 關於GRUB的介紹： http://baike.baidu.com/item/GRUB http://blog.csdn.net/bytxl/article/details/9253713 menu.

Ubuntu 16.04 安裝 Open Jdk

ttr pri ubuntu apt upd sudo pos code 6.0 sudo add-apt-repository ppa:openjdk-r/ppa sudo apt-get update sudo apt-get install openjdk-7-j

Ubuntu 16.04安裝Hadoop及Spark

安裝Hadoop及Spark(Ubuntu 16.04)

安裝JDK

安裝Scala

安裝Hadoop

參考

安裝

Hadoop偽分散式配置

配置YARN

安裝Spark

相關推薦