Hadoop、HBase、Spark單機安裝

阿新 • • 發佈：2020-07-13

水平有限，本文僅以流水賬的方式介紹自己安裝三款軟體的過程。

環境Ubuntu on 虛擬機器：

$ cat /proc/version
Linux version 4.15.0-54-generic (buildd@lgw01-amd64-014) (gcc version 7.4.0 \
(Ubuntu 7.4.0-1ubuntu1~18.04.1)) #58-Ubuntu SMP Mon Jun 24 10:55:24 UTC 2019

背景

Hadoop 包含 HDFS、MapReduce（兩大核心），基於 Hadoop core 實現，對了Hadoop中還有一款資源管理器YARN。

HBase 一個分散式資料庫，列儲存模式，HBase將資料儲存在HDFS（基於），分散式NoSQL資料庫，類似MongoDB、Cassandra，不過，可以處理的資料量級大於MongoDB。

Spark 是一個計算框架，為了解決Hadoop的計算效率低下等問題而生，它基於記憶體做計算，可以基於Hadoop，也可以不和Hadoop一起使用。

三款軟體都屬於 Apache基金會，從下面的連結中可以找到各個軟體（Download & Documentation）：

https://www.apache.org/index.html#projects-list

安裝選擇的版本：

Hadoop：hadoop-3.1.3.tar.gz2019 Oct 21

HBase：hbase-2.2.5-bin.tar.gz2020/05/21

Spark：spark-3.0.0-bin-hadoop3.2.tgzJun 18, 2020

注意，

HBase 1.*、2.* 的區別是什麼？其 1.6.0 釋出於2020/03/06，看來兩個版本都是處於很好的維護階段。

spark with hadoop、without hadoop的區別是什麼？

作者還沒弄明白。

正文

0、準備工作

建立 hadoop使用者（不一定是 hadoop），並新增管理員許可權

JDK 8+（Linux上有 OpenJDK 的）

ssh、sshd、pdsh

1、Hadoop

三種安裝模式中的Pseudo-Distributed Mode（偽分散式）模式 + YARN資源排程器。

解壓hadoop-3.1.3.tar.gz；

修改etc/hadoop/hadoop-env.sh：

新增export JAVA_HOME=jdk安裝目錄；

執行 bin/hadoop 可以看到這個命令的使用者；

bin目錄下是一些原始命令，sbin目錄下是一些服務命令——啟動、停止等。

此時，hadoop命令就可以使用了，如官網所說，可以執行一些任務了。

etc下檔案：

$ ll etc/hadoop/
total 184
drwxr-xr-x 3 hadoop hadoop  4096 7月   9 08:46 ./
drwxr-xr-x 3 hadoop hadoop  4096 9月  12  2019 ../
-rw-r--r-- 1 hadoop hadoop  8260 9月  12  2019 capacity-scheduler.xml
-rw-r--r-- 1 hadoop hadoop  1335 9月  12  2019 configuration.xsl
-rw-r--r-- 1 hadoop hadoop  1940 9月  12  2019 container-executor.cfg
-rw-r--r-- 1 hadoop hadoop   866 6月  29 15:50 core-site.xml
-rw-r--r-- 1 hadoop hadoop  3999 9月  12  2019 hadoop-env.cmd
-rw-r--r-- 1 hadoop hadoop 15934 6月  29 14:48 hadoop-env.sh
-rw-r--r-- 1 hadoop hadoop  3323 9月  12  2019 hadoop-metrics2.properties
-rw-r--r-- 1 hadoop hadoop 11392 9月  12  2019 hadoop-policy.xml
-rw-r--r-- 1 hadoop hadoop  3414 9月  12  2019 hadoop-user-functions.sh.example
-rw-r--r-- 1 hadoop hadoop  1072 6月  30 15:03 hdfs-site.xml
-rw-r--r-- 1 hadoop hadoop  1484 9月  12  2019 httpfs-env.sh
-rw-r--r-- 1 hadoop hadoop  1657 9月  12  2019 httpfs-log4j.properties
-rw-r--r-- 1 hadoop hadoop    21 9月  12  2019 httpfs-signature.secret
-rw-r--r-- 1 hadoop hadoop   620 9月  12  2019 httpfs-site.xml
-rw-r--r-- 1 hadoop hadoop  3518 9月  12  2019 kms-acls.xml
-rw-r--r-- 1 hadoop hadoop  1351 9月  12  2019 kms-env.sh
-rw-r--r-- 1 hadoop hadoop  1747 9月  12  2019 kms-log4j.properties
-rw-r--r-- 1 hadoop hadoop   682 9月  12  2019 kms-site.xml
-rw-r--r-- 1 hadoop hadoop 13326 9月  12  2019 log4j.properties
-rw-r--r-- 1 hadoop hadoop   951 9月  12  2019 mapred-env.cmd
-rw-r--r-- 1 hadoop hadoop  1764 9月  12  2019 mapred-env.sh
-rw-r--r-- 1 hadoop hadoop  4113 9月  12  2019 mapred-queues.xml.template
-rw-r--r-- 1 hadoop hadoop  1027 6月  29 16:49 mapred-site.xml
drwxr-xr-x 2 hadoop hadoop  4096 9月  12  2019 shellprofile.d/
-rw-r--r-- 1 hadoop hadoop  2316 9月  12  2019 ssl-client.xml.example
-rw-r--r-- 1 hadoop hadoop  2697 9月  12  2019 ssl-server.xml.example
-rw-r--r-- 1 hadoop hadoop  2642 9月  12  2019 user_ec_policies.xml.template
-rw-r--r-- 1 hadoop hadoop    10 9月  12  2019 workers
-rw-r--r-- 1 hadoop hadoop  2250 9月  12  2019 yarn-env.cmd
-rw-r--r-- 1 hadoop hadoop  6056 9月  12  2019 yarn-env.sh
-rw-r--r-- 1 hadoop hadoop  2591 9月  12  2019 yarnservice-log4j.properties
-rw-r--r-- 1 hadoop hadoop  1159 6月  29 17:41 yarn-site.xml
hadoop@ben-VirtualBox:~/ws/hadoop-3.1.3$

etc/hadoop目錄

參考官網，進一步安裝Pseudo-Distributed Mode 的 hadoop。

修改etc/hadoop/core-site.xml；

修改 etc/hadoop/hdfs-site.xml：比官網多了 namenode、datanode 的配置，，預設是在 /tmp目錄下，重啟後資料丟失，下次由需要重新格式化，，整個HDFS中，只會有一個 namenode，但是，<value>屬性可以配置多個值（看到過一篇博文，首個目錄後的為備用）。

配置無密碼登入（ssh localhost）：在使用者的 HOME目錄下執行，執行後會有 .ssh資料夾

ssh-keygen

上面的配置後，HDFS可用了，也可以執行 hadoop任務（描述準確嗎？）。

使用前，需要執行HDFS格式化：

$ bin/hdfs namenode -format

啟動HDFS：

$ sbin/start-dfs.sh

此時，使用 jps命令可以看到 namenode、datanode、SecondaryNameNode等Java程序：

使用http://localhost:9870/ 可以看到一些hadoop的資訊。

如官網所講，此時，可以使用bin/hdfs 命令操作HDFS了，建立資料夾、操作檔案等。

HDFS 就是一個以根目錄（/）為節點的分散式檔案系統，目錄結構類似 Linux系統，但是，預設的根目錄下沒有內容。

接下來，配置YARN資源排程器。

修改etc/hadoop/mapred-site.xml：

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.application.classpath</name>
                <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
        </property>
</configuration>

修改etc/hadoop/yarn-site.xml：

<configuration>

<!-- Site specific YARN configuration properties -->

    <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
    </property>
    <property>
            <name>yarn.nodemanager.env-whitelist</name>
            <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
    <property>
            <name>yarn.nodemanager.vmem-check-enabled</name>
            <value>false</value>
    </property>
</configuration>

注意，

配置yarn.nodemanager.vmem-check-enabled 是為了避免任務需要的記憶體超過虛擬記憶體大小時，任務自動失敗的問題。

使用下面的命令即可啟動yarn資源排程器：

$ sbin/start-yarn.sh

啟動成功，使用 jps命令可以看到其程序：NodeManager、ResourceManager：

~/ws/hadoop-3.1.3$ sbin/start-yarn.sh
Starting resourcemanager
Starting nodemanagers
hadoop@ben-VirtualBox:~/ws/hadoop-3.1.3$ jps
4193 SecondaryNameNode
3942 DataNode
5320 NodeManager
5130 ResourceManager
3772 NameNode
5647 Jps
~/ws/hadoop-3.1.3$

訪問下面的連結可以看到資源管理器：

和前一步沒有啟動yarn一樣執行hadoop任務，可以在這個頁面看到任務執行詳情。

2、HBase

參考連結：

http://hbase.apache.org/book.html#quickstart

https://foochane.cn/article/2019062801.html

下載2.2.5：hbase-2.2.5-bin.tar.gz；

解壓：tar xzvf hbase-2.2.5-bin.tar.gz；

修改hbase-env.sh：export JAVA_HOME、export HBASE_MANAGES_ZK=false；

修改hbase-site.xml ：hbase.rootdir、hbase.zookeeper.quorum——埠為2182；

單機偽分散式部署，故，無需更改regionservers 檔案：預設為 localhost；

配置修改環境。

確保 hdfs、ZooKeeper 已啟動，然後，啟動 hbase：bin/start-hbase.sh；

HMaster啟動了，成功！

此時，可以訪問 localhost:16010 （舊版本的埠不是 16010）；

bin目錄下檔案：

重點：

hbase啟動後，可以通過 HBase shell 操作它。

list、help……需要摸索，和操作一般資料庫差不多。

HBase 啟動後，在 HDFS 下會建立一個 /hbase目錄：

至此，HBase 單機偽分散式安裝完畢。

3、Spark

提前安裝Scala：

下載scala-2.13.3.tgz，解壓，修改~/.bashrc檔案（修改後執行 source）；

命令列輸入 scala，進入互動式命令列：

開始Spark安裝：

下載 spark-3.0.0-bin-hadoop3.2.tgz ，解壓；

修改spark-env.sh；

單機，無需更改 slaves；

修改~/.bashrc檔案：

啟動Hadoop後，啟動Spark：

$SPARK_HOME/sbin/start-all.sh

注意，

start-all.sh 中會啟動 start-master.sh ，其中會配置 Master的埠為 8080，會存在衝突，修改後才可以啟動成功。

訪問 localhost:8081 可得：

說明，start-history-server.sh 的作用未測試，不啟動也是可以的。

bin目錄下的檔案列表：

執行 spark-shell 啟動互動式介面；

啟動成功，則可以使用 4040埠訪問：

Spark啟動了，接下來，怎麼使用Spark呢？

統計HDFS中一個檔案的行數：

4040埠所在的頁面可以看到任務更詳細的資訊：

就這樣，

安裝好了，接下來可以一邊學習一邊實踐了（Learning by Doing） ......

參考資料：

1、Hadoop: Setting up a Single Node Cluster.

https://hadoop.apache.org/docs/r3.1.3/hadoop-project-dist/hadoop-common/SingleCluster.html

2、網友 foochane 的大資料分類

https://foochane.cn/categories/%E5%A4%A7%E6%95%B0%E6%8D%AE/page/2/

hadoophttps://foochane.cn/article/2019051901.html

hbasehttps://foochane.cn/article/2019062801.html

sparkhttps://foochane.cn/article/2019051904.html

後記

作者儘量保證文章的準確性，如有謬誤，還請指正（不強求）。

yarn.nodemanager.vmem-check-enabled

Hadoop、HBase、Spark單機安裝

水平有限，本文僅以流水賬的方式介紹自己安裝三款軟體的過程。環境Ubuntu on 虛擬機器：

Linux安裝Atlas，整合zookeeper、kafka、hbase、solr

Linux安裝Atlas，整合zookeeper、kafka、hbase、solr 安裝Atlas前置環境必須安裝jdk、zookeeper、kafka、hbase、solr。

大資料運維（37） Hadoop+Hive+HBase+Kylin 偽分散式安裝

問題導讀 1.Centos7如何安裝配置？ 2.linux網路配置如何進行？ 3.linux環境下java如何安裝？

Hbase 2.2.2 安裝、配置(相容 Hadoop 3.1.3)

準備 Hbase 2.2.2 安裝包下載連結連結：https://pan.baidu.com/s/1TqEry-T7sYpq4PdhgLWdcQ 提取碼：de5z

在IDEA中安裝scala、maven、hadoop遇到的問題小結

小白在通過IDEA使用scala、maven、hadoop遇到的問題問題一：idea new 新檔案沒有scala；File->setting->Plugins，然後搜尋scala外掛安裝。安裝完成後重啟idea。然後設定Scala sdk: File->Project Structur

在IDEA中安裝scala、maven、hadoop遇到的問題

小白在通過IDEA使用scala、maven、hadoop遇到的問題問題一：idea new 新檔案沒有scala；File->setting->Plugins，然後搜尋scala外掛安裝。安裝完成後重啟idea。然後設定Scala sdk: File->Project

一、達夢8資料庫安裝（單機）

達夢資料庫文件寫的確實不錯，能看出他們是一家想把事情做好的公司，從文件上就看出了他們的誠意，作為國產資料庫為你點贊。今天嘗試搭建了一個數據庫，搭建過程比較順利，官網文件寫得好我為什麼還要寫一下如何安裝

zookeeper、hadoop、hbase叢集搭建

0、首先建立三臺虛擬機器，在此基礎上搭建分散式叢集建立虛擬機器：Mac上安裝VMware&搭載CentOS7

HBase - Phoenix的安裝使用教程3（SCHEMA的啟用、操作、關閉）

三、SCHEMA 的啟用、操作、關閉 1，啟用 SCHEMA 注意：Phoenix中將HBase的namespace叫做SCHEMA，相當於mysql中的庫的概念。

Phoenix整合HBase安裝部署、HBase整合Phoenix安裝部署

Phoenix整合HBase安裝部署　　原文：https://blog.csdn.net/qq_40751062/article/details/122695887

CMake學習筆記（一）基本概念介紹、入門教程及CLion安裝配置

什麼是構建系統在軟體開發中，構建系統（build system）是用來從原始碼生成使用者可以使用的目標的自動化工具。目標可以包括庫、可執行檔案、或者生成的指令碼等等。

Centos7 安裝配置 Nginx、MySql、Redis 的執行環境

本文主要講訴瞭如何搭建伺服器環境及相關配置。閱讀本文大約需要 6 分鐘。

3、深入分析JDK的安裝與配置

3、深入分析JDK的安裝與配置配置我們在前兩篇文章中分別向大家通俗易懂的介紹了什麼是Java，以及有關Java的一些趣事，相信你已經迫不及待的想要正式學習Java了，畢竟之前的介紹只是一些概念，並沒有真的去接觸Java，

linux（center OS7）安裝JDK、tomcat、mysql 搭建java web專案執行環境

一、安裝JDK 1.解除安裝舊版本或者系統自帶的JDK （1）列出所有已安裝的JDK 　　rpm -qa | grep jdk

Ubuntu 18.04上安裝Apache、MySQL、PHP、LAMP的完整教程

1.安裝 Apache $ sudo apt update && sudo apt install apache2 中間會遇到停頓詢問是否繼續,輸入 y 然後回車.

mongodb資料庫入門學習筆記之下載、安裝、啟動、連線操作解析

本文例項講述了mongodb資料庫下載、安裝、啟動、連線操作。分享給大家供大家參考，具體如下：

Django中redis的使用方法(包括安裝、配置、啟動)

一、安裝redis： 1.下載： wget http://download.redis.io/releases/redis-3.2.8.tar.gz 2.解壓 tar -zxvf redis-3.2.8.tar.gz

python使用pip安裝SciPy、SymPy、matplotlib教程

背景：使用pip install SciPy的格式安裝python函式庫SciPy的時候，發現老是報錯，從網上找資訊也沒找到合適的解決辦法，最後使用whl格式檔案安裝成功。

Python 、Pycharm、Anaconda三者的區別與聯絡、安裝過程及注意事項

1、致歡迎詞我將詳細講述在學Python初期的各種手忙腳亂的問題的解決，通過這些步驟的操作，讓你的注意力集中在Python的語法上以及後面利用Python所解決的專案問題上。而我自己作為小白，很不幸的沒有錯過任何的坑，

Python pip 安裝與使用(安裝、更新、刪除)

pip 是 Python 包管理工具，該工具提供了對Python 包的查詢、下載、安裝、解除安裝的功能。

Hadoop、HBase、Spark單機安裝

1、Hadoop

2、HBase

3、Spark

相關推薦