1. 程式人生 > >Hadoop、Spark、Storm相關元件安裝

Hadoop、Spark、Storm相關元件安裝

一、準備

1. 安裝虛擬機器與編譯Hadoop


注:本文選的是base server,同時把java安裝選項去掉

建立3個虛擬機器,分別為hsm01, hss01, hss02

hostname ip
hsm01 192.168.99.145
hss01 192.168.99.151
hss02 192.168.99.152

2. 配置伺服器

2.1 關閉防火牆

# 執行命令
service iptables stop
# 驗證
service iptables status
# 關閉防火牆的自動執行
chkconfig iptables off # 驗證 chkconfig --list | grep iptables

2.2 設定主機名

$ hostname hss01
vim /etc/sysconfig/network
HOSTNAME=hss01

# ip 與 hostname 繫結
vim /etc/hosts
192.168.1.102 hss01

2.3 免密碼登入

# 設定 ssh 免密碼登入(在三個節點分別執行以下命令)
ssh-keygen -t rsa
# ~/.ssh/id_rsa.pub就是生成的公鑰,把三個id_rsa.pub的內容合併,寫入以下檔案
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
# 複製到其他節點
scp ~/.ssh/authorized_keys [email protected]:~/.ssh/ scp ~/.ssh/authorized_keys [email protected]:~/.ssh/ # CentOS7中還需要設定許可權 chmod 700 ~/.ssh chmod 600 ~/.ssh/authorized_keys

3. 安裝JDK

# root使用者(也可以其他使用者安裝)
vim /etc/profile

export JAVA_HOME=/opt/jdk1.8.0_45
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME
/lib/dt.jar:$JAVA_HOME/lib/tools.jar source /etc/profile

4. 版本

程式 版本
JDK 1.8.0_45
Hadoop 2.6.4
zookeeper 3.4.6
hbase 1.2.2
hive 1.2.1
mysql 5.7.14
sqoop 1.99.7
spark 1.6.2
storm 0.9.7

5. 規劃

節點 安裝軟體 程序
hsm01 jdk, hadoop, zookeeper, hbase, hive, sqoop, spark NameNode, ResourceManager, JournalNode, QuorumPeerMain, DFSZKFailoverController, HMaster, Worker, Master
hss01 jdk, hadoop, zookeeper, hbase, spark NameNode, ResourceManager(需單獨啟動), JournalNode, QuorumPeerMain, DataNode, NodeManager, DFSZKFailoverController, Worker
hss02 jdk, hadoop, zookeeper, hbase, mysql, spark DataNode, NodeManager, JournalNode, QuorumPeerMain, Worker

二、安裝


hadoop相關程式都是用zkpk使用者進行操作,並安裝在/home/zkpk目錄下

1. zookeeper

1.1 解壓

tar -xf zookeeper-3.4.6.tar.gz

1.2 配置

cd ~/zookeeper-3.4.6/conf
cp zoo_sample.cfg zoo.cfg
vim zoo.cfg

# 修改
dataDir=/home/zkpk/zookeeper-3.4.6/data
# 新增
dataLogDir=/home/zkpk/zookeeper-3.4.6/logs

# 在最後新增
server.1=hsm01:2888:3888
server.2=hss01:2888:3888
server.3=hss02:2888:3888

1.3 建立目錄與myid檔案

# zookeeper根目錄執行
mkdir data
mkdir logs

# 在dataDir目錄下建立myid檔案寫入1
vim data/myid

1.4 複製ZooKeeper到其他節點

scp -r ~/zookeeper-3.4.6/ zkpk@hss01:~/
scp -r ~/zookeeper-3.4.6/ zkpk@hss02:~/

# 將hss01中的myid改為2,hss02中的myid改為3
vim ~/zookeeper-3.4.6/data/myid

1.5 配置環境變數

vim ~/.bash_profile

export ZOOKEEPER_HOME=/home/zkpk/zookeeper-3.4.6
export PATH=$PATH:$ZOOKEEPER_HOME/bin

source ~/.bash_profile

1.6 逐個啟動驗證

zkServer.sh start
zkServer.sh status

1.7 問題

2. Hadoop

2.1 解壓(/home/zkpk)

tar -xf hadoop-2.6.4.tar.gz

2.2 建立相應目錄

cd hadoop-2.6.4
# namenode資訊存放目錄
mkdir name
# datanode資訊存放目錄
mkdir data

2.3 修改JAVA_HOME

cd etc/hadoop
vim yarn-env.sh
vim hadoop-env.sh
vim mapred-env.sh

export JAVA_HOME=/opt/jdk1.8.0_45

2.4 配置core-site.xml

vim core-site.xml

<configuration>
  <property>
     <name>fs.defaultFS</name>
    <value>hdfs://ns1</value>
  </property>
  <property>
     <name>hadoop.tmp.dir</name>
     <value>/home/zkpk/hadoop-2.6.4/tmp</value>
  </property>
  <property>
     <name>ha.zookeeper.quorum</name>
     <value>hsm01:2181,hss01:2181,hss02:2181</value>
  </property>
</configuration>


注:不要忘了建立tmp目錄

2.5 配置hdfs-site.xml

vim hdfs-site.xml

<configuration>
  <!-- 生產環境至少3個,這裡節省點空間,-_-! -->
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <!-- 客戶端遠端除錯時,無法訪問hdfs目錄,關閉許可權 -->
  <property>
    <name>dfs.permissions</name>
    <value>false</value>
  </property>
  <!-- namenode儲存元資料的目錄地址 -->
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/home/zkpk/hadoop-2.6.4/name</value>
    <final>true</final>
  </property>
  <!-- datanode存放資料塊的目錄列表 -->
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/home/zkpk/hadoop-2.6.4/data</value>
    <final>true</final>
  </property>
  <property>
    <name>dfs.nameservices</name>
    <value>ns1</value>
  </property>
  <property>
    <name>dfs.ha.namenodes.ns1</name>
    <value>nn1,nn2</value>
  </property>
  <property>
    <name>dfs.namenode.rpc-address.ns1.nn1</name>
    <value>hsm01:9000</value>
  </property>
  <property>
    <name>dfs.namenode.http-address.ns1.nn1</name>
    <value>hsm01:50070</value>
  </property>
  <property>
    <name>dfs.namenode.rpc-address.ns1.nn2</name>
    <value>hss01:9000</value>
  </property>
  <property>
    <name>dfs.namenode.http-address.ns1.nn2</name>
    <value>hss01:50070</value>
  </property>
  <property>
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://hsm01:8485;hss01:8485;hss02:8485/ns1</value>
  </property>
  <property>
    <name>dfs.journalnode.edits.dir</name>
    <value>/home/zkpk/hadoop-2.6.4/journal</value>
  </property>
  <property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>
  </property>
  <property>
    <name>dfs.client.failover.proxy.provider.ns1</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
  </property>
  <property>
    <name>dfs.ha.fencing.methods</name>
    <value>
          sshfence
          shell(/bin/true)
    </value>
  </property>
  <property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/home/zkpk/.ssh/id_rsa</value>
  </property>
  <property>
    <name>dfs.ha.fencing.ssh.connect-timeout</name>
    <value>30000</value>
  </property>
</configuration>

2.6 編輯mapred-site.xml

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

2.7 編輯yarn-site.xml

vim yarn-site.xml

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
  <property>
    <name>yarn.resourcemanager.ha.enabled</name>
    <value>true</value>
  </property>
  <property>
    <name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
    <value>true</value>
  </property>
  <property>
    <name>yarn.resourcemanager.ha.id</name>
    <value>rm1</value>
  </property>
  <property>
    <name>yarn.resourcemanager.cluster-id</name>
    <value>yrc</value>
  </property>
  <property>
    <name>yarn.resourcemanager.ha.rm-ids</name>
    <value>rm1,rm2</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname.rm1</name>
    <value>hsm01</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname.rm2</name>
    <value>hss01</value>
  </property>
  <property>
    <name>yarn.resourcemanager.zk-address</name>
    <value>hsm01:2181,hss01:2181,hss02:2181</value>
  </property>
  <property>
    <name>yarn.resourcemanager.recovery.enabled</name>
    <value>true</value>
  </property>
  <property>
    <name>yarn.resourcemanager.store.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
  </property>
</configuration>

2.8 編輯slaves

vim slaves

hss01
hss02

2.9 複製到其他節點

scp -r ~/hadoop-2.6.4 hss01:~/
scp -r ~/hadoop-2.6.4 hss02:~/

2.10 配置各節點環境變數

開啟:
vim ~/.bash_profile
新增:
export HADOOP_HOME=/home/zkpk/hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
重新整理:
source ~/.bash_profile
驗證:(輸入以下命令,如果出現hadoop對應的版本,則hadoop配置成功。)
hadoop version

2.11 叢集啟動(嚴格按照下面的步驟)

a. 啟動zookeeper叢集(分別在hsm01、hss01、hss02上啟動zk)

zkServer.sh start
# 檢視狀態:一個leader,兩個follower
zkServer.sh status

b. 啟動journalnode(分別在hsm01、hss01、hss02上啟動journalnode)

hadoop-daemon.sh start journalnode

# 執行jps命令檢驗,hsm01、hss01、hss02上多了JournalNode程序

c. 格式化HDFS

# hsm01上執行
hdfs namenode -format

d. 將tmp拷到其他節點

scp -r ~/hadoop-2.6.4/name hss01:~/hadoop-2.6.4/
scp -r ~/hadoop-2.6.4/name hss02:~/hadoop-2.6.4/

e. 格式化ZK

# hsm01上執行
hdfs zkfc -formatZK

f. 啟動HDFS

start-dfs.sh

g. 啟動YARN.resourcemanager

# hsm01上執行
start-yarn.sh

# hss01備節點上執行
yarn-daemon.sh start resourcemanager

h. 驗證

# 通過以下IP用瀏覽器訪問,一個處於active,一個處於standby,說明叢集啟動成功。
http://192.168.99.145:50070
NameNode 'hsm01:9000' (active)
http://192.168.99.151:50070
NameNode 'hss01:9000' (standby)

# 驗證HDFS HA(向hdfs上傳一個檔案)
hadoop fs -put /etc/profile /profile
hadoop fs -ls /

Found 1 items
-rw-r--r--   1 zkpk supergroup       2257 2016-08-29 19:44 /profile

kill掉active的NameNode
kill -9 <pid of NN>
訪問:http://192.168.99.145:50070 無法開啟
訪問:http://192.168.99.151:50070
NameNode 'hss01:9000' (active)

執行:
hadoop fs -ls /

Found 1 items
-rw-r--r--   1 zkpk supergroup       2257 2016-08-29 19:44 /profile

手動啟動掛掉的那個NameNode,在hsm01上執行
hadoop-daemon.sh start namenode
訪問:http://192.168.99.145:50070
顯示:NameNode 'hsm01:9000' (standby)

刪除上傳檔案:
hadoop fs -rm -r /profile

# 驗證Yarn HA
http://hsm01:8088/
正常顯示內容。
http://hss01:8088/
顯示“This is standby RM. Redirecting to the current active RM: http://hsm01:8088/cluster/nodes”

kill掉active的resourcemanager
kill -9 <pid of RM>
http://hsm01:8088 無法訪問

http://hss01:8088/ 正常訪問(內容顯示需要等待幾秒鐘)

以上,Hadoop HA叢集搭建完畢。

2.12 叢集啟動關閉總結

# 啟動
zkServer.sh start
start-dfs.sh
start-yarn.sh

# 關閉
stop-dfs.sh
stop-yarn.sh
zkServer.sh stop

2.13 問題

待續

3. Hive安裝

3.1 MySQL安裝

# 建立hadoop使用者
grant all on *.* to [email protected]'%' identified by 'hadoop';
grant all on *.* to [email protected]'localhost' identified by 'hadoop';
grant all on *.* to [email protected]'hsm01' identified by 'hadoop';
flush privileges;

# 建立資料庫
create database hive_121;

3.2 解壓

tar -xf apache-hive-1.2.1-bin.tar.gz

# 檔名修改為hive-1.2.1
mv apache-hive-1.2.1-bin/ hive-1.2.1

3.3 修改檔名

# 在hive-1.2.1/conf下,修改檔名
mv hive-default.xml.template hive-site.xml
mv hive-log4j.properties.template hive-log4j.properties
mv hive-exec-log4j.properties.template hive-exec-log4j.properties
mv hive-env.sh.template hive-env.sh

3.4 hive-env.sh

export HADOOP_HOME=/home/zkpk/hadoop-2.6.4
export HIVE_CONF_DIR=/home/zkpk/hive-1.2.1/conf

3.5 hive-log4j.properties

hive.log.dir=/home/zkpk/hive-1.2.1/logs

# 建立日誌目錄
mkdir /home/zkpk/hive-1.2.1/logs

3.6 hive-site.xml

刪除所有內容,新增如下內容:

<configuration>
  <property>
    <name>hive.metastore.warehouse.dir</name>
    <value>hdfs://ns1/hive/warehouse</value>
  </property>
  <property>
    <name>hive.exec.scratchdir</name>
    <value>hdfs://ns1/hive/scratchdir</value>
  </property>
  <property>
    <name>hive.querylog.location</name>
    <value>/home/zkpk/hive-1.2.1/logs</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://hss02:3306/hive_121?characterEncoding=UTF-8</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>hadoop</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>hadoop</value>
  </property>
</configuration>

3.7 環境變數

vim ~/.bash_profile

export HIVE_HOME=/home/zkpk/hive-1.2.1
export PATH=$PATH:$HIVE_HOME/bin

source ~/.bash_profile


在hive/lib下有個jline的jar,將hadoop內的這個jar包換成一致的,否則會啟動hive會報錯。

將mysql-connector-java-5.1.29.jar連線jar拷貝到hive-1.2.1/lib目錄下

# 執行下面命令
hive

# http://hsm01:50070,檢視是否多了hive目錄。

3.8 問題與參考

4. Sqoop安裝

4.1 Sqoop1

4.1.1 解壓

tar -xf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

# 修改目錄
mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha/ sqoop-1.4.6

4.1.2 配置MySQL聯結器

cp mysql-connector-java-5.1.29.jar sqoop-1.4.6/lib/

4.1.3 配置環境變數

cp conf/sqoop-env-template.sh conf/sqoop-env.sh
vim conf/sqoop-env.sh

編輯

# Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements.  See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License.  You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# included in all the hadoop scripts with source command
# should not be executable directly
# also should not be passed any arguments, since we need original $*

# Set Hadoop-specific environment variables here.

#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/home/zkpk/hadoop-2.6.4

#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/home/zkpk/hadoop-2.6.4

#set the path to where bin/hbase is available
export HBASE_HOME=/home/zkpk/hbase-1.2.2

#Set the path to where bin/hive is available
export HIVE_HOME=/home/zkpk/hive-1.2.1

#Set the path for where zookeper config dir is
#export ZOOCFGDIR=
vim ~/.bash_profile

# 增加
export SQOOP_HOME=/home/zkpk/sqoop-1.4.6
export PATH=$PATH:$SQOOP_HOME/bin

source ~/.bash_profile

4.1.4 驗證

[[email protected] ~]$ sqoop help
Warning: /home/zkpk/sqoop-1.4.6/../hcatalog does not exist! HCatalog jobs will fail.
Please set $HCAT_HOME to the root of your HCatalog installation.
Warning: /home/zkpk/sqoop-1.4.6/../accumulo does not exist! Accumulo imports will fail.
Please set $ACCUMULO_HOME to the root of your Accumulo installation.
16/09/16 16:02:38 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6
usage: sqoop COMMAND [ARGS]

Available commands:
  codegen            Generate code to interact with database records
  create-hive-table  Import a table definition into Hive
  eval               Evaluate a SQL statement and display the results
  export             Export an HDFS directory to a database table
  help               List available commands
  import             Import a table from a database to HDFS
  import-all-tables  Import tables from a database to HDFS
  import-mainframe   Import datasets from a mainframe server to HDFS
  job                Work with saved jobs
  list-databases     List available databases on a server
  list-tables        List available tables in a database
  merge              Merge results of incremental imports
  metastore          Run a standalone Sqoop metastore
  version            Display version information

See 'sqoop help COMMAND' for information on a specific command.

4.2 Sqoop2


注:Sqoop 2 包不能安裝在與 Sqoop1 包相同的機器上。

4.2.1 解壓

tar -xf sqoop-1.99.7-bin-hadoop200.tar.gz

# 修改目錄名
mv sqoop-1.99.7-bin-hadoop200/ sqoop-1.99.7

4.2.2 配置Hadoop代理訪問

# 配置代理
vim $HADOOP_HOME/etc/hadoop/core-site.xml

# zkpk是執行server的使用者
<property>
  <name>hadoop.proxyuser.zkpk.hosts</name>
  <value>*</value>
</property>
<property>
  <name>hadoop.proxyuser.zkpk.groups</name>
  <value>*</value>
</property>

# 由於使用者id小於1000(可用id命令檢視),設定此項
vim $HADOOP_HOME/etc/hadoop/container-executor.cfg

allowed.system.users=zkpk

4.2.3 sqoop.properties

# @[email protected]修改為/home/zkpk/sqoop-1.99.7/logs
# @[email protected]修改為/home/zkpk/sqoop-1.99.7

# hadoop配置檔案路徑
org.apache.sqoop.submission.engine.mapreduce.configuration.directory=/home/zkpk/hadoop-2.6.4/etc/hadoop/

# 設定驗證機制(去掉註釋)
org.apache.sqoop.security.authentication.type=SIMPLE
org.apache.sqoop.security.authentication.handler=org.apache.sqoop.security.authentication.SimpleAuthenticationHandler
org.apache.sqoop.security.authentication.anonymous=true

4.2.4 配置第三方jar引用路徑

複製mysql驅動jar檔案到$SQOOP_HOME/extra(建立extra目錄)

export SQOOP_SERVER_EXTRA_LIB=$SQOOP_HOME/extra

4.2.5 環境變數

vim ~/.bash_profile

export SQOOP_HOME=/home/zkpk/sqoop-1.99.7
export SQOOP_SERVER_EXTRA_LIB=$SQOOP_HOME/extra
export PATH=$PATH:$SQOOP_HOME/bin

source ~/.bash_profile

4.2.6 啟動驗證

# 驗證配置是否有效
sqoop2-tool verify

# 開啟伺服器
sqoop2-server start

# 客戶端驗證
sqoop2-shell

show connector

# 停止伺服器
sqoop2-server stop

4.3 問題與參考

5. HBase安裝

5.1 解壓

tar -xf hbase-1.2.2-bin.tar.gz

5.2 lib更新

cd hbase-1.2.2/lib

cp ~/hadoop-2.6.4/share/hadoop/mapreduce/lib/hadoop-annotations-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/tools/lib/hadoop-auth-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/common/hadoop-common-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/hdfs/hadoop-hdfs-2.6.4.jar .

cp ~/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-client-app-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-client-common-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-client-shuffle-2.6.4.jar .

cp ~/hadoop-2.6.4/share/hadoop/yarn/hadoop-yarn-api-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/yarn/hadoop-yarn-client-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/yarn/hadoop-yarn-common-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/yarn/hadoop-yarn-server-common-2.6.4.jar .

# 解決java.lang.NoClassDefFoundError: org/htrace/Trace
cp ~/hadoop-2.6.4/share/hadoop/common/lib/htrace-core-3.0.4.jar .

# 刪除老版的jar
rm *-2.5.1.jar

5.2 hbase-env.sh

export JAVA_HOME=/opt/jdk1.8.0_45
export HBASE_MANAGES_ZK=false
export HBASE_CLASSPATH=/home/zkpk/hadoop-2.6.4/etc/hadoop

# 註釋掉下面的配置(因為1.8JDK沒有這個選項)
#export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"
#export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"

5.3 hbase-site.xml

<configuration>
  <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>
  <property>
    <name>hbase.tmp.dir</name>
    <value>/home/zkpk/hbase-1.2.2/tmp</value>
  </property>
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://ns1/hbase</value>
  </property>
  <property>
    <name>zookeeper.session.timeout</name>
    <value>120000</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.tickTime</name>
    <value>6000</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.clientPort</name>
    <value>2181</value>
  </property>
  <property>
    <name>hbase.zookeeper.quorum</name>
    <value>hsm01,hss01,hss02</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.dataDir</name> 
    <value>/home/zkpk/zookeeper-3.4.6/data</value>
  </property>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property> 
    <name>hbase.master.maxclockskew</name> 
    <value>180000</value>
  </property> 
</configuration>

5.4 regionservers

hss01
hss02

5.5 拷貝hbase到其他節點

把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下

cp hadoop-2.6.4/etc/hadoop/hdfs-site
            
           

相關推薦

HadoopSparkStorm相關元件安裝

一、準備 1. 安裝虛擬機器與編譯Hadoop 注:本文選的是base server,同時把java安裝選項去掉 建立3個虛擬機器,分別為hsm01, hss01, hss02 hostname ip

【經典】一篇文章初識大資料,及大資料相關框架Hadoopsparkflink等

今天看到一篇講得比較清晰的框架對比,這幾個框架的選擇對於初學分散式運算的人來說確實有點迷茫,相信看完這篇文章之後應該能有所收穫。 簡介 大資料是收集、整理、處理大容量資料集,並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理資料所需的計算能力或儲存容量早已超過一

【技術世界】分享大資料領域技術包括但不限於StormSparkHadoop等分散式計算系統,KafkaMetaQ等分散式訊息系統, MongoDB等NoSQL,PostgreSQL等RDBMS,SQL優

技術世界 分享大資料領域技術、包括但不限於Storm、Spark、Hadoop等分散式計算系統,Kafka、MetaQ等分散式訊息系統, MongoDB等NoSQL,PostgreSQL等RDBMS,SQL優...

安裝Spark+hadoopsparkhadoop分散式叢集搭建...(親自搭建過!!)

首先說一下我所用的版本: spark-2.1.1-bin-hadoop2.7.tgz hadoop-2.7.3.tar.gz jdk-8u131-linux-x64.rpm 我們實驗室有4臺伺服器:每個節點硬碟:300GB,記憶體:64GB。四個

docker部署分散式大資料叢集hadoopsparkhivejdkscala

(一)1 用docker建立映象並搭建三個節點容器的hadoop及spark服務 包括:mysql,hadoop,jdk,spark,hive,scala,sqoop docker已經安裝並且啟動 #搜尋centos映象: docker search centos #拉取

【stark_summer的專欄 】專注於開發分散式任務排程框架分散式同步RPC非同步MQ訊息佇列分散式日誌檢索框架、hadoop、spark、scala等技術 如果我的寫的文章能對您有幫助,請您能給點捐助,請看首頁置頂

專注於開發分散式任務排程框架、分散式同步RPC、非同步MQ訊息佇列、分散式日誌檢索框架、hadoop、spark、scala等技術 如果我的寫的文章能對您有幫助,請您能給點捐助,請看首頁置頂...

hadoopsparksparkstrming和kafka簡介

1、Hadoop和Spark的關係 Spark是為了跟Hadoop配合而開發出來的,不是為了取代Hadoop,專門用於大資料量下的迭代式計算。 Spark運算比Hadoop的MapReduce框架快的原因是因為Hadoop在一次MapReduce運算之後,會將資料的運算結果從記憶體寫入到磁碟中,

jupyter安裝及配置scalasparkpyspark核心

安裝 jupyter和python 本文使用Anaconda安裝jupyter。 Anaconda可以看做Python的一個整合安裝,安裝它後就預設安裝了python、IPython、整合開發環境Spyder和眾多的包和模組 下載 Anaconda

hadoopsparkHbaseHivehdfs,是什麼

這些都是“大資料”相關的概念,即和關係型資料庫,相比較而產生的新技術。即j2ee的web開發中,資料庫部分(如傳統的關係型資料庫的oracle),的內容 1Hbase:是一個nosql資料庫,和mongodb類似。 2hdfs:hadoop distribut file

(轉)HadoopSparkHBase與Redis的適用性見解

由於沒有機會對Hadoop、Spark、HBase與Redis的各個特性進行測試,所以在網路上找到了這篇文章,說說Hadoop、Spark、HBase與Redis的適用性問題。 轉自 http://datainsight.blog.51cto.com/8987355/142

資料計算(大資料):MapReduceSparkStorm概述特點原理

MapReduceMapReduce將複雜的、運行於大規模叢集上的平行計算過程高度地抽象到了兩個函式:Map和Reduce。特點:程式設計容易;分而治之策略(大規模資料集,會被切成許多獨立分片,分片由多個Map任務);計算向資料靠攏(設計理念)函式輸入輸出說明Map<k

大資料叢集遇到的問題(HadoopSparkHivekafkaHbasePhoenix)

大資料平臺中遇到的實際問題,整理了一下,使用CDH5.8版本,包括Hadoop、Spark、Hive、kafka、Hbase、Phoenix、Impala、Sqoop、CDH等問題,初步整理下最近遇到的問題,不定期更新。 啟動nodemanager失敗 2016-09-07

資料探勘中SASpythonRsparkhadoop個人見解

2014年做過幾個比較大型的SAS專案,今年接觸接觸pandas,想在兩者說說自己的一些看法,對於SAS能處理的大資料,之前在民生銀行的是SAS伺服器配置的是128g記憶體 16核cpu  2t的硬碟空間,處理億級別的資料還是毫無壓力的,sas軟體不得不說不只是一個單純的統計軟體,在資料探勘這一塊無可媲美的

38套大資料,雲端計算,架構,資料分析師,HadoopSparkStorm,Kafka,人工智慧,機器學習,深度學習,專案實戰視訊教程

38套大資料,雲端計算,架構,資料分析師,Hadoop,Spark,Storm,Kafka,人工智慧,機器學習,深度學習,專案實戰視訊教程 視訊課程包含: 38套大資料和人工智慧高階課包含:大資料,雲端計算,架構,資料探勘實戰,實時推薦系統實戰,電視收視率專案實戰,實時流統計專案實戰,離線電

Spark教程(2)-Spark概述及相關元件

1.概述 Spark起源於加州大學伯克利分校RAD實驗室,起初旨在解決MapReduce在迭代計算和互動計算中的效率低下問題.目前Spark已經發展成集離線計算,互動式計算,流計算,圖計算,機器學習等模組於一體的通用大資料解決方案. 2.Spark元件 Spark Core

大資料晉級之路(5)HadoopSparkStorm綜合比較

大資料框架:Spark vs Hadoop vs Storm 目錄 Hadoop Spark Storm   大資料時代,TB級甚至PB級資料已經超過單機尺度的資料處理,分散式處理系統應運而生。 知識預熱 「專治不明覺厲」之“大資料

HadoopSparkStorm,Docker,Mapreduce,Kafka深入解析

大資料,無論是從產業上,還是從技術上來看,都是目前的發展熱點。在中國,政府控制著80%的資料,剩下的多由“BAT”這樣的大公司擁有,中小企業如何構建自己的大資料系統?其他企業如何建設自己的大資料系統?   推薦兩大應用最廣泛、國人認知最多的Apache開源大資料框架系統:Spark &

mongodb及相關元件安裝

mongodb rockmongo Install PHP runtime environment if you don’t have one yet, such like Apache Httpd, Nginx … Unzip the files

【專治不明覺厲】之“大資料” HadoopSparkStorm

虎嗅注:上一篇“專治不明覺厲”文章,虎嗅君為大家介紹了“雲端計算”領域中的那些“不明覺厲”的名詞。作為雲端計算最重要的應用,大資料領域也有很多看上去“不明覺厲”的詞彙。本篇文章,虎嗅君就為各位介紹“大資料”領域裡的“不明覺厲”。 大資料(Big Data) 大資料,官

YARNSparkHive使用kerberos

本文記錄YARN、Spark、Hive各服務配置使用kerberos的過程。 我的環境: 三臺伺服器,分別命名為zelda1、zelda2、zelda3ubuntu 14.04hadoop 2.7.2spark 2.0/1.6.1 YARN認證 目的是將YARN接入到