Hadoop、Spark、Storm相關元件安裝
一、準備
1. 安裝虛擬機器與編譯Hadoop
注:本文選的是base server,同時把java安裝選項去掉
建立3個虛擬機器,分別為hsm01, hss01, hss02
hostname | ip |
---|---|
hsm01 | 192.168.99.145 |
hss01 | 192.168.99.151 |
hss02 | 192.168.99.152 |
2. 配置伺服器
2.1 關閉防火牆
# 執行命令
service iptables stop
# 驗證
service iptables status
# 關閉防火牆的自動執行
chkconfig iptables off
# 驗證
chkconfig --list | grep iptables
2.2 設定主機名
$ hostname hss01
vim /etc/sysconfig/network
HOSTNAME=hss01
# ip 與 hostname 繫結
vim /etc/hosts
192.168.1.102 hss01
2.3 免密碼登入
# 設定 ssh 免密碼登入(在三個節點分別執行以下命令)
ssh-keygen -t rsa
# ~/.ssh/id_rsa.pub就是生成的公鑰,把三個id_rsa.pub的內容合併,寫入以下檔案
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
# 複製到其他節點
scp ~/.ssh/authorized_keys [email protected]:~/.ssh/
scp ~/.ssh/authorized_keys [email protected]:~/.ssh/
# CentOS7中還需要設定許可權
chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys
3. 安裝JDK
# root使用者(也可以其他使用者安裝)
vim /etc/profile
export JAVA_HOME=/opt/jdk1.8.0_45
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME /lib/dt.jar:$JAVA_HOME/lib/tools.jar
source /etc/profile
4. 版本
程式 | 版本 |
---|---|
JDK | 1.8.0_45 |
Hadoop | 2.6.4 |
zookeeper | 3.4.6 |
hbase | 1.2.2 |
hive | 1.2.1 |
mysql | 5.7.14 |
sqoop | 1.99.7 |
spark | 1.6.2 |
storm | 0.9.7 |
5. 規劃
節點 | 安裝軟體 | 程序 |
---|---|---|
hsm01 | jdk, hadoop, zookeeper, hbase, hive, sqoop, spark | NameNode, ResourceManager, JournalNode, QuorumPeerMain, DFSZKFailoverController, HMaster, Worker, Master |
hss01 | jdk, hadoop, zookeeper, hbase, spark | NameNode, ResourceManager(需單獨啟動), JournalNode, QuorumPeerMain, DataNode, NodeManager, DFSZKFailoverController, Worker |
hss02 | jdk, hadoop, zookeeper, hbase, mysql, spark | DataNode, NodeManager, JournalNode, QuorumPeerMain, Worker |
二、安裝
hadoop相關程式都是用zkpk使用者進行操作,並安裝在/home/zkpk目錄下
1. zookeeper
1.1 解壓
tar -xf zookeeper-3.4.6.tar.gz
1.2 配置
cd ~/zookeeper-3.4.6/conf
cp zoo_sample.cfg zoo.cfg
vim zoo.cfg
# 修改
dataDir=/home/zkpk/zookeeper-3.4.6/data
# 新增
dataLogDir=/home/zkpk/zookeeper-3.4.6/logs
# 在最後新增
server.1=hsm01:2888:3888
server.2=hss01:2888:3888
server.3=hss02:2888:3888
1.3 建立目錄與myid檔案
# zookeeper根目錄執行
mkdir data
mkdir logs
# 在dataDir目錄下建立myid檔案寫入1
vim data/myid
1.4 複製ZooKeeper到其他節點
scp -r ~/zookeeper-3.4.6/ zkpk@hss01:~/
scp -r ~/zookeeper-3.4.6/ zkpk@hss02:~/
# 將hss01中的myid改為2,hss02中的myid改為3
vim ~/zookeeper-3.4.6/data/myid
1.5 配置環境變數
vim ~/.bash_profile
export ZOOKEEPER_HOME=/home/zkpk/zookeeper-3.4.6
export PATH=$PATH:$ZOOKEEPER_HOME/bin
source ~/.bash_profile
1.6 逐個啟動驗證
zkServer.sh start
zkServer.sh status
1.7 問題
2. Hadoop
2.1 解壓(/home/zkpk)
tar -xf hadoop-2.6.4.tar.gz
2.2 建立相應目錄
cd hadoop-2.6.4
# namenode資訊存放目錄
mkdir name
# datanode資訊存放目錄
mkdir data
2.3 修改JAVA_HOME
cd etc/hadoop
vim yarn-env.sh
vim hadoop-env.sh
vim mapred-env.sh
export JAVA_HOME=/opt/jdk1.8.0_45
2.4 配置core-site.xml
vim core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://ns1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/zkpk/hadoop-2.6.4/tmp</value>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>hsm01:2181,hss01:2181,hss02:2181</value>
</property>
</configuration>
注:不要忘了建立tmp目錄
2.5 配置hdfs-site.xml
vim hdfs-site.xml
<configuration>
<!-- 生產環境至少3個,這裡節省點空間,-_-! -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!-- 客戶端遠端除錯時,無法訪問hdfs目錄,關閉許可權 -->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<!-- namenode儲存元資料的目錄地址 -->
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/zkpk/hadoop-2.6.4/name</value>
<final>true</final>
</property>
<!-- datanode存放資料塊的目錄列表 -->
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/zkpk/hadoop-2.6.4/data</value>
<final>true</final>
</property>
<property>
<name>dfs.nameservices</name>
<value>ns1</value>
</property>
<property>
<name>dfs.ha.namenodes.ns1</name>
<value>nn1,nn2</value>
</property>
<property>
<name>dfs.namenode.rpc-address.ns1.nn1</name>
<value>hsm01:9000</value>
</property>
<property>
<name>dfs.namenode.http-address.ns1.nn1</name>
<value>hsm01:50070</value>
</property>
<property>
<name>dfs.namenode.rpc-address.ns1.nn2</name>
<value>hss01:9000</value>
</property>
<property>
<name>dfs.namenode.http-address.ns1.nn2</name>
<value>hss01:50070</value>
</property>
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hsm01:8485;hss01:8485;hss02:8485/ns1</value>
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/home/zkpk/hadoop-2.6.4/journal</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.client.failover.proxy.provider.ns1</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
<name>dfs.ha.fencing.methods</name>
<value>
sshfence
shell(/bin/true)
</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/home/zkpk/.ssh/id_rsa</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.connect-timeout</name>
<value>30000</value>
</property>
</configuration>
2.6 編輯mapred-site.xml
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
2.7 編輯yarn-site.xml
vim yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.ha.id</name>
<value>rm1</value>
</property>
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>yrc</value>
</property>
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>hsm01</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>hss01</value>
</property>
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>hsm01:2181,hss01:2181,hss02:2181</value>
</property>
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
</configuration>
2.8 編輯slaves
vim slaves
hss01
hss02
2.9 複製到其他節點
scp -r ~/hadoop-2.6.4 hss01:~/
scp -r ~/hadoop-2.6.4 hss02:~/
2.10 配置各節點環境變數
開啟:
vim ~/.bash_profile
新增:
export HADOOP_HOME=/home/zkpk/hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
重新整理:
source ~/.bash_profile
驗證:(輸入以下命令,如果出現hadoop對應的版本,則hadoop配置成功。)
hadoop version
2.11 叢集啟動(嚴格按照下面的步驟)
a. 啟動zookeeper叢集(分別在hsm01、hss01、hss02上啟動zk)
zkServer.sh start
# 檢視狀態:一個leader,兩個follower
zkServer.sh status
b. 啟動journalnode(分別在hsm01、hss01、hss02上啟動journalnode)
hadoop-daemon.sh start journalnode
# 執行jps命令檢驗,hsm01、hss01、hss02上多了JournalNode程序
c. 格式化HDFS
# hsm01上執行
hdfs namenode -format
d. 將tmp拷到其他節點
scp -r ~/hadoop-2.6.4/name hss01:~/hadoop-2.6.4/
scp -r ~/hadoop-2.6.4/name hss02:~/hadoop-2.6.4/
e. 格式化ZK
# hsm01上執行
hdfs zkfc -formatZK
f. 啟動HDFS
start-dfs.sh
g. 啟動YARN.resourcemanager
# hsm01上執行
start-yarn.sh
# hss01備節點上執行
yarn-daemon.sh start resourcemanager
h. 驗證
# 通過以下IP用瀏覽器訪問,一個處於active,一個處於standby,說明叢集啟動成功。
http://192.168.99.145:50070
NameNode 'hsm01:9000' (active)
http://192.168.99.151:50070
NameNode 'hss01:9000' (standby)
# 驗證HDFS HA(向hdfs上傳一個檔案)
hadoop fs -put /etc/profile /profile
hadoop fs -ls /
Found 1 items
-rw-r--r-- 1 zkpk supergroup 2257 2016-08-29 19:44 /profile
kill掉active的NameNode
kill -9 <pid of NN>
訪問:http://192.168.99.145:50070 無法開啟
訪問:http://192.168.99.151:50070
NameNode 'hss01:9000' (active)
執行:
hadoop fs -ls /
Found 1 items
-rw-r--r-- 1 zkpk supergroup 2257 2016-08-29 19:44 /profile
手動啟動掛掉的那個NameNode,在hsm01上執行
hadoop-daemon.sh start namenode
訪問:http://192.168.99.145:50070
顯示:NameNode 'hsm01:9000' (standby)
刪除上傳檔案:
hadoop fs -rm -r /profile
# 驗證Yarn HA
http://hsm01:8088/
正常顯示內容。
http://hss01:8088/
顯示“This is standby RM. Redirecting to the current active RM: http://hsm01:8088/cluster/nodes”
kill掉active的resourcemanager
kill -9 <pid of RM>
http://hsm01:8088 無法訪問
http://hss01:8088/ 正常訪問(內容顯示需要等待幾秒鐘)
以上,Hadoop HA叢集搭建完畢。
2.12 叢集啟動關閉總結
# 啟動
zkServer.sh start
start-dfs.sh
start-yarn.sh
# 關閉
stop-dfs.sh
stop-yarn.sh
zkServer.sh stop
2.13 問題
待續
3. Hive安裝
3.1 MySQL安裝
# 建立hadoop使用者
grant all on *.* to [email protected]'%' identified by 'hadoop';
grant all on *.* to [email protected]'localhost' identified by 'hadoop';
grant all on *.* to [email protected]'hsm01' identified by 'hadoop';
flush privileges;
# 建立資料庫
create database hive_121;
3.2 解壓
tar -xf apache-hive-1.2.1-bin.tar.gz
# 檔名修改為hive-1.2.1
mv apache-hive-1.2.1-bin/ hive-1.2.1
3.3 修改檔名
# 在hive-1.2.1/conf下,修改檔名
mv hive-default.xml.template hive-site.xml
mv hive-log4j.properties.template hive-log4j.properties
mv hive-exec-log4j.properties.template hive-exec-log4j.properties
mv hive-env.sh.template hive-env.sh
3.4 hive-env.sh
export HADOOP_HOME=/home/zkpk/hadoop-2.6.4
export HIVE_CONF_DIR=/home/zkpk/hive-1.2.1/conf
3.5 hive-log4j.properties
hive.log.dir=/home/zkpk/hive-1.2.1/logs
# 建立日誌目錄
mkdir /home/zkpk/hive-1.2.1/logs
3.6 hive-site.xml
刪除所有內容,新增如下內容:
<configuration>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>hdfs://ns1/hive/warehouse</value>
</property>
<property>
<name>hive.exec.scratchdir</name>
<value>hdfs://ns1/hive/scratchdir</value>
</property>
<property>
<name>hive.querylog.location</name>
<value>/home/zkpk/hive-1.2.1/logs</value>
</property>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://hss02:3306/hive_121?characterEncoding=UTF-8</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hadoop</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>hadoop</value>
</property>
</configuration>
3.7 環境變數
vim ~/.bash_profile
export HIVE_HOME=/home/zkpk/hive-1.2.1
export PATH=$PATH:$HIVE_HOME/bin
source ~/.bash_profile
在hive/lib下有個jline的jar,將hadoop內的這個jar包換成一致的,否則會啟動hive會報錯。
將mysql-connector-java-5.1.29.jar連線jar拷貝到hive-1.2.1/lib目錄下
# 執行下面命令
hive
# http://hsm01:50070,檢視是否多了hive目錄。
3.8 問題與參考
4. Sqoop安裝
4.1 Sqoop1
4.1.1 解壓
tar -xf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
# 修改目錄
mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha/ sqoop-1.4.6
4.1.2 配置MySQL聯結器
cp mysql-connector-java-5.1.29.jar sqoop-1.4.6/lib/
4.1.3 配置環境變數
cp conf/sqoop-env-template.sh conf/sqoop-env.sh
vim conf/sqoop-env.sh
編輯
# Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements. See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License. You may obtain a copy of the License at
#
# http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# included in all the hadoop scripts with source command
# should not be executable directly
# also should not be passed any arguments, since we need original $*
# Set Hadoop-specific environment variables here.
#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/home/zkpk/hadoop-2.6.4
#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/home/zkpk/hadoop-2.6.4
#set the path to where bin/hbase is available
export HBASE_HOME=/home/zkpk/hbase-1.2.2
#Set the path to where bin/hive is available
export HIVE_HOME=/home/zkpk/hive-1.2.1
#Set the path for where zookeper config dir is
#export ZOOCFGDIR=
vim ~/.bash_profile
# 增加
export SQOOP_HOME=/home/zkpk/sqoop-1.4.6
export PATH=$PATH:$SQOOP_HOME/bin
source ~/.bash_profile
4.1.4 驗證
[[email protected] ~]$ sqoop help
Warning: /home/zkpk/sqoop-1.4.6/../hcatalog does not exist! HCatalog jobs will fail.
Please set $HCAT_HOME to the root of your HCatalog installation.
Warning: /home/zkpk/sqoop-1.4.6/../accumulo does not exist! Accumulo imports will fail.
Please set $ACCUMULO_HOME to the root of your Accumulo installation.
16/09/16 16:02:38 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6
usage: sqoop COMMAND [ARGS]
Available commands:
codegen Generate code to interact with database records
create-hive-table Import a table definition into Hive
eval Evaluate a SQL statement and display the results
export Export an HDFS directory to a database table
help List available commands
import Import a table from a database to HDFS
import-all-tables Import tables from a database to HDFS
import-mainframe Import datasets from a mainframe server to HDFS
job Work with saved jobs
list-databases List available databases on a server
list-tables List available tables in a database
merge Merge results of incremental imports
metastore Run a standalone Sqoop metastore
version Display version information
See 'sqoop help COMMAND' for information on a specific command.
4.2 Sqoop2
注:Sqoop 2 包不能安裝在與 Sqoop1 包相同的機器上。
4.2.1 解壓
tar -xf sqoop-1.99.7-bin-hadoop200.tar.gz
# 修改目錄名
mv sqoop-1.99.7-bin-hadoop200/ sqoop-1.99.7
4.2.2 配置Hadoop代理訪問
# 配置代理
vim $HADOOP_HOME/etc/hadoop/core-site.xml
# zkpk是執行server的使用者
<property>
<name>hadoop.proxyuser.zkpk.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.zkpk.groups</name>
<value>*</value>
</property>
# 由於使用者id小於1000(可用id命令檢視),設定此項
vim $HADOOP_HOME/etc/hadoop/container-executor.cfg
allowed.system.users=zkpk
4.2.3 sqoop.properties
# @[email protected]修改為/home/zkpk/sqoop-1.99.7/logs
# @[email protected]修改為/home/zkpk/sqoop-1.99.7
# hadoop配置檔案路徑
org.apache.sqoop.submission.engine.mapreduce.configuration.directory=/home/zkpk/hadoop-2.6.4/etc/hadoop/
# 設定驗證機制(去掉註釋)
org.apache.sqoop.security.authentication.type=SIMPLE
org.apache.sqoop.security.authentication.handler=org.apache.sqoop.security.authentication.SimpleAuthenticationHandler
org.apache.sqoop.security.authentication.anonymous=true
4.2.4 配置第三方jar引用路徑
複製mysql驅動jar檔案到$SQOOP_HOME/extra(建立extra目錄)
export SQOOP_SERVER_EXTRA_LIB=$SQOOP_HOME/extra
4.2.5 環境變數
vim ~/.bash_profile
export SQOOP_HOME=/home/zkpk/sqoop-1.99.7
export SQOOP_SERVER_EXTRA_LIB=$SQOOP_HOME/extra
export PATH=$PATH:$SQOOP_HOME/bin
source ~/.bash_profile
4.2.6 啟動驗證
# 驗證配置是否有效
sqoop2-tool verify
# 開啟伺服器
sqoop2-server start
# 客戶端驗證
sqoop2-shell
show connector
# 停止伺服器
sqoop2-server stop
4.3 問題與參考
5. HBase安裝
5.1 解壓
tar -xf hbase-1.2.2-bin.tar.gz
5.2 lib更新
cd hbase-1.2.2/lib
cp ~/hadoop-2.6.4/share/hadoop/mapreduce/lib/hadoop-annotations-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/tools/lib/hadoop-auth-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/common/hadoop-common-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/hdfs/hadoop-hdfs-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-client-app-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-client-common-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-client-shuffle-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/yarn/hadoop-yarn-api-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/yarn/hadoop-yarn-client-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/yarn/hadoop-yarn-common-2.6.4.jar .
cp ~/hadoop-2.6.4/share/hadoop/yarn/hadoop-yarn-server-common-2.6.4.jar .
# 解決java.lang.NoClassDefFoundError: org/htrace/Trace
cp ~/hadoop-2.6.4/share/hadoop/common/lib/htrace-core-3.0.4.jar .
# 刪除老版的jar
rm *-2.5.1.jar
5.2 hbase-env.sh
export JAVA_HOME=/opt/jdk1.8.0_45
export HBASE_MANAGES_ZK=false
export HBASE_CLASSPATH=/home/zkpk/hadoop-2.6.4/etc/hadoop
# 註釋掉下面的配置(因為1.8JDK沒有這個選項)
#export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"
#export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"
5.3 hbase-site.xml
<configuration>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.tmp.dir</name>
<value>/home/zkpk/hbase-1.2.2/tmp</value>
</property>
<property>
<name>hbase.rootdir</name>
<value>hdfs://ns1/hbase</value>
</property>
<property>
<name>zookeeper.session.timeout</name>
<value>120000</value>
</property>
<property>
<name>hbase.zookeeper.property.tickTime</name>
<value>6000</value>
</property>
<property>
<name>hbase.zookeeper.property.clientPort</name>
<value>2181</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>hsm01,hss01,hss02</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/home/zkpk/zookeeper-3.4.6/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>hbase.master.maxclockskew</name>
<value>180000</value>
</property>
</configuration>
5.4 regionservers
hss01
hss02
5.5 拷貝hbase到其他節點
把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下
cp hadoop-2.6.4/etc/hadoop/hdfs-site
相關推薦
Hadoop、Spark、Storm相關元件安裝
一、準備
1. 安裝虛擬機器與編譯Hadoop
注:本文選的是base server,同時把java安裝選項去掉
建立3個虛擬機器,分別為hsm01, hss01, hss02
hostname
ip
【經典】一篇文章初識大資料,及大資料相關框架Hadoop、spark、flink等
今天看到一篇講得比較清晰的框架對比,這幾個框架的選擇對於初學分散式運算的人來說確實有點迷茫,相信看完這篇文章之後應該能有所收穫。
簡介
大資料是收集、整理、處理大容量資料集,並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理資料所需的計算能力或儲存容量早已超過一
【技術世界】分享大資料領域技術、包括但不限於Storm、Spark、Hadoop等分散式計算系統,Kafka、MetaQ等分散式訊息系統, MongoDB等NoSQL,PostgreSQL等RDBMS,SQL優
技術世界
分享大資料領域技術、包括但不限於Storm、Spark、Hadoop等分散式計算系統,Kafka、MetaQ等分散式訊息系統, MongoDB等NoSQL,PostgreSQL等RDBMS,SQL優...
安裝Spark+hadoop,spark、hadoop分散式叢集搭建...(親自搭建過!!)
首先說一下我所用的版本:
spark-2.1.1-bin-hadoop2.7.tgz
hadoop-2.7.3.tar.gz
jdk-8u131-linux-x64.rpm
我們實驗室有4臺伺服器:每個節點硬碟:300GB,記憶體:64GB。四個
docker部署分散式大資料叢集hadoop、spark、hive、jdk、scala、
(一)1 用docker建立映象並搭建三個節點容器的hadoop及spark服務
包括:mysql,hadoop,jdk,spark,hive,scala,sqoop
docker已經安裝並且啟動
#搜尋centos映象:
docker search centos
#拉取
【stark_summer的專欄 】專注於開發分散式任務排程框架、分散式同步RPC、非同步MQ訊息佇列、分散式日誌檢索框架、hadoop、spark、scala等技術 如果我的寫的文章能對您有幫助,請您能給點捐助,請看首頁置頂
專注於開發分散式任務排程框架、分散式同步RPC、非同步MQ訊息佇列、分散式日誌檢索框架、hadoop、spark、scala等技術 如果我的寫的文章能對您有幫助,請您能給點捐助,請看首頁置頂...
hadoop、spark、sparkstrming和kafka簡介
1、Hadoop和Spark的關係
Spark是為了跟Hadoop配合而開發出來的,不是為了取代Hadoop,專門用於大資料量下的迭代式計算。
Spark運算比Hadoop的MapReduce框架快的原因是因為Hadoop在一次MapReduce運算之後,會將資料的運算結果從記憶體寫入到磁碟中,
jupyter安裝及配置scala、spark、pyspark核心
安裝 jupyter和python
本文使用Anaconda安裝jupyter。
Anaconda可以看做Python的一個整合安裝,安裝它後就預設安裝了python、IPython、整合開發環境Spyder和眾多的包和模組
下載 Anaconda
hadoop、spark、Hbase、Hive、hdfs,是什麼
這些都是“大資料”相關的概念,即和關係型資料庫,相比較而產生的新技術。即j2ee的web開發中,資料庫部分(如傳統的關係型資料庫的oracle),的內容
1Hbase:是一個nosql資料庫,和mongodb類似。
2hdfs:hadoop distribut file
(轉)Hadoop、Spark、HBase與Redis的適用性見解
由於沒有機會對Hadoop、Spark、HBase與Redis的各個特性進行測試,所以在網路上找到了這篇文章,說說Hadoop、Spark、HBase與Redis的適用性問題。
轉自 http://datainsight.blog.51cto.com/8987355/142
資料計算(大資料):MapReduce、Spark、Storm概述、特點、原理
MapReduceMapReduce將複雜的、運行於大規模叢集上的平行計算過程高度地抽象到了兩個函式:Map和Reduce。特點:程式設計容易;分而治之策略(大規模資料集,會被切成許多獨立分片,分片由多個Map任務);計算向資料靠攏(設計理念)函式輸入輸出說明Map<k
大資料叢集遇到的問題(Hadoop、Spark、Hive、kafka、Hbase、Phoenix)
大資料平臺中遇到的實際問題,整理了一下,使用CDH5.8版本,包括Hadoop、Spark、Hive、kafka、Hbase、Phoenix、Impala、Sqoop、CDH等問題,初步整理下最近遇到的問題,不定期更新。
啟動nodemanager失敗
2016-09-07
資料探勘中SAS、python、R、spark、hadoop個人見解
2014年做過幾個比較大型的SAS專案,今年接觸接觸pandas,想在兩者說說自己的一些看法,對於SAS能處理的大資料,之前在民生銀行的是SAS伺服器配置的是128g記憶體 16核cpu
2t的硬碟空間,處理億級別的資料還是毫無壓力的,sas軟體不得不說不只是一個單純的統計軟體,在資料探勘這一塊無可媲美的
38套大資料,雲端計算,架構,資料分析師,Hadoop,Spark,Storm,Kafka,人工智慧,機器學習,深度學習,專案實戰視訊教程
38套大資料,雲端計算,架構,資料分析師,Hadoop,Spark,Storm,Kafka,人工智慧,機器學習,深度學習,專案實戰視訊教程
視訊課程包含:
38套大資料和人工智慧高階課包含:大資料,雲端計算,架構,資料探勘實戰,實時推薦系統實戰,電視收視率專案實戰,實時流統計專案實戰,離線電
Spark教程(2)-Spark概述及相關元件
1.概述
Spark起源於加州大學伯克利分校RAD實驗室,起初旨在解決MapReduce在迭代計算和互動計算中的效率低下問題.目前Spark已經發展成集離線計算,互動式計算,流計算,圖計算,機器學習等模組於一體的通用大資料解決方案.
2.Spark元件
Spark Core
大資料晉級之路(5)Hadoop,Spark,Storm綜合比較
大資料框架:Spark vs Hadoop vs Storm
目錄
Hadoop
Spark
Storm
大資料時代,TB級甚至PB級資料已經超過單機尺度的資料處理,分散式處理系統應運而生。
知識預熱
「專治不明覺厲」之“大資料
Hadoop,Spark,Storm,Docker,Mapreduce,Kafka深入解析
大資料,無論是從產業上,還是從技術上來看,都是目前的發展熱點。在中國,政府控制著80%的資料,剩下的多由“BAT”這樣的大公司擁有,中小企業如何構建自己的大資料系統?其他企業如何建設自己的大資料系統?
推薦兩大應用最廣泛、國人認知最多的Apache開源大資料框架系統:Spark &
mongodb及相關元件安裝
mongodb
rockmongo
Install PHP runtime environment if you don’t have one yet, such like Apache Httpd, Nginx …
Unzip the files
【專治不明覺厲】之“大資料” Hadoop,Spark和Storm
虎嗅注:上一篇“專治不明覺厲”文章,虎嗅君為大家介紹了“雲端計算”領域中的那些“不明覺厲”的名詞。作為雲端計算最重要的應用,大資料領域也有很多看上去“不明覺厲”的詞彙。本篇文章,虎嗅君就為各位介紹“大資料”領域裡的“不明覺厲”。
大資料(Big Data)
大資料,官
YARN、Spark、Hive使用kerberos
本文記錄YARN、Spark、Hive各服務配置使用kerberos的過程。
我的環境:
三臺伺服器,分別命名為zelda1、zelda2、zelda3ubuntu 14.04hadoop 2.7.2spark 2.0/1.6.1
YARN認證
目的是將YARN接入到