1. 程式人生 > >hadoop大資料平臺手動搭建(二)-hadoop

hadoop大資料平臺手動搭建(二)-hadoop

1.下載列表:winow和linux之間檔案上傳下載FileZilla
  jdk-7u79-linux-x64.tar.gz
  apache-maven-3.3.9-bin.tar.gz
  hadoop-2.6.0-cdh5.8.0.tar.gz
  hadoop-native-64-2.6.0.tar
  hbase-1.2.0-cdh5.8.0.tar.gz
  hive-1.1.0-cdh5.8.0.tar.gz
  hue-3.9.0-cdh5.8.0.tar.gz
  scala-2.10.4.gz
  spark-1.6.0-cdh5.8.0.tar
  sqoop-1.4.6-cdh5.8.0.tar.gz
2.安裝jdk(root身份)
a. cd /usr/
  mkdir java
  tar -zxvf jdk-7u79-linux-x64.tar.gz
  配置環境變數:
  在/etc/profile檔案末尾加入:對於這個檔案每個登入使用者都能載入到環境變數。
  export JAVA_HOME=/usr/java/jdk1.7.0_79
  export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
  source /etc/profile #環境變數即刻生效
 
  b.驗證安裝
    java -verion

  c.最後像這個樣子。




3.安裝hadoop,用root身份登入賦予opt資料夾
  chown -R hadoop /opt
 
  tar -zxvf hadoop-2.6.0-cdh5.8.0.tar.gz

  a.修改/opt/hadoop-2.6.0-cdh5.8.0/etc/hadoop/hadoop-env.sh
    末尾加入
  b./opt/hadoop-2.6.0-cdh5.8.0/etc/hadoop目錄加入core-site.xml

    <?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
  Licensed under the Apache License, Version 2.0 (the "License");
  you may not use this file except in compliance with the License.
  You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

  Unless required by applicable law or agreed to in writing, software
  distributed under the License is distributed on an "AS IS" BASIS,
  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  See the License for the specific language governing permissions and
  limitations under the License. See accompanying LICENSE file.
-->

<!-- Put site-specific property overrides in this file. -->

<configuration>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop-2.6.0-cdh5.8.0/tmp</value>
  </property>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
  <property>
  <name>hadoop.proxyuser.hadoop.hosts</name>
  <value>*</value>
</property>
<property>
  <name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
</configuration>

c
.修改hdfs-site.xml

  <?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
  Licensed under the Apache License, Version 2.0 (the "License");
  you may not use this file except in compliance with the License.
  You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

  Unless required by applicable law or agreed to in writing, software
  distributed under the License is distributed on an "AS IS" BASIS,
  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  See the License for the specific language governing permissions and
  limitations under the License. See accompanying LICENSE file.
-->

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
<name>
dfs.replication
</name>
<value>
3
</value>
</property>
<property>
<name>
dfs.namenode.name.dir
</name>
<value>
file:/opt/hdfs/name
</value>
</property>
<property>
<name>
dfs.namenode.edits.dir
</name>
<value>
file:/opt/hdfs/nameedit
</value>
</property>

<property>
<name>
dfs.datanode.data.dir
</name>
<value>
file:/opt/hdfs/data
</value>
</property>
<property>
<name>dfs.namenode.rpc-address</name>
<value>master:9000</value>
</property>
<property>
<name>dfs.http.address</name><value>master:50070</value></property>
<property><name>dfs.namenode.secondary.http-address</name><value>master:50090</value></property>
<property><name>dfs.webhdfs.enabled</name><value>true</value></property>
<property><name>dfs.permissions</name><value>false</value></property>
<property>
  <name>dfs.webhdfs.enabled</name>
  <value>true</value>
</property>
</configuration>

d
.修改mapred-site.xml

  <?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
  Licensed under the Apache License, Version 2.0 (the "License");
  you may not use this file except in compliance with the License.
  You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

  Unless required by applicable law or agreed to in writing, software
  distributed under the License is distributed on an "AS IS" BASIS,
  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  See the License for the specific language governing permissions and
  limitations under the License. See accompanying LICENSE file.
-->

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property><name>mapreduce.framework.name</name><value>yarn</value></property>
<property><name>mapreduce.jobhistory.address</name><value>slave2:10020</value></property>
<property><name>mapreduce.jobhistory.webapp.address</name><value>slave2:19888</value></property>
</configuration>

e.修改yarn-site.xml

  <?xml version="1.0"?>
<!--
  Licensed under the Apache License, Version 2.0 (the "License");
  you may not use this file except in compliance with the License.
  You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

  Unless required by applicable law or agreed to in writing, software
  distributed under the License is distributed on an "AS IS" BASIS,
  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  See the License for the specific language governing permissions and
  limitations under the License. See accompanying LICENSE file.
-->
<configuration>

<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8080</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8082</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property><name>yarn.resourcemanager.scheduler.address</name><value>master:8030</value></property>
<property><name>yarn.resourcemanager.admin.address</name><value>master:8033</value></property>
<property><name>yarn.resourcemanager.webapp.address</name><value>master:8088</value></property>
<property><name>yarn.log-aggregation-enable</name><value>true</value></property>
<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>
</configuration>

f.修改salves檔案
slaves檔案指明那些機器上要執行DataNode,NodeManager

我是在兩從節點執行。於是增加兩行主機名
slave1
slave2

g

配置環境變數在/etc/profile
export HADOOP_HOME=/opt/hadoop-2.6.0-cdh5.8.0/
export PATH=$PATH:/opt/hadoop-2.6.0-cdh5.8.0/bin

h

第一次啟動前需要對HDFS格式化。

/opt/hadoop-2.6.0-cdh5.8.0/bin/hadoop namenode -format

按照提示輸入Y.

i啟動並驗證
jps命令是檢視與java相關的程序和程序名

/opt/hadoop-2.6.0-cdh5.8.0/sbin/start-all.sh

[[email protected] ~]$ /opt/hadoop-2.6.0-cdh5.8.0/sbin/start-all.sh
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
Starting namenodes on [master]
master: starting namenode, logging to /opt/hadoop-2.6.0-cdh5.8.0/logs/hadoop-hadoop-namenode-master.out
slave2: starting datanode, logging to /opt/hadoop-2.6.0-cdh5.8.0/logs/hadoop-hadoop-datanode-slave2.out
slave1: starting datanode, logging to /opt/hadoop-2.6.0-cdh5.8.0/logs/hadoop-hadoop-datanode-slave1.out
Starting secondary namenodes [master]
master: starting secondarynamenode, logging to /opt/hadoop-2.6.0-cdh5.8.0/logs/hadoop-hadoop-secondarynamenode-master.out
starting yarn daemons
starting resourcemanager, logging to /opt/hadoop-2.6.0-cdh5.8.0/logs/yarn-hadoop-resourcemanager-master.out
slave2: starting nodemanager, logging to /opt/hadoop-2.6.0-cdh5.8.0/logs/yarn-hadoop-nodemanager-slave2.out
slave1: starting nodemanager, logging to /opt/hadoop-2.6.0-cdh5.8.0/logs/yarn-hadoop-nodemanager-slave1.out
[[email protected] ~]$ jps
3467 ResourceManager
3324 SecondaryNameNode
3173 NameNode
3723 Jps
[[email protected] ~]$

主節點顯示上面三程序啟動成功。

3467 ResourceManager
3324 SecondaryNameNode
3173 NameNode

在從節點slave1 機器執行jps
能看到NodeManager,DataNode說明成功。

[[email protected] ~]$ jps
2837 NodeManager
2771 DataNode
3187 Jps
[[email protected] ~]$

在從節點slave2 機器執行jps

[[email protected] ~]$ jps
2839 NodeManager
3221 Jps
2773 DataNode
[[email protected] ~]$

jhadoop安裝中各種錯誤,如何解決。

任何問題都可通過日誌解決。日誌檔案在預設位置。預設日誌級別都為info.
/opt/hadoop-2.6.0-cdh5.8.0/logs

所以可修改日誌級別:debug 能得到更詳盡的出錯資訊。

HDFS修改為debug級別:

對於HDFS而言,只需要修改sbin/Hadoop-daemon.sh,將INFO替換為DEBUG即可。

export HADOOP_ROOT_LOGGER=${HADOOP_ROOT_LOGGER:-"DEBUG,RFA"} 
export HADOOP_SECURITY_LOGGER=${HADOOP_SECURITY_LOGGER:-"DEBUG,RFAS"} 
export HDFS_AUDIT_LOGGER=${HDFS_AUDIT_LOGGER:-"DEBUG,NullAppender"}

配置Yarn列印DEBUG資訊到日誌檔案,只需要修改其啟動指令碼sbin/yarn-daemon.sh,將INFO改為DEBUG即可
export YARN_ROOT_LOGGER=${YARN_ROOT_LOGGER:-DEBUG,RFA} 

-------------------------------------------------------------------------
根據xml中配置埠訪問web管理,介面如下。





i hadoop歷史作業(埠相關配置在mapred-site.xml)

啟動history-server:

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver
停止history-server:

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh stop historyserver

history-server啟動之後,可以通過瀏覽器訪問WEBUI: slave2:19888




3.httpfs

[[email protected] sbin]$ ./httpfs.sh start

Setting HTTPFS_HOME:          /opt/hadoop-2.6.0-cdh5.8.0
Setting HTTPFS_CONFIG:        /opt/hadoop-2.6.0-cdh5.8.0/etc/hadoop
Sourcing:                    /opt/hadoop-2.6.0-cdh5.8.0/etc/hadoop/httpfs-env.sh
Setting HTTPFS_LOG:           /opt/hadoop-2.6.0-cdh5.8.0/logs
Setting HTTPFS_TEMP:           /opt/hadoop-2.6.0-cdh5.8.0/temp
Setting HTTPFS_HTTP_PORT:     14000
Setting HTTPFS_ADMIN_PORT:     14001
Setting HTTPFS_HTTP_HOSTNAME: slave2
Setting HTTPFS_SSL_ENABLED: false
Setting HTTPFS_SSL_KEYSTORE_FILE:     /home/hadoop/.keystore
Setting HTTPFS_SSL_KEYSTORE_PASS:     password
Setting CATALINA_BASE:       /opt/hadoop-2.6.0-cdh5.8.0/share/hadoop/httpfs/tomcat
Setting HTTPFS_CATALINA_HOME:       /opt/hadoop-2.6.0-cdh5.8.0/share/hadoop/httpfs/tomcat
Setting CATALINA_OUT:        /opt/hadoop-2.6.0-cdh5.8.0/logs/httpfs-catalina.out
Setting CATALINA_PID:        /tmp/httpfs.pid

Using   CATALINA_OPTS:      
Adding to CATALINA_OPTS:     -Dhttpfs.home.dir=/opt/hadoop-2.6.0-cdh5.8.0 -Dhttpfs.config.dir=/opt/hadoop-2.6.0-cdh5.8.0/etc/hadoop -Dhttpfs.log.dir=/opt/hadoop-2.6.0-cdh5.8.0/logs -Dhttpfs.temp.dir=/opt/hadoop-2.6.0-cdh5.8.0/temp -Dhttpfs.admin.port=14001 -Dhttpfs.http.port=14000 -Dhttpfs.http.hostname=slave2
Using CATALINA_BASE:   /opt/hadoop-2.6.0-cdh5.8.0/share/hadoop/httpfs/tomcat
Using CATALINA_HOME:   /opt/hadoop-2.6.0-cdh5.8.0/share/hadoop/httpfs/tomcat
Using CATALINA_TMPDIR: /opt/hadoop-2.6.0-cdh5.8.0/share/hadoop/httpfs/tomcat/temp
Using JRE_HOME:        /usr/java/jdk1.7.0_79
Using CLASSPATH:       /opt/hadoop-2.6.0-cdh5.8.0/share/hadoop/httpfs/tomcat/bin/bootstrap.jar
Using CATALINA_PID:    /tmp/httpfs.pid
[[email protected] sbin]$ su -
Password:
[[email protected] ~]# netstat -apn|grep 14000
tcp        0      0 :::14000                    :::*                        LISTEN      4013/java          
[[email protected] ~]# netstat -apn|grep 14001
tcp        0      0 ::ffff:127.0.0.1:14001      :::*                        LISTEN      4013/java          
[[email protected] ~]#







webhdfs










 
 
  • 大小: 78.6 KB
  • 大小: 77 KB
  • 大小: 129.7 KB
  • 大小: 131.2 KB
  • 大小: 60.9 KB
  • 大小: 68.3 KB
  • 大小: 85.3 KB

相關推薦

hadoop資料平臺手動搭建()-hadoop

1.下載列表:winow和linux之間檔案上傳下載FileZilla   jdk-7u79-linux-x64.tar.gz   apache-maven-3.3.9-bin.tar.gz   hadoop-2.6.0-cdh5.8.0.tar.gz   hadoop-n

Spark、Hadoop資料平臺搭建

下載安裝包 Spark 分散式計算 spark-2.3.2-bin-hadoop2.7,安裝包大小:220M 支援Hadoop 2.7以後的版本 Scala Scala環境,Spark的開發語言 scala-2.12.8.tgz,安裝包大小:20M Hadoo

Hadoop資料平臺入門——HDFS和MapReduce

隨著硬體水平的不斷提高,需要處理資料的大小也越來越大。大家都知道,現在大資料有多火爆,都認為21世紀是大資料的世紀。當然我也想打上時代的便車。所以今天來學習一下大資料儲存和處理。大資料學習資料分享群119599574 隨著資料的不斷變大,資料的處理就出現了瓶頸:儲存容量,讀

Hadoop資料平臺架構與實踐

一、什麼是Apache Hadoop? 1.1 定義和特性 可靠的、可擴充套件的、分散式計算開源軟體。 Apache Hadoop軟體庫是一個框架,允許使用簡單的程式設計模型,在計算機叢集分散式地處理大型資料集。 它可以從單個伺服器擴充套件到數千臺機器,每個機

hadoop資料平臺架構之DKhadoop詳解

大資料的時代已經來了,資訊的爆炸式增長使得越來越多的行業面臨這大量資料需要儲存和分析的挑戰。Hadoop作為一個開源的分散式並行處理平臺,以其高拓展、高效率、高可靠等優點越來越受到歡迎。這同時也帶動了hadoop商業版的發行。這裡就通過大快DKhadoop為大家詳細介紹一下h

hadoop資料平臺安全基礎知識入門

概述 以 Hortonworks Data Platform (HDP) 平臺為例 ,hadoop大資料平臺的安全機制包括以下兩個方面: 身份認證 即核實一個使用者的真實身份,一個使用者來使用大資料引擎平臺,這個使用者需要表明自己是誰,即提供自己的身份證明,大資料平臺需要檢驗這個證明,確定這個證明是有效的,

Hadoop資料平臺之Kafka部署

環境:CentOS 7.4 (1708  DVD) 工具:Xshell+Xftp   1. 使用xftp將kafka上傳到/usr/local目錄下,將kafka解壓並重命名。 2. 編輯kafka/config下的server.properties檔案。 3.

Ambari——資料平臺搭建利器

Ambari 是什麼 Ambari 跟 Hadoop 等開源軟體一樣,也是 Apache Software Foundation 中的一個專案,並且是頂級專案。目前最新的釋出版本是 2.0.1,未來不久將釋出 2.1 版本。就 Ambari 的作用來說,就是建立

Ambari——資料平臺搭建利器之進階篇[配置spark]

Ambari 的現狀 目前 Apache Ambari 的最高版本是 2.0.1,最高的 Stack 版本是 HDP 2.2。未來不久將會發布 Ambari 2.1 以及 HDP 2.3(本文也將以 Ambari 2.0.1 和 HDP 2.2 為例進行講解)。其實在 Ambari trunk 的 co

CM+CDH構建企業資料平臺系列(

安裝部署多臺Linux虛擬機器一、如何理解安裝部署多臺Linux虛擬機器   1、什麼是Linux虛擬機器?        虛擬機器簡單的你可以把它理解為虛擬的電腦,從功能角度來說,這個虛擬的電腦和真實的電腦幾乎完全一樣,只是說虛擬機器的硬碟是在一個檔案中虛擬出來的。這個簡單

Ambari——資料平臺搭建利器之進階篇

  Ambari 的現狀   目前 Apache Ambari 的最高版本是 2.0.1,最高的 Stack 版本是 HDP 2.2。未來不久將會發布 Ambari 2.1 以及 HDP 2.3(本文也將以 Ambari 2.0.1 和 HDP 2.2 為例進行講解)。其實在 Ambari trunk 的

資料平臺--Hadoop原生搭建教程

環境準備: 三臺虛擬機器 master(8)、slave1(9)、slave2(10) centos 7.1、jdk-8u171-linux-x64.tar.gz、hadoop-2.7.3.tar.gz 0x1環境準備 首先先在三臺虛擬機器中建立hadoop資料夾 mdkir /

資料平臺搭建hadoop+spark)

一.基本資訊 1. 伺服器基本資訊 主機名 ip地址 安裝服務 spark-master 172.16.200.81 jdk、hadoop、spark、scala spark-slave01 172.16.200.82 jd

阿里雲搭建資料平臺(3):安裝JDK和Hadoop偽分佈環境

一、安裝jdk 1.解除安裝Linux自帶的JDK rpm -qa|grep jdk   #查詢原始JDK yum -y remove  <舊JDK> 2.解壓縮 tar -zxvf /opt/softwares/jdk-8u151-linux-x64.t

資料平臺Hadoop的分散式叢集環境搭建,官網推薦

1 概述 本文章介紹大資料平臺Hadoop的分散式環境搭建、以下為Hadoop節點的部署圖,將NameNode部署在master1,SecondaryNameNode部署在master2,slave1、slave2、slave3中分別部署一個DataNode節點 NN

從零開始搭建資料平臺系列之(2.1)—— Apache Hadoop 2.x 偽分散式環境搭建

JDK 版本:jdk 1.7.0_67 Apache Hadoop 版本:Hadoop 2.5.0 1、安裝目錄準備 ~]$ cd /opt/ opt]$ sudo mkdir /opt/modules opt]$ sudo chown beifeng:b

Hadoop資料通用處理平臺

1.簡介   Hadoop是一款開源的大資料通用處理平臺,其提供了分散式儲存和分散式離線計算,適合大規模資料、流式資料(寫一次,讀多次),不適合低延時的訪問、大量的小檔案以及頻繁修改的檔案。 *Hadoop由HDFS、YARN、MapReduce組成。   Hadoop的特點:

資料之Spark()--- RDD,RDD變換,RDD的Action,解決spark的資料傾斜問題,spark整合hadoop的HA

一、Spark叢集執行 ------------------------------------------------------- 1.local //本地模式 2.standalone //獨立模式 3.yarn //yarn模式

資料入門(14)hadoop+yarn+zookeeper叢集搭建

1、右鍵clone虛擬機器,進入圖形介面,修改虛擬機器ip即可,相關環境變數配置都存在 2、叢集規劃:(必須設定主機名,配置主機名和ip的對映關係,每個檔案都需要配置對映關係)     主機名       &

【備忘】小象視訊教程 Hadoop 2.X資料平臺V3

第1講 :hadoop生態系統以及版本演化 第2講:HDFS 2.0應用場景、原理、基本架構及使用方法 第3講:Yarn應用場景、基本架構與資源排程 第4講: MapReduce 2.0基本原理與架構 第5講 :MapReduce 2.0程式設計實踐(涉及多語言程式設計) 第6講:Hbase應用場