大數據概述 Hadoop配置

阿新 • • 發佈：2019-04-28

examples tracing interact req .cn ctu dom ins cli

Top

NSD ARCHITECTURE DAY05

案例1：安裝Hadoop
案例2：安裝配置Hadoop

1 案例1：安裝Hadoop

1.1 問題

本案例要求安裝單機模式Hadoop：

單機模式安裝Hadoop
安裝JAVA環境
設置環境變量，啟動運行

1.2 步驟

實現此案例需要按照如下步驟進行。

步驟一：環境準備

1）配置主機名為nn01，ip為192.168.1.21，配置yum源（系統源）

備註：由於在之前的案例中這些都已經做過，這裏不再重復，不會的學員可以參考之前的案例

2）安裝java環境

[[email protected] ~]# yum -y install java-1.8.0-openjdk-devel
[[email protected] ~]# java -version
openjdk version "1.8.0_131"
OpenJDK Runtime Environment (build 1.8.0_131-b12)
OpenJDK 64-Bit Server VM (build 25.131-b12, mixed mode)
[[email protected] ~]# jps
1235 Jps

3）安裝hadoop

[[email protected] ~]# tar -xf hadoop-2.7.6.tar.gz
[[email protected] ~]# mv hadoop-2.7.6 /usr/local/hadoop
[[email protected] ~]# cd /usr/local/hadoop/
[[email protected] hadoop]# ls
bin include libexec NOTICE.txt sbin
etc lib LICENSE.txt README.txt share
[[email protected] hadoop]# ./bin/hadoop //報錯，JAVA_HOME沒有找到
Error: JAVA_HOME is not set and could not be found.
[[email protected] hadoop]#

4）解決報錯問題

[[email protected] hadoop]# rpm -ql java-1.8.0-openjdk
[[email protected] hadoop]# cd ./etc/hadoop/
[[email protected] hadoop]# vim hadoop-env.sh
25 export \
JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64/jre"
33 export HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"
[[email protected] ~]# cd /usr/local/hadoop/
[[email protected] hadoop]# ./bin/hadoop
Usage: hadoop [--config confdir] [COMMAND | CLASSNAME]
CLASSNAME run the class named CLASSNAME
or
where COMMAND is one of:
fs run a generic filesystem user client
version print the version
jar <jar> run a jar file
note: please use "yarn jar" to launch
YARN applications, not this command.
checknative [-a|-h] check native hadoop and compression libraries availability
distcp <srcurl> <desturl> copy file or directories recursively
archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
classpath prints the class path needed to get the
credential interact with credential providers
Hadoop jar and the required libraries
daemonlog get/set the log level for each daemon
trace view and modify Hadoop tracing settings
Most commands print help when invoked w/o parameters.
[[email protected] hadoop]# mkdir /usr/local/hadoop/aa
[[email protected] hadoop]# ls
bin etc include lib libexec LICENSE.txt NOTICE.txt aa README.txt sbin share
[[email protected] hadoop]# cp *.txt /usr/local/hadoop/aa
[[email protected] hadoop]# ./bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount aa bb //wordcount為參數統計aa這個文件夾，存到bb這個文件裏面（這個文件不能存在，要是存在會報錯，是為了防止數據覆蓋）
[[email protected] hadoop]# cat bb/part-r-00000 //查看

2 案例2：安裝配置Hadoop

2.1 問題

本案例要求：

另備三臺虛擬機，安裝Hadoop
使所有節點能夠ping通，配置SSH信任關系
節點驗證

2.2 方案

準備四臺虛擬機，由於之前已經準備過一臺，所以只需再準備三臺新的虛擬機即可，安裝hadoop，使所有節點可以ping通，配置SSH信任關系，如圖-1所示：

圖-1

2.3 步驟

實現此案例需要按照如下步驟進行。

步驟一：環境準備

1）三臺機器配置主機名為node1、node2、node3，配置ip地址（ip如圖-1所示），yum源（系統源）

2）編輯/etc/hosts（四臺主機同樣操作，以nn01為例）

[[email protected] ~]# vim /etc/hosts
192.168.1.21 nn01
192.168.1.22 node1
192.168.1.23 node2
192.168.1.24 node3

3）安裝java環境，在node1，node2，node3上面操作（以node1為例）

[[email protected] ~]# yum -y install java-1.8.0-openjdk-devel

4）布置SSH信任關系

[[email protected] ~]# vim /etc/ssh/ssh_config //第一次登陸不需要輸入yes
Host *
GSSAPIAuthentication yes
StrictHostKeyChecking no
[[email protected] .ssh]# ssh-keygen
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:Ucl8OCezw92aArY5+zPtOrJ9ol1ojRE3EAZ1mgndYQM [email protected]
The key‘s randomart image is:
+---[RSA 2048]----+
| o*E*=. |
| +XB+. |
| ..=Oo. |
| o.+o... |
| .S+.. o |
| + .=o |
| o+oo |
| o+=.o |
| o==O. |
+----[SHA256]-----+
[[email protected] .ssh]# for i in 21 22 23 24 ; do ssh-copy-id 192.168.1.$i; done
//部署公鑰給nn01，node1，node2，node3

5）測試信任關系

[[email protected] .ssh]# ssh node1
Last login: Fri Sep 7 16:52:00 2018 from 192.168.1.21
[[email protected] ~]# exit
logout
Connection to node1 closed.
[[email protected] .ssh]# ssh node2
Last login: Fri Sep 7 16:52:05 2018 from 192.168.1.21
[[email protected] ~]# exit
logout
Connection to node2 closed.
[[email protected] .ssh]# ssh node3

步驟二：配置hadoop

1）修改slaves文件

[[email protected] ~]# cd /usr/local/hadoop/etc/hadoop
[[email protected] hadoop]# vim slaves
node1
node2
node3

2）hadoop的核心配置文件core-site

[[email protected] hadoop]# vim core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://nn01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/hadoop</value>
</property>
</configuration>
[[email protected] hadoop]# mkdir /var/hadoop //hadoop的數據根目錄
[[email protected] hadoop]# ssh node1 mkdir /var/hadoop
[[email protected] hadoop]# ssh node2 mkdir /var/hadoop
[[email protected] hadoop]# ssh node3 mkdir /var/hadoop

3）配置hdfs-site文件

[[email protected] hadoop]# vim hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.http-address</name>
<value>nn01:50070</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>nn01:50090</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>

4）同步配置到node1，node2，node3

[[email protected] hadoop]# yum –y install rsync //同步的主機都要安裝rsync
[[email protected] hadoop]# for i in 22 23 24 ; do rsync -aSH --delete /usr/local/hadoop/
\ 192.168.1.$i:/usr/local/hadoop/ -e ‘ssh‘ & done
[1] 23260
[2] 23261
[3] 23262

5）查看是否同步成功

[[email protected] hadoop]# ssh node1 ls /usr/local/hadoop/
bin
etc
include
lib
libexec
LICENSE.txt
NOTICE.txt
bb
README.txt
sbin
share
aa
[[email protected] hadoop]# ssh node2 ls /usr/local/hadoop/
bin
etc
include
lib
libexec
LICENSE.txt
NOTICE.txt
bb
README.txt
sbin
share
aa
[[email protected] hadoop]# ssh node3 ls /usr/local/hadoop/
bin
etc
include
lib
libexec
LICENSE.txt
NOTICE.txt
bb
README.txt
sbin
share
aa

步驟三：格式化

[[email protected] hadoop]# cd /usr/local/hadoop/
[[email protected] hadoop]# ./bin/hdfs namenode -format //格式化 namenode
[[email protected] hadoop]# ./sbin/start-dfs.sh //啟動
[[email protected] hadoop]# jps //驗證角色
23408 NameNode
23700 Jps
23591 SecondaryNameNode
[[email protected] hadoop]# ./bin/hdfs dfsadmin -report //查看集群是否組建成功
Live datanodes (3): //有三個角色成功

大數據概述 Hadoop配置

examples tracing interact req .cn ctu dom ins cli Top NSD ARCHITECTURE DAY05 案例1：安裝Hadoop 案例2：安裝配置Hadoop 1 案例1：安裝Hadoop 1.1 問題

Hadoop（一）之初識大數據與Hadoop

hive 程序員 http 關系型數據庫 .com 邏輯使用 alt clu 前言　　從今天起，我將一步一步的分享大數據相關的知識，其實很多程序員感覺大數據很難學，其實並不是你想象的這樣，只要自己想學，還有什麽難得呢？　　學習Hadoop有一個8020原則，80%

Hadoop（一）之初識大數據與Hadoop【轉載】

hba 無效理解組織鼠標掌握能夠 through 2.3 原文地址：http://www.cnblogs.com/zhangyinhua/p/7647334.html 閱讀目錄(Content) 一、引言（大數據時代） 1.1、從數據中得到信息 1.2、大數據

雲計算大數據（Hadoop）開發工程師項目實戰視頻教程（九部分）

性能調優 hadoop hive zookeper hbase 全套視頻內容包括Hadoo生態圈內容：Hive、Zookeper、HBase、Kafka、Spark、Storm，性能調優、用戶行為分析等內容，包含9部分，大綱如下：├<01、走進大數據Hadoop框架的世界>│

大數據：Hadoop入門

共享文件 x64 評估 apache 配置屬性。關系趨勢 roo 大數據：Hadoop入門一：什麽是大數據什麽是大數據：（1.）大數據是指在一定時間內無法用常規軟件對其內容進行抓取，管理和處理的數據集合，簡而言之就是數據量非常大，大到無法用常規工具

大數據概述

工程科幻思維方式梳理計算領域 class 發展一次 1.試述大數據對思維方式的重要影響思維方式是一定時代人們的理性認識方式，是按一定結構、方法和程序把思維諸要素結合起來的相對穩定的思維運行樣式。人類歷史中任何一次科技或者文化的革命都會引領一次全方位的思維

1.大數據概述

收集重要得出大數據應用獲取效率之間兩個進行 1.試述大數據對思維方式的重要影響。大數據時代對思維方式最大的影響有以下幾點： 1.全樣而非抽樣 2.效率而非精確 3.相關而非因果全采樣而非抽樣的轉變在於計算機性能的提升，主要包括存儲與計算兩個方面。存儲容量

大數據2-Hadoop偽分布式+ZK+HDFS

ora apr 機器工具 data 解決專家常見模型大數據解決四大核心問題：數據的存儲（Big Data Storage），海量數據需要處理和分析，但前提是要進行有效的存儲。Hadoop的誕生突破了傳統數據文件系統的單機模式。HDFS使得數據可以跨越不同的機

大數據之---hadoop偽分布式部署(HDFS)全網終極篇

偽分布式部 hadoop 1、軟件環境RHEL6 jdk-8u45 hadoop-2.8.1.tar.gz ssh xx.xx.xx.xx ip地址 hadoop1 xx.xx.xx.xx ip地址 hadoop2 xx.xx.xx.xx ip地址 hadoop3 xx.xx.xx.xx ip地址 h

大數據之---hadoop常用命令大全終極篇

大數據 Hadoop 軟件環境 RHEL6.8 hadoop2.8.1 apache-maven-3.3.9findbugs-1.3.9 protobuf-2.5.0.tar.gz jdk-8u45(操作環境root安裝啟動的hadoop)hadoop fs == hdfs dfs 將文件上傳至ha

大數據之---hadoop問題排查匯總終極篇---持續更新中

大數據 Hadoop 1、軟件環境 RHEL6 角色 jdk-8u45hadoop-2.8.1.tar.gz ? sshxx.xx.xx.xx ip地址 NN hadoop1xx.xx.xx.xx ip地址 DN hadoop2xx.xx.xx.xx ip地址 DN hadoop3xx.xx.xx.x

大數據之----hadoop中各pid進程號之快速定位

shell hadoop 經常管理和監控，需要進行shell編程，直接對進程kill或者重啟操作。我們需要進行快速定位到每個進程的pid號pid默認存儲在/tmp目錄 pid內容為進程號 ps -ef|grep hadoop 出現PID A,B,C 可能誤殺B,C [hadoop@hadoop000

大數據學習——MapReduce配置及java代碼實現wordcount算法

鍵值 example nds clas spl key lru 這樣的 java_home ---恢復內容開始--- 配置MapReduce需要在之前配置的基礎上配置兩個xml文件一個是yarn-site.xml一個是mapred-site.xml，在之前配置的hadoop

大數據學習---Hadoop的深入學習

快照 pipeline 版本速度 ado 命名空間 cmd rename 測試 Hadoop生態圈存儲數據HDFS(Hadoop Distributed File System),運行在通用硬件上的分布式文件系統。具有高度容錯性、高吞吐量的的特點。處理數據MapRe

大數據之hadoop

傳輸很多問題並行處理 dev 自己 reduce 恢復分布式文件系統一、大數據大數據：解決海量數據問題的技術。大數據由巨型數據集組成，把數據集合並進行分析可得出許多額外的信息和數據關系性。大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集

大數據與Hadoop

發現 dem 降低成本處理數據存儲缺省用戶編寫 eight 擴展性大數據是做什麽的 ? 大數據– 隨著計算機技術的發展,互聯網的普及,信息的積累已經到了一個非常龐大的地步,信息的增長也在不斷的加快,隨著互聯網、物聯網建設的加快,信息更是爆炸是增長,收集、檢

大數據： Hadoop reduce階段

網絡數據復制 conf bz2 集合 etl this 資源而是 Mapreduce中由於sort的存在，MapTask和ReduceTask直接是工作流的架構。而不是數據流的架構。在MapTask尚未結束，其輸出結果尚未排序及合並前，ReduceTask是又有數據輸入

大數據平臺Hadoop的分布式集群環境搭建

exp temp 免費學習介紹操作 tfs 官網 home 增加 1 概述本文章介紹大數據平臺Hadoop的分布式環境搭建、以下為Hadoop節點的部署圖，將NameNode部署在master1，SecondaryNameNode部署在master2，slave1、s

新手必備：大數據框架Hadoop主要模塊解析

分布式應用數據的分布之間中間一起資料評估業務 roc hadoop Common: 包括Hadoop常用的工具類，由原來的Hadoop core部分更名而來。主要包括系統配置工具Configuration、遠程過程調用RPC、序列化機制和Hadoop抽象文件系

好程序員大數據教程Hadoop全分布安裝（非HA)

遠程拷貝 format mas not source ip地址安裝包 netmask ESS 　　機器名稱啟動服務　　linux11 namenode secondrynamenode datanode　　linux12 datanode　　linux13 datano

大數據概述 Hadoop配置

NSD ARCHITECTURE DAY05

1 案例1：安裝Hadoop

1.1 問題

1.2 步驟

2 案例2：安裝配置Hadoop

2.1 問題

2.2 方案

2.3 步驟

相關推薦