Hadoop+hbase+hive環境搭建
Hadoop是一個開發和執行處理大規模資料的平臺,實現在多臺計算機組成的叢集中對海量資料進行分散式計算。
hadoop框架最核心的部分是hdfs和mapreduce。hdfs提供了海量資料的儲存,mapreduce提供了對資料的計算。
hadoop處理海量資料,需要hbase做資料庫,hbase是面向列的分散式資料庫,使用叢集環境的記憶體做處理,但是不支援sql語句,所以操作和計算資料非常不方便,於是整合hive,hive支援sql語句,讓hive支撐在hbase資料庫層面的查詢。
下面介紹hadoop+hbase+hive的環境部署:
一、Hadoop框架
hadoop使用主/從(master/slave)架構,主要由NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker組成。
其中,NameNode,secondary NameNode,JobTracker執行在Master節點上,DataNode和TaskTracker執行在Slave節點上。
NameNode:HDFS的守護程式,負責記錄檔案是如何分割成資料塊的,以及這些資料塊被儲存到哪些資料節點上。
DataNode:叢集中每個從伺服器都執行一個DataNode後臺程式,後臺程式負責把HDFS資料塊讀寫到本地檔案系統。需要讀寫資料時,由NameNode告訴客戶端去哪個DataNode進行具體的讀寫操作。
secondary NameNode:用來監控HDFS狀態的輔助後臺程式,如果NameNode發生問題,可以使用Secondary NameNode作為備用的NameNode。
JobTracker:用來連線應用程式與Hadoop,使用者應用提交到集群后,由JobTracker決定哪個檔案處理哪個task執行,一旦某個task失敗,JobTracker會自動開啟這個task。
TaskTracker:負責儲存資料的DataNode相結合,位於從節點,負責各自的task。
1)準備工作:
4臺獨立的主機
一臺為master,其餘3臺為slave。
作業系統均為CentOS 5.8,jdk均安裝同個版本同個目錄,配置好/etc/profile。
為避免許可權問題導致無法使用,以下操作均使用了root賬號操作。如果是其他賬號操作,要確保同個賬號對每臺主機相同目錄的操作許可權一致。
2)做好master到slave的免登入:
在master上依次操作:
ssh-keygen -t rsa
cd ~/.ssh
cat id_rsa.pub >> authorized_keys
chmod 644 authorized_keys
然後將 id_rsa.pub authorized_keys id_rsa,拷到其它機器上,注意檔案的許可權與目錄的許可權:
scp id_rsa.pub authorized_keys id_rsa [email protected]:~/.ssh
scp id_rsa.pub authorized_keys id_rsa [email protected]:~/.ssh
scp id_rsa.pub authorized_keys id_rsa [email protected]:~/.ssh
3)每臺機器配置hosts:
XXX.XXx.XXx.XX master
XXX.XXx.XXx.XX slave2
XXX.XXx.XXx.XX slave1
XXX.XXx.XXx.XX slave3
4)每臺機器配置對應的hostname:
如master節點,開啟/etc/sysconfig/network:
NETWORKING=yes
HOSTNAME=master
其他從節點的hostname分佈配置成對應的slave1、slave2、slave3
5)建立相關資料目錄:
如hadoop存放目錄為/home/hadoop2,將hadoop安裝到該目錄下。具體配置如下:
- 在每個節點上建立程式儲存目錄/home/hadoop2,用來存放Hadoop程式檔案
- 在每個節點上建立資料儲存目錄/home/hadoop2/hdfs,用來存放叢集資料
- 在主節點上建立目錄/home/hadoop2/hdfs/name,用來存放檔案系統元資料
- 在每個從節點上建立目錄/home/hadoop2/hdfs/data,用來存放真正的資料
- 所有節點上的日誌目錄為/home/hadoop2/logs
- 所有節點上的臨時目錄為/home/hadoop2/tmp
6)每臺機器配置環境變數:
export HADOOP_HOME=/home/hadoop2/hadoop-2.5.0-cdh5.3.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_LOG_DIR=$HADOOP_HOME/logs
export YARN_LOG_DIR=$HADOOP_LOG_DIR
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
7)hadoop配置檔案:
配置檔案所在目錄為/home/hadoop2/hadoop-2.5.0-cdh5.3.2/etc/hadoop
a、配置core-site.xml
b、配置hdfs-site.xml
c、配置yarn-site.xml
d、配置mapred-site.xml
e、配置hadoop-env.sh、yarn-env.sh、mapred-env.sh指令碼,修改每個指令碼的JAVA_HOME為當前系統的JAVA_HOME
f、修改slaves檔案
8)同步程式檔案到從節點:
在master將上面配好的檔案複製到各個節點對應的目錄:
9)確保每臺機器的防火牆關閉:
service iptables stop
10)格式化檔案系統:
hadoop namenode -format
hadoop datanode -format
11)啟動hdfs叢集:
start-dfs.sh
可以訪問http://master:50070,檢視hdfs叢集狀態
12)啟動yarn叢集:
start-yarn.sh
可以訪問http://master:8099,檢視yarn叢集狀態
也可以直接使用start-all.sh指令碼啟動,該指令碼包含了hdfs和yarn兩個叢集的啟動。
二、Hbase
在master上操作,將hbase安裝到/home/hadoop2目錄下。
1)修改配置檔案:
配置檔案所在目錄為/home/hadoop2/hbase-1.0.0-cdh5.4.8/conf
a、配置hbase-site.xml
b、配置hbase-env.sh指令碼,修改指令碼的JAVA_HOME為當前系統的JAVA_HOME
c、配置regionservers
2)同步程式檔案到從節點:
在master將上面配好的檔案複製到各個節點對應的目錄:
scp -r /home/hadoop2/hbase-1.0.0-cdh5.4.8 [email protected]:/home/hadoop2/hbase-1.0.0-cdh5.4.8/
scp -r /home/hadoop2/hbase-1.0.0-cdh5.4.8 [email protected]:/home/hadoop2/hbase-1.0.0-cdh5.4.8/
scp -r /home/hadoop2/hbase-1.0.0-cdh5.4.8 [email protected]:/home/hadoop2/hbase-1.0.0-cdh5.4.8/
3)每臺機器配置環境變數:
export HBASE_HOME=/home/hadoop2/hbase-1.0.0-cdh5.4.8
export PATH=$PATH:$HBASE_HOME/bin
4)啟動hbase叢集:
start-hbase.sh
三、Hive
在master上操作,將hive安裝到/home/hadoop2目錄下。
1)修改配置檔案:
配置檔案所在目錄為/home/hadoop2/hive-0.13.1-cdh5.3.2/conf
a、配置hive-site.xml
b、配置hive-env.sh指令碼
2)配置環境變數:
export HIVE_HOME=/oracle/hadoop2/hive-0.13.1-cdh5.3.2
export CLASSPATH=$CLASSPATH:$HIVE_HOME/lib
export PATH=$PATH:$HIVE_HOME/bin:$HIVE_HOME/conf
3)啟動hive:
進入/home/hadoop2/hive-0.13.1-cdh5.3.2/bin
nohup hiveserver2 &
以上,一個可以執行的環境就安裝好了,可以在hive和hbase中建立自己需要的資料。
相關推薦
Hadoop+hbase+hive環境搭建
Hadoop是一個開發和執行處理大規模資料的平臺,實現在多臺計算機組成的叢集中對海量資料進行分散式計算。hadoop框架最核心的部分是hdfs和mapreduce。hdfs提供了海量資料的儲存,mapreduce提供了對資料的計算。hadoop處理海量資料,需要hbase做資
Hadoop+HBase+Spark+Hive環境搭建
eight 基礎 計算 oracle keygen 結構化 文字 l命令 密鑰 楊赟快跑 簡書作者 2018-09-24 10:24 打開App 摘要:大數據門檻較高,僅僅環境的搭建可能就要耗費我們大量的精力,本文總結了作者是如何搭建大數據環境的(單機版和集
最詳細的Hadoop+Hbase+Hive完全分散式環境搭建教程(二)
繼續上次的教程,這次安裝hbase與hive 一、hbase2.1.1安裝 在master節點: $ tar -zxvf hbase-2.1.1-bin.tar.gz -C /opt $ cd /opt/hbase-2.1.1/conf/ $ vi hbase-
ubuntu系統的mysql+hadoop+hive環境搭建
1.在ubuntu系統上安裝mysql資料庫 sudo apt-get install mysql-server 安裝過程中會提示兩次輸入密碼,己住自己設定的密碼,一直下一步。 檢查是否安裝成功:mysql -u 使用者名稱 -p 密碼 顯示資料庫後 show databases; 出現數
大資料學習系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive叢集搭建 圖文詳解
引言 在之前的大資料學習系列中,搭建了Hadoop+Spark+HBase+Hive 環境以及一些測試。其實要說的話,我開始學習大資料的時候,搭建的就是叢集,並不是單機模式和偽分散式。至於為什麼先寫單機的搭建,是因為作為個人學習的話,單機已足以,好吧,
虛擬機器下linux+java+hadoop+hive環境搭建
最近在接觸hadoop的專案,把總結出的配置方法寫出來紀念一下,也方便後來人快速玩轉hadoop。 一、hadoop安裝:下載release版本hadoop0.20.1,解壓到/home/hadoop/ 。 1.命令列下執行 #mkdir input cp c
Spark環境搭建(四)-----------數據倉庫Hive環境搭建
apr 程序 版本 擴展 arch 表名 數據集 .tar.gz 自定義 Hive產生背景 1)MapReduce的編程不便,需通過Java語言等編寫程序 2) HDFS上的文缺失Schema(在數據庫中的表名列名等),方便開發者通過SQL的方式處理結構化的數據,而不需
hive環境搭建
客戶 環境 logs java-5 var apache 9.1 ddp body 機器規劃: 主機 ip 進程 master1 10.112.29.9 hive server master2 10.112.29.10 hive client mys
Hadoop Eclipse開發環境搭建
spa 如果 eclipse配置 system ima println smo cto icop 一、安裝Eclipse 下載Eclipse,解壓安裝,例如安裝到/usr/local,即/usr/local/eclipse 4.3.1版
cdh版本的hue安裝配置部署以及集成hadoop hbase hive mysql等權威指南
service sources ces 兩個 配置 語句 基金會 pan 創建 hue下載地址:https://github.com/cloudera/hue hue學習文檔地址:http://archive.cloudera.com/cdh5/cdh/5/hue-3.7
Hive環境搭建及簡單使用
Hive前言: 上篇文章我們介紹了Hive源碼編譯的相關內容,本篇文章將主要介紹Hive環境的搭建步驟及簡單使用。 1.下載安裝包並解壓 # 下載地址http://archive.cloudera.com/cdh5/cdh/5/ 選擇hive-1.1.0-cdh5.7.0.tar.gz包,也可用我們上篇文
maven hadoop ,hbase,hive依賴
ins xsd exec ase hba utf ado aps aging <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema
Hadoop集群環境搭建
strong clu text data- dep table 什麽 隱藏文件 --nodeps 第一部分:準備Linux環境創建虛擬機安裝系統的步驟在這裏就不講了,詳細步驟請看本人其他文章打開建好的虛擬機一、修改Hostname1、 臨時修改hostname hostn
Hadoop的HA環境搭建
resource 執行 事務隔離級別 hdf dfa def rop proxy 不可重復讀 一、集群的規劃 Zookeeper集群:192.168.176.131 (bigdata112)192.168.176.132 (bigdata113)192.168.176.13
Hadoop偽分佈環境搭建——Hadoop安裝與配置
我們需要從官網下載hadoop 點選開啟連結 我自己下載的是最新的版本 hadoop 2.7.1。 下載完成後就開始安裝了: 使用 sudo tar xzf hadoo
Hadoop偽分佈環境搭建——Linux環境配置
hadoop最近可以說是相當火,也勾起了我的興趣,所以打算學習一下。想要學習hadoop肯定要先學會在自己的電腦上搭建一個hadoop偽分佈環境。偽分佈模式安裝步驟的第一步就是要配置Linux環境。我自己的Linux是Ubuntu系統,不過只要是Linux系統,都大同
hadoop 全分散式環境搭建—— 詳細步驟
材料:三臺 linux 虛擬機器 hadoop2.7.2 版本 以下全分散式搭建步驟 :前期分別 配置好JDK 建立hadoop 使用者 設定好主機名稱 hosts 主機地址對映 免密登入 防火牆關閉 三臺虛擬機器的互相通訊 開始安裝
Hadoop偽分散式環境搭建之Linux作業系統安裝
Hadoop偽分散式環境搭建之Linux作業系統安裝 本篇文章是接上一篇《超詳細hadoop虛擬機器安裝教程(附圖文步驟)》,上一篇有人問怎麼沒寫hadoop安裝。在文章開頭就已經說明了,hadoop安裝會在後面寫到,因為整個系列的文章涉及到每一步的截圖,導致文章整體很長。會分別先對虛擬機器
Hive環境搭建啟動報錯
hive-site.xml檔案內容: 1 <?xml version="1.0" encoding="UTF-8" standalone="no"?> 2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
hadoop本地開發環境搭建
1:下載hadoop2.7.3並解壓 2:配置hadoop2.7.3環境變數 HADOOP_HOME %HADOOP_HOME%\bin 3:下載hadoop-eclipse-plugin外掛 網址:https://github.com/winghc/hadoop2x-eclipse-plugin