1. 程式人生 > >Hadoop+hbase+hive環境搭建

Hadoop+hbase+hive環境搭建

Hadoop是一個開發和執行處理大規模資料的平臺,實現在多臺計算機組成的叢集中對海量資料進行分散式計算。

hadoop框架最核心的部分是hdfs和mapreduce。hdfs提供了海量資料的儲存,mapreduce提供了對資料的計算。

hadoop處理海量資料,需要hbase做資料庫,hbase是面向列的分散式資料庫,使用叢集環境的記憶體做處理,但是不支援sql語句,所以操作和計算資料非常不方便,於是整合hive,hive支援sql語句,讓hive支撐在hbase資料庫層面的查詢。

下面介紹hadoop+hbase+hive的環境部署:

一、Hadoop框架

hadoop使用主/從(master/slave)架構,主要由NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker組成。

其中,NameNode,secondary NameNode,JobTracker執行在Master節點上,DataNode和TaskTracker執行在Slave節點上。

NameNode:HDFS的守護程式,負責記錄檔案是如何分割成資料塊的,以及這些資料塊被儲存到哪些資料節點上。

DataNode:叢集中每個從伺服器都執行一個DataNode後臺程式,後臺程式負責把HDFS資料塊讀寫到本地檔案系統。需要讀寫資料時,由NameNode告訴客戶端去哪個DataNode進行具體的讀寫操作。

secondary NameNode:用來監控HDFS狀態的輔助後臺程式,如果NameNode發生問題,可以使用Secondary NameNode作為備用的NameNode。

JobTracker:用來連線應用程式與Hadoop,使用者應用提交到集群后,由JobTracker決定哪個檔案處理哪個task執行,一旦某個task失敗,JobTracker會自動開啟這個task。

TaskTracker:負責儲存資料的DataNode相結合,位於從節點,負責各自的task。

1)準備工作:

4臺獨立的主機

一臺為master,其餘3臺為slave。

作業系統均為CentOS 5.8,jdk均安裝同個版本同個目錄,配置好/etc/profile。

為避免許可權問題導致無法使用,以下操作均使用了root賬號操作。如果是其他賬號操作,要確保同個賬號對每臺主機相同目錄的操作許可權一致。

2)做好master到slave的免登入:

在master上依次操作:

ssh-keygen -t rsa
cd ~/.ssh
cat id_rsa.pub >> authorized_keys
chmod 644 authorized_keys
然後將 id_rsa.pub authorized_keys id_rsa,拷到其它機器上,注意檔案的許可權與目錄的許可權:
scp id_rsa.pub authorized_keys id_rsa [email protected]:~/.ssh
scp id_rsa.pub authorized_keys id_rsa [email protected]:~/.ssh
scp id_rsa.pub authorized_keys id_rsa [email protected]:~/.ssh

3)每臺機器配置hosts:

XXX.XXx.XXx.XX  master
XXX.XXx.XXx.XX  slave2
XXX.XXx.XXx.XX   slave1
XXX.XXx.XXx.XX slave3

4)每臺機器配置對應的hostname:

如master節點,開啟/etc/sysconfig/network:

NETWORKING=yes
HOSTNAME=master

其他從節點的hostname分佈配置成對應的slave1、slave2、slave3

5)建立相關資料目錄:

如hadoop存放目錄為/home/hadoop2,將hadoop安裝到該目錄下。具體配置如下:

  • 在每個節點上建立程式儲存目錄/home/hadoop2,用來存放Hadoop程式檔案
  • 在每個節點上建立資料儲存目錄/home/hadoop2/hdfs,用來存放叢集資料
  • 在主節點上建立目錄/home/hadoop2/hdfs/name,用來存放檔案系統元資料
  • 在每個從節點上建立目錄/home/hadoop2/hdfs/data,用來存放真正的資料
  • 所有節點上的日誌目錄為/home/hadoop2/logs
  • 所有節點上的臨時目錄為/home/hadoop2/tmp

6)每臺機器配置環境變數:

export HADOOP_HOME=/home/hadoop2/hadoop-2.5.0-cdh5.3.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_LOG_DIR=$HADOOP_HOME/logs
export YARN_LOG_DIR=$HADOOP_LOG_DIR
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

7)hadoop配置檔案:

配置檔案所在目錄為/home/hadoop2/hadoop-2.5.0-cdh5.3.2/etc/hadoop

a、配置core-site.xml


b、配置hdfs-site.xml

c、配置yarn-site.xml

d、配置mapred-site.xml

e、配置hadoop-env.sh、yarn-env.sh、mapred-env.sh指令碼,修改每個指令碼的JAVA_HOME為當前系統的JAVA_HOME

f、修改slaves檔案

8)同步程式檔案到從節點:

在master將上面配好的檔案複製到各個節點對應的目錄:

9)確保每臺機器的防火牆關閉:

service iptables stop

10)格式化檔案系統:

hadoop namenode -format

hadoop datanode -format

11)啟動hdfs叢集:

start-dfs.sh

可以訪問http://master:50070,檢視hdfs叢集狀態

12)啟動yarn叢集:

start-yarn.sh

可以訪問http://master:8099,檢視yarn叢集狀態

也可以直接使用start-all.sh指令碼啟動,該指令碼包含了hdfs和yarn兩個叢集的啟動。

二、Hbase

在master上操作,將hbase安裝到/home/hadoop2目錄下。

1)修改配置檔案:

配置檔案所在目錄為/home/hadoop2/hbase-1.0.0-cdh5.4.8/conf

a、配置hbase-site.xml

b、配置hbase-env.sh指令碼,修改指令碼的JAVA_HOME為當前系統的JAVA_HOME

 c、配置regionservers


2)同步程式檔案到從節點:

在master將上面配好的檔案複製到各個節點對應的目錄:

scp -r /home/hadoop2/hbase-1.0.0-cdh5.4.8 [email protected]:/home/hadoop2/hbase-1.0.0-cdh5.4.8/
scp -r /home/hadoop2/hbase-1.0.0-cdh5.4.8 [email protected]:/home/hadoop2/hbase-1.0.0-cdh5.4.8/
scp -r /home/hadoop2/hbase-1.0.0-cdh5.4.8 [email protected]:/home/hadoop2/hbase-1.0.0-cdh5.4.8/

3)每臺機器配置環境變數:

export HBASE_HOME=/home/hadoop2/hbase-1.0.0-cdh5.4.8
export PATH=$PATH:$HBASE_HOME/bin

4)啟動hbase叢集:

start-hbase.sh

三、Hive

在master上操作,將hive安裝到/home/hadoop2目錄下。

1)修改配置檔案:

配置檔案所在目錄為/home/hadoop2/hive-0.13.1-cdh5.3.2/conf

a、配置hive-site.xml


b、配置hive-env.sh指令碼

2)配置環境變數:

export HIVE_HOME=/oracle/hadoop2/hive-0.13.1-cdh5.3.2
export CLASSPATH=$CLASSPATH:$HIVE_HOME/lib
export PATH=$PATH:$HIVE_HOME/bin:$HIVE_HOME/conf

3)啟動hive:

進入/home/hadoop2/hive-0.13.1-cdh5.3.2/bin

nohup hiveserver2 &

以上,一個可以執行的環境就安裝好了,可以在hive和hbase中建立自己需要的資料。

相關推薦

Hadoop+hbase+hive環境搭建

Hadoop是一個開發和執行處理大規模資料的平臺,實現在多臺計算機組成的叢集中對海量資料進行分散式計算。hadoop框架最核心的部分是hdfs和mapreduce。hdfs提供了海量資料的儲存,mapreduce提供了對資料的計算。hadoop處理海量資料,需要hbase做資

Hadoop+HBase+Spark+Hive環境搭建

eight 基礎 計算 oracle keygen 結構化 文字 l命令 密鑰 楊赟快跑 簡書作者 2018-09-24 10:24 打開App 摘要:大數據門檻較高,僅僅環境的搭建可能就要耗費我們大量的精力,本文總結了作者是如何搭建大數據環境的(單機版和集

最詳細的Hadoop+Hbase+Hive完全分散式環境搭建教程(二)

繼續上次的教程,這次安裝hbase與hive 一、hbase2.1.1安裝 在master節點: $ tar -zxvf hbase-2.1.1-bin.tar.gz -C /opt $ cd /opt/hbase-2.1.1/conf/ $ vi hbase-

ubuntu系統的mysql+hadoop+hive環境搭建

1.在ubuntu系統上安裝mysql資料庫 sudo apt-get install mysql-server 安裝過程中會提示兩次輸入密碼,己住自己設定的密碼,一直下一步。 檢查是否安裝成功:mysql -u 使用者名稱 -p 密碼 顯示資料庫後 show databases; 出現數

大資料學習系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive叢集搭建 圖文詳解

引言 在之前的大資料學習系列中,搭建了Hadoop+Spark+HBase+Hive 環境以及一些測試。其實要說的話,我開始學習大資料的時候,搭建的就是叢集,並不是單機模式和偽分散式。至於為什麼先寫單機的搭建,是因為作為個人學習的話,單機已足以,好吧,

虛擬機器下linux+java+hadoop+hive環境搭建

      最近在接觸hadoop的專案,把總結出的配置方法寫出來紀念一下,也方便後來人快速玩轉hadoop。 一、hadoop安裝:下載release版本hadoop0.20.1,解壓到/home/hadoop/ 。 1.命令列下執行 #mkdir input cp c

Spark環境搭建(四)-----------數據倉庫Hive環境搭建

apr 程序 版本 擴展 arch 表名 數據集 .tar.gz 自定義 Hive產生背景 1)MapReduce的編程不便,需通過Java語言等編寫程序 2) HDFS上的文缺失Schema(在數據庫中的表名列名等),方便開發者通過SQL的方式處理結構化的數據,而不需

hive環境搭建

客戶 環境 logs java-5 var apache 9.1 ddp body 機器規劃: 主機 ip 進程 master1 10.112.29.9 hive server master2 10.112.29.10 hive client mys

Hadoop Eclipse開發環境搭建

spa 如果 eclipse配置 system ima println smo cto icop 一、安裝Eclipse 下載Eclipse,解壓安裝,例如安裝到/usr/local,即/usr/local/eclipse 4.3.1版

cdh版本的hue安裝配置部署以及集成hadoop hbase hive mysql等權威指南

service sources ces 兩個 配置 語句 基金會 pan 創建 hue下載地址:https://github.com/cloudera/hue hue學習文檔地址:http://archive.cloudera.com/cdh5/cdh/5/hue-3.7

Hive環境搭建及簡單使用

Hive前言: 上篇文章我們介紹了Hive源碼編譯的相關內容,本篇文章將主要介紹Hive環境的搭建步驟及簡單使用。 1.下載安裝包並解壓 # 下載地址http://archive.cloudera.com/cdh5/cdh/5/ 選擇hive-1.1.0-cdh5.7.0.tar.gz包,也可用我們上篇文

maven hadoop ,hbase,hive依賴

ins xsd exec ase hba utf ado aps aging <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema

Hadoop集群環境搭建

strong clu text data- dep table 什麽 隱藏文件 --nodeps 第一部分:準備Linux環境創建虛擬機安裝系統的步驟在這裏就不講了,詳細步驟請看本人其他文章打開建好的虛擬機一、修改Hostname1、 臨時修改hostname hostn

Hadoop的HA環境搭建

resource 執行 事務隔離級別 hdf dfa def rop proxy 不可重復讀 一、集群的規劃 Zookeeper集群:192.168.176.131 (bigdata112)192.168.176.132 (bigdata113)192.168.176.13

Hadoop偽分佈環境搭建——Hadoop安裝與配置

    我們需要從官網下載hadoop  點選開啟連結  我自己下載的是最新的版本 hadoop 2.7.1。     下載完成後就開始安裝了:     使用  sudo tar xzf hadoo

Hadoop偽分佈環境搭建——Linux環境配置

    hadoop最近可以說是相當火,也勾起了我的興趣,所以打算學習一下。想要學習hadoop肯定要先學會在自己的電腦上搭建一個hadoop偽分佈環境。偽分佈模式安裝步驟的第一步就是要配置Linux環境。我自己的Linux是Ubuntu系統,不過只要是Linux系統,都大同

hadoop 全分散式環境搭建—— 詳細步驟

材料:三臺 linux 虛擬機器 hadoop2.7.2 版本 以下全分散式搭建步驟 :前期分別 配置好JDK 建立hadoop 使用者 設定好主機名稱 hosts 主機地址對映  免密登入  防火牆關閉  三臺虛擬機器的互相通訊   開始安裝

Hadoop偽分散式環境搭建之Linux作業系統安裝

Hadoop偽分散式環境搭建之Linux作業系統安裝 本篇文章是接上一篇《超詳細hadoop虛擬機器安裝教程(附圖文步驟)》,上一篇有人問怎麼沒寫hadoop安裝。在文章開頭就已經說明了,hadoop安裝會在後面寫到,因為整個系列的文章涉及到每一步的截圖,導致文章整體很長。會分別先對虛擬機器

Hive環境搭建啟動報錯

hive-site.xml檔案內容: 1 <?xml version="1.0" encoding="UTF-8" standalone="no"?> 2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

hadoop本地開發環境搭建

1:下載hadoop2.7.3並解壓 2:配置hadoop2.7.3環境變數 HADOOP_HOME %HADOOP_HOME%\bin 3:下載hadoop-eclipse-plugin外掛 網址:https://github.com/winghc/hadoop2x-eclipse-plugin