hbase安裝配置(整合到hadoop)
1.快速單機安裝:
在單機安裝Hbase的方法。會引導你通過shell建立一個表,插入一行,然後刪除它,最後停止Hbase。只要10分鐘就可以完成以下的操作。
1.1下載解壓最新版本
$ tar xfz hbase-0.90.4.tar.gz$ cd hbase-0.90.4
現在你已經可以啟動Hbase了。但是你可能需要先編輯 conf/hbase-site.xml 去配置hbase.rootdir,來選擇Hbase將資料寫到哪個目錄 .
- <?xmlversion="1.0"?>
- <?xml-stylesheettype="text/xsl"href="configuration.xsl"
- <configuration>
- <property>
- <name>hbase.rootdir</name>
- <value>file:///DIRECTORY/hbase</value>
- </property>
- </configuration>
將 DIRECTORY 替換成你期望寫檔案的目錄. 預設 hbase.rootdir 是指向 /tmp/hbase-${user.name} ,也就說你會在重啟後丟失資料(重啟的時候作業系統會清理/tmp目錄)
1.2. 啟動 HBase
現在啟動Hbase:
$ ./bin/start-hbase.sh
starting Master, logging to logs/hbase-user-master-example.org.out
現在你執行的是單機模式的Hbaes。所以的服務都執行在一個JVM上,包括Hbase和Zookeeper。Hbase的日誌放在logs
目錄,當你啟動出問題的時候,可以檢查這個日誌。
1.3. Hbase Shell 練習
用shell連線你的Hbase
$ ./bin/hbase shell
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Type "exit<RETURN>" to leave the HBase Shell
Version: 0.90.0, r1001068, Fri Sep 24 13:55:42 PDT 2010
hbase(main):001:0>
輸入 help 然後 <RETURN> 可以看到一列shell命令。這裡的幫助很詳細,要注意的是表名,行和列需要加引號。
建立一個名為 test
的表,這個表只有一個column family 為 cf
。可以列出所有的表來檢查建立情況,然後插入些值。
hbase(main):003:0> create 'test', 'cf'
0 row(s) in 1.2200 seconds
hbase(main):003:0> list 'table'
test
1 row(s) in 0.0550 seconds
hbase(main):004:0> put 'test', 'row1', 'cf:a', 'value1'
0 row(s) in 0.0560 seconds
hbase(main):005:0> put 'test', 'row2', 'cf:b', 'value2'
0 row(s) in 0.0370 seconds
hbase(main):006:0> put 'test', 'row3', 'cf:c', 'value3'
0 row(s) in 0.0450 seconds
以上我們分別插入了3行。第一個行key為row1
, 列為 cf:a
, 值是 value1
。Hbase中的列是由 column family字首和列的名字組成的,以冒號間隔。例如這一行的列名就是a
.
檢查插入情況.
Scan這個表,操作如下
hbase(main):007:0> scan 'test'
ROW COLUMN+CELL
row1 column=cf:a, timestamp=1288380727188, value=value1
row2 column=cf:b, timestamp=1288380738440, value=value2
row3 column=cf:c, timestamp=1288380747365, value=value3
3 row(s) in 0.0590 seconds
Get一行,操作如下
hbase(main):008:0> get 'test', 'row1'
COLUMN CELL
cf:a timestamp=1288380727188, value=value1
1 row(s) in 0.0400 seconds
disable 再 drop 這張表,可以清除你剛剛的操作
hbase(main):012:0> disable 'test'
0 row(s) in 1.0930 seconds
hbase(main):013:0> drop 'test'
0 row(s) in 0.0770 seconds
關閉shell
hbase(main):014:0> exit
1.4. 停止 HBase
執行停止指令碼來停止HBase.
$ ./bin/stop-hbase.sh
stopping hbase...............
2 Hbase叢集安裝前注意
1) Java:(hadoop已經安裝了)
3) ssh 必須安裝ssh , sshd 也必須執行,這樣Hadoop的指令碼才可以遠端操控其他的Hadoop和Hbase程序。ssh之間必須都打通,不用密碼都可以登入,詳細方法可以 Google一下 ("ssh passwordless login").
4) NTP:叢集的時鐘要保證基本的一致。稍有不一致是可以容忍的,但是很大的不一致會 造成奇怪的行為。 執行 NTP 或者其他什麼東西來同步你的時間.
如果你查詢的時候或者是遇到奇怪的故障,可以檢查一下系統時間是否正確!
設定叢集各個節點時鐘:date -s “2012-02-13 14:00:00”
5)
ulimit
和 nproc:
Base是資料庫,會在同一時間使用很多的檔案控制代碼。大多數linux系統使用的預設值1024是不能滿足的,會導致FAQ: Why do I see "java.io.IOException...(Too manyopen files)" in my logs?異常。還可能會發生這樣的異常
2010-04-06 03:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient: ExceptionincreateBlockOutputStream java.io.EOFException
2010-04-06 03:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient:Abandoning block blk_-6935524980745310745_1391901
所以你需要修改你的最大檔案控制代碼限制。可以設定到10k. 你還需要修改 hbase 使用者的 nproc,如果過低會造成 OutOfMemoryError異常。 [2] [3].
需要澄清的,這兩個設定是針對作業系統的,不是Hbase本身的。有一個常見的錯誤是Hbase執行的使用者,和設定最大值的使用者不是一個使用者。在Hbase啟動的時候,第一行日誌會現在ulimit資訊,所以你最好檢查一下。
設定ulimit:
如果你使用的是Ubuntu,你可以這樣設定:
在檔案 /etc/security/limits.conf 新增一行,如:
hadoop - nofile 32768
可以把 hadoop 替換成你執行Hbase和Hadoop的使用者。如果你用兩個使用者,你就需要配兩個。還有配nproc hard 和 softlimits. 如:
hadoop soft/hard nproc 32000
在 /etc/pam.d/common-session 加上這一行:
session required pam_limits.so
否則在 /etc/security/limits.conf上的配置不會生效.
還有登出再登入,這些配置才能生效!
7 )修改Hadoop HDFS Datanode同時處理檔案的上限:dfs.datanode.max.xcievers
一個 Hadoop HDFS Datanode 有一個同時處理檔案的上限. 這個引數叫 xcievers (Hadoop的作者把這個單詞拼錯了). 在你載入之前,先確認下你有沒有配置這個檔案conf/hdfs-site.xml裡面的xceivers引數,至少要有4096:
<property>
<name>dfs.datanode.max.xcievers</name>
<value>4096</value>
</property>
對於HDFS修改配置要記得重啟.
如果沒有這一項配置,你可能會遇到奇怪的失敗。你會在Datanode的日誌中看到xcievers exceeded,但是執行起來會報 missing blocks錯誤。例如: 02/12/1220:10:31 INFO hdfs.DFSClient: Could not obtain blockblk_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: java.io.IOException: No livenodes contain current block. Will get new block locations from namenode andretry...
8)繼承hadoop安裝的說明:
每個機子/etc/hosts
10.64.56.74 node2 (master)
10.64.56.76 node1 (slave)
10.64.56.77 node3 (slave)
9) 繼續使用hadoop使用者安裝
Chown –R hadoop /usr/local/hbase
3 分散式模式配置
3.1配置conf/hbase-env.sh
# exportJAVA_HOME=/usr/java/jdk1.6.0/
exportJAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.26
# Tell HBase whether it should manage it'sown instance of Zookeeper or not.
export HBASE_MANAGES_ZK=true
不管是什麼模式,你都需要編輯 conf/hbase-env.sh
來告知Hbase java的安裝路徑.在這個檔案裡你還可以設定Hbase的執行環境,諸如 heapsize和其他 JVM有關的選項, 還有Log檔案地址,等等. 設定 JAVA_HOME
指向 java安裝的路徑.
一個分散式執行的Hbase依賴一個zookeeper叢集。所有的節點和客戶端都必須能夠訪問zookeeper。預設的情況下Hbase會管理一個zookeep叢集。這個叢集會隨著Hbase的啟動而啟動。當然,你也可以自己管理一個zookeeper叢集,但需要配置Hbase。你需要修改conf/hbase-env.sh
裡面的HBASE_MANAGES_ZK
來切換。這個值預設是true的,作用是讓Hbase啟動的時候同時也啟動zookeeper.
讓Hbase使用一個現有的不被Hbase託管的Zookeep叢集,需要設定 conf/hbase-env.sh
檔案中的HBASE_MANAGES_ZK
屬性為 false
# Tell HBase whether it should manage it's own instanceof Zookeeper or not.
exportHBASE_MANAGES_ZK=false
3.2 配置conf/hbase-site.xml
- <configuration>
- <property>
- <name>hbase.rootdir</name>
- <value>hdfs://node1:49002/hbase</value>
- <description>The directory shared byRegionServers.
- </description>
- </property>
- <property>
- <name>hbase.cluster.distributed</name>
- <value>true</value>
- <description>The mode the clusterwill be in. Possible values are
- false: standalone and pseudo-distributedsetups with managed Zookeeper
- true: fully-distributed with unmanagedZookeeper Quorum (see hbase-env.sh)
- </description>
- </property>
- <property>
- <name>hbase.zookeeper.property.clientPort</name>
- <value>2222</value>
- <description>Property fromZooKeeper's config zoo.cfg.
- The port at which the clients willconnect.
- </description>
- </property>
- <property>
- <name>hbase.zookeeper.quorum</name>
- <value>node1,node2,node3</value>
- <description>Comma separated listof servers in the ZooKeeper Quorum.
- For example,"host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".
- By default this is set to localhost forlocal and pseudo-distributed modes
- of operation. For a fully-distributedsetup, this should be set to a full
- list of ZooKeeper quorum servers. IfHBASE_MANAGES_ZK is set in hbase-env.sh
- this is the list of servers which we willstart/stop ZooKeeper on.
- </description>
- </property>
- <property>
- <name>hbase.zookeeper.property.dataDir</name>
- <value>/home/hadoop/zookeeper</value>
- <description>Property fromZooKeeper's config zoo.cfg.
- The directory where the snapshot isstored.
- </description>
- </property>
- </configuration>
要想執行完全分散式模式,加一個屬性 hbase.cluster.distributed
設定為 true
然後把 hbase.rootdir
設定為HDFS的NameNode的位置。 例如,你的namenode執行在node1,埠是49002 你期望的目錄是 /hbase
,使用如下的配置:hdfs://node1:49002/hbase
hbase.rootdir:這個目錄是region server的共享目錄,用來持久化Hbase。URL需要是'完全正確'的,還要包含檔案系統的scheme。例如,要表示hdfs中的'/hbase'目錄,namenode 執行在node1的9090埠。則需要設定為hdfs://node1:49002/hbase。預設情況下Hbase是寫到/tmp的。不改這個配置,資料會在重啟的時候丟失。預設: file:///tmp/hbase-${user.name}/hbase
hbase.cluster.distributed :Hbase的執行模式。false是單機模式,true是分散式模式。若為false,Hbase和Zookeeper會執行在同一個JVM裡面。
預設: false
在hbase-site.xml配置zookeeper:
當Hbase管理zookeeper的時候,你可以通過修改zoo.cfg來配置zookeeper,
一個更加簡單的方法是在 conf/hbase-site.xml裡面修改zookeeper的配置。Zookeeer的配置是作為property寫在 hbase-site.xml裡面的。
對於zookeepr的配置,你至少要在 hbase-site.xml中列出zookeepr的ensemble servers,具體的欄位是 hbase.zookeeper.quorum. 該這個欄位的預設值是 localhost,這個值對於分散式應用顯然是不可以的. (遠端連線無法使用)。
hbase.zookeeper.property.clientPort:ZooKeeper的zoo.conf中的配置。 客戶端連線的埠。
hbase.zookeeper.quorum:Zookeeper叢集的地址列表,用逗號分割。例如:"host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".預設是localhost,是給偽分散式用的。要修改才能在完全分散式的情況下使用。如果在hbase-env.sh設定了HBASE_MANAGES_ZK,這些ZooKeeper節點就會和Hbase一起啟動。
預設: localhost
執行一個zookeeper也是可以的,但是在生產環境中,你最好部署3,5,7個節點。部署的越多,可靠性就越高,當然只能部署奇數個,偶數個是不可以的。你需要給每個zookeeper 1G左右的記憶體,如果可能的話,最好有獨立的磁碟。 (獨立磁碟可以確保zookeeper是高效能的。).如果你的叢集負載很重,不要把Zookeeper和RegionServer執行在同一臺機器上面。就像DataNodes 和 TaskTrackers一樣
hbase.zookeeper.property.dataDir:ZooKeeper的zoo.conf中的配置。 快照的儲存位置
把ZooKeeper儲存資料的目錄地址改掉。預設值是 /tmp ,這裡在重啟的時候會被作業系統刪掉,可以把它修改到 /home/hadoop/zookeeper (這個路徑hadoop使用者擁有操作許可權)
對於獨立的Zookeeper,要指明Zookeeper的host和埠。可以在 hbase-site.xml中設定, 也可以在Hbase的CLASSPATH下面加一個zoo.cfg配置檔案。 HBase 會優先載入 zoo.cfg 裡面的配置,把hbase-site.xml裡面的覆蓋掉.
3.3 配置conf/regionservers
Node1
Node2
完全分散式模式的還需要修改conf/regionservers
. 在這裡列出了你希望執行的全部 HRegionServer,一行寫一個host (就像Hadoop裡面的 slaves
一樣). 列在這裡的server會隨著叢集的啟動而啟動,叢集的停止而停止.
4 執行和確認你的安裝
4.1當Hbase託管ZooKeeper的時候
當Hbase託管ZooKeeper的時候Zookeeper叢集的啟動是Hbase啟動指令碼的一部分
首先確認你的HDFS是執行著的。你可以執行HADOOP_HOME
中的 bin/start-hdfs.sh
來啟動HDFS.你可以通過put命令來測試放一個檔案,然後有get命令來讀這個檔案。通常情況下Hbase是不會執行mapreduce的。所以比不需要檢查這些。
用如下命令啟動Hbase:
bin/start-hbase.sh
這個指令碼在HBASE_HOME
目錄裡面。
你現在已經啟動Hbase了。Hbase把log記在 logs
子目錄裡面. 當Hbase啟動出問題的時候,可以看看Log.
Hbase也有一個介面,上面會列出重要的屬性。預設是在Master的60010埠上H (HBase RegionServers 會預設繫結 60020埠,在埠60030上有一個展示資訊的介面 ).如果Master執行在 node1
,埠是預設的話,你可以用瀏覽器在 http://node:60010
看到主介面. .
一旦Hbase啟動,可以看到如何建表,插入資料,scan你的表,還有disable這個表,最後把它刪掉。
可以在Hbase Shell停止Hbase
$./bin/stop-hbase.sh
stoppinghbase...............
停止操作需要一些時間,你的叢集越大,停的時間可能會越長。如果你正在執行一個分散式的操作,要確認在Hbase徹底停止之前,Hadoop不能停.
4.2獨立的zookeeper啟動,
除了啟動habse,
執行:bin/start-hbase.sh啟動habse
你需要自己去執行zookeeper:
${HBASE_HOME}/bin/hbase-daemons.sh {start,stop} zookeeper
你可以用這條命令啟動ZooKeeper而不啟動Hbase. HBASE_MANAGES_ZK 的值是 false, 如果你想在Hbase重啟的時候不重啟ZooKeeper,你可以這樣。
5.測試:
可以使用jps檢視程序:在master上:
在node2,node3(slave節點)上
通過瀏覽器檢視60010埠:
6 在安裝中出現的問題:
1 )
用./start-hbase.sh啟動HBase後,執行hbase shell
# bin/hbase shell
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Version: 0.20.6, rUnknown, Thu Oct 28 19:02:04 CST 2010
接著建立表時候出現如下情況:hbase(main):001:0> create 'test',''c
NativeException: org.apache.hadoop.hbase.MasterNotRunningException: null
jps下,發現主節點上HMaster沒有啟動,查理HBase log(logs/hbase-hadoop-master-ubuntu.log)裡有下面異常:
FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.
java.io.IOException: Call to node1/10.64.56.76:49002 failed on local exception: java.io.EOFException
從hadoop_home/下面cp一個hadoop/hadoop-core-0.20.203.0.jar到hbase_home/lib下。
因為Hbase建立在Hadoop之上,所以他用到了hadoop.jar,這個Jar在 lib 裡面。這個jar是hbase自己打了branch-0.20-append 補丁的hadoop.jar. Hadoop使用的hadoop.jar和Hbase使用的 必須 一致。所以你需要將 Hbaselib 目錄下的hadoop.jar替換成Hadoop裡面的那個,防止版本衝突。比方說CDH的版本沒有HDFS-724而branch-0.20-append裡面有,這個HDFS-724補丁修改了RPC協議。如果不替換,就會有版本衝突,繼而造成嚴重的出錯,Hadoop會看起來掛了。
再用./start-hbase.sh啟動HBase後,jps下,發現主節點上HMaster還是沒有啟動,在HBase log裡有下面異常:
FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.
java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration
解決:
在NoClassDefFoundError,缺少 org/apache/commons/configuration/Configuration
果斷給他加一個commons-configuration包,
從hadoop_home/lib下面cp一個hadoop/lib/commons-configuration-1.6.jar到hbase_home/lib下。
(叢集上所有機子的hbase配置都需要一樣)
2 注意事項:
1)、先啟動hadoop後,再開啟hbase2)、去掉hadoop的安全模式:hadoop dfsadmin -safemode leave
3)、把/etc/hosts裡的ubuntu的IP改為伺服器當前的IP
4) 、確認hbase的hbase-site.xml中
<name>hbase.rootdir</name>
<value>hdfs://node:49002/hbase</value>
與hadoop的core-site.xml中
<name>fs.default.name</name>
<value>hdfs://node:49002/hbase</value>
紅字部分保持一致
<value>hdfs://localhost:8020/hbase</value>
6)、重新執行./start-hbase.sh之前,先kill掉當前的hbase和zookeeper程序
PS:遇到問題時,先檢視logs,很有幫助。
HBase 官方文件,全面介紹hbase安裝配置: