hadoop學習筆記之-hbase完全分佈模式安裝-5

阿新 • • 發佈：2021-12-22

http://blog.csdn.net/lichangzai/article/details/8441975

http://blog.csdn.net/jpiverson/article/details/9130447

http://linux.it.net.cn/m/view.php?aid=11973 ---講解很詳細

hadoop+zookeeper+hbase叢集配置（二）

時間:2015-01-14 14:30來源:linux.it.net.cn 作者:IT

1.快速單機安裝：

在單機安裝Hbase的方法。會引導你通過shell建立一個表，插入一行，然後刪除它，最後停止Hbase。只要10分鐘就可以完成以下的操作。

1.1下載解壓最新版本

選擇一個Apache 下載映象：http://www.apache.org/dyn/closer.cgi/hbase/，下載一個releases版本的，目前是0.94.8.然後下載字尾為.tar.gz的檔案; 例如hbase-0.94.8.tar.gz.

$ tar xfz hbase-0.94.8.tar.gz
$ cd hbase-0.94.8

現在你已經可以啟動Hbase了。但是你可能需要先編輯conf/hbase-site.xml去配置hbase.rootdir，來選擇Hbase將資料寫到哪個目錄 .

<?xmlversion="1.0"?>
<?xml-stylesheettype="text/xsl"href="configuration.xsl"?>
<configuration>
<property>
<name>hbase.rootdir</name>
<value>file:///DIRECTORY/hbase</value>
</property>
</configuration>

將DIRECTORY替換成你期望寫檔案的目錄. 預設hbase.rootdir是指向/tmp/hbase-${user.name}，也就說你會在重啟後丟失資料(重啟的時候作業系統會清理/tmp目錄)

1.2.啟動 HBase

現在啟動Hbase:

$ ./bin/start-hbase.sh

starting Master, logging to logs/hbase-user-master-example.org.out

現在你執行的是單機模式的Hbaes。所以的服務都執行在一個JVM上，包括Hbase和Zookeeper。Hbase的日誌放在logs目錄,當你啟動出問題的時候，可以檢查這個日誌。

1.3.Hbase Shell 練習

用shell連線你的Hbase

$ ./bin/hbase shell

HBase Shell; enter 'help<RETURN>' for list of supported commands.

Type "exit<RETURN>" to leave the HBase Shell

Version: 0.90.0, r1001068, Fri Sep 24 13:55:42 PDT 2010

hbase(main):001:0>

輸入help然後<RETURN>可以看到一列shell命令。這裡的幫助很詳細，要注意的是表名，行和列需要加引號。

建立一個名為test的表，這個表只有一個column family 為cf。可以列出所有的表來檢查建立情況，然後插入些值。

hbase(main):003:0> create 'test', 'cf'

0 row(s) in 1.2200 seconds

hbase(main):003:0> list 'table'

test

1 row(s) in 0.0550 seconds

hbase(main):004:0> put 'test', 'row1', 'cf:a', 'value1'

0 row(s) in 0.0560 seconds

hbase(main):005:0> put 'test', 'row2', 'cf:b', 'value2'

0 row(s) in 0.0370 seconds

hbase(main):006:0> put 'test', 'row3', 'cf:c', 'value3'

0 row(s) in 0.0450 seconds

以上我們分別插入了3行。第一個行key為row1, 列為cf:a，值是value1。Hbase中的列是由 column family字首和列的名字組成的，以冒號間隔。例如這一行的列名就是a.

檢查插入情況.

Scan這個表，操作如下

hbase(main):007:0> scan 'test'

ROW COLUMN+CELL

row1 column=cf:a, timestamp=1288380727188, value=value1

row2 column=cf:b, timestamp=1288380738440, value=value2

row3 column=cf:c, timestamp=1288380747365, value=value3

3 row(s) in 0.0590 seconds

Get一行，操作如下

hbase(main):008:0> get 'test', 'row1'

COLUMN CELL

cf:a timestamp=1288380727188, value=value1

1 row(s) in 0.0400 seconds

disable 再 drop 這張表，可以清除你剛剛的操作

hbase(main):012:0> disable 'test'

0 row(s) in 1.0930 seconds

hbase(main):013:0> drop 'test'

0 row(s) in 0.0770 seconds

關閉shell

hbase(main):014:0> exit

1.4.停止 HBase

執行停止指令碼來停止HBase.

$ ./bin/stop-hbase.sh

stopping hbase...............

2 Hbase叢集安裝前注意

1）Java：（hadoop已經安裝了）

2）Hadoop1.2.0已經正確安裝，並且可以啟動 HDFS 系統, 可參考的Hadoop安裝文件：hadoop+zookeeper+hbase叢集配置（一）http://blog.csdn.net/jpiverson/article/details/9130447

3）NTP：叢集的時鐘要保證基本的一致。稍有不一致是可以容忍的，但是很大的不一致會造成奇怪的行為。執行NTP或者其他什麼東西來同步你的時間.

如果你查詢的時候或者是遇到奇怪的故障，可以檢查一下系統時間是否正確!

設定叢集各個節點時鐘：date -s“2012-02-13 14:00:00”

4）ulimit和nproc:

Base是資料庫，會在同一時間使用很多的檔案控制代碼。大多數linux系統使用的預設值1024是不能滿足的，會導致FAQ: Why do I see "java.io.IOException...(Too manyopen files)" in my logs?異常。還可能會發生這樣的異常

2010-04-06 03:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient: ExceptionincreateBlockOutputStream java.io.EOFException

2010-04-06 03:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient:Abandoning block blk_-6935524980745310745_1391901

所以你需要修改你的最大檔案控制代碼限制。可以設定到10k. 你還需要修改 hbase 使用者的 nproc，如果過低會造成 OutOfMemoryError異常。 [2] [3].

需要澄清的，這兩個設定是針對作業系統的，不是Hbase本身的。有一個常見的錯誤是Hbase執行的使用者，和設定最大值的使用者不是一個使用者。在Hbase啟動的時候，第一行日誌會現在ulimit資訊，所以你最好檢查一下。

設定ulimit:

如果你使用的是Ubuntu,你可以這樣設定:

在檔案/etc/security/limits.conf新增一行，如:

hadoop - nofile32768

可以把hadoop替換成你執行Hbase和Hadoop的使用者。如果你用兩個使用者，你就需要配兩個。還有配nproc hard 和 softlimits. 如:

hadoop soft/hard nproc 32000

在/etc/pam.d/common-session加上這一行:

session requiredpam_limits.so

否則在/etc/security/limits.conf上的配置不會生效.

還有登出再登入，這些配置才能生效!

7 ）修改Hadoop HDFS Datanode同時處理檔案的上限：dfs.datanode.max.xcievers

一個 Hadoop HDFS Datanode 有一個同時處理檔案的上限. 這個引數叫xcievers(Hadoop的作者把這個單詞拼錯了). 在你載入之前，先確認下你有沒有配置這個檔案conf/hdfs-site.xml裡面的xceivers引數，至少要有4096:

<name>dfs.datanode.max.xcievers</name>

</property>

對於HDFS修改配置要記得重啟.

如果沒有這一項配置，你可能會遇到奇怪的失敗。你會在Datanode的日誌中看到xcievers exceeded，但是執行起來會報 missing blocks錯誤。例如:02/12/1220:10:31 INFO hdfs.DFSClient: Could not obtain blockblk_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: java.io.IOException: No livenodes contain current block. Will get new block locations from namenode andretry...

8）繼承hadoop安裝的說明：

每個機子/etc/hosts

192.168.10.203 node1 （master）

192.168.10.204 node2 （slave）

192.168.10.205 node3 （slave）

9) 繼續使用hadoop使用者安裝

Chown –R hadoop /usr/local/hbase

3 分散式模式配置

3.1配置`conf/hbase-env.sh`

exportJAVA_HOME=/usr/local/java/jdk1.6.0_45/

export HBASE_MANAGES_ZK=true

不管是什麼模式，你都需要編輯conf/hbase-env.sh來告知Hbasejava的安裝路徑.在這個檔案裡你還可以設定Hbase的執行環境，諸如 heapsize和其他JVM有關的選項, 還有Log檔案地址，等等. 設定JAVA_HOME指向java安裝的路徑.

一個分散式執行的Hbase依賴一個zookeeper叢集。所有的節點和客戶端都必須能夠訪問zookeeper。預設的情況下Hbase會管理一個zookeep叢集。這個叢集會隨著Hbase的啟動而啟動。當然，你也可以自己管理一個zookeeper叢集，但需要配置Hbase。你需要修改conf/hbase-env.sh裡面的HBASE_MANAGES_ZK來切換。這個值預設是true的，作用是讓Hbase啟動的時候同時也啟動zookeeper.

讓Hbase使用一個現有的不被Hbase託管的Zookeep叢集，需要設定conf/hbase-env.sh檔案中的HBASE_MANAGES_ZK屬性為 false

# Tell HBase whether it should manage it's own instanceof Zookeeper or not.

exportHBASE_MANAGES_ZK=false

3.2 配置conf/hbase-site.xml

<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://node1:49002/hbase</value>
<description>ThedirectorysharedbyRegionServers.
</description>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
<description>Themodetheclusterwillbein.Possiblevaluesare
false:standaloneandpseudo-distributedsetupswithmanagedZookeeper
true:fully-distributedwithunmanagedZookeeperQuorum(seehbase-env.sh)
</description>
</property>
<property>
<name>hbase.zookeeper.property.clientPort</name>
<value>2181</value>
<description>PropertyfromZooKeeper'sconfigzoo.cfg.
Theportatwhichtheclientswillconnect.
</description>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>node1,node2,node3</value>
<description>CommaseparatedlistofserversintheZooKeeperQuorum.
Forexample,"host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".
Bydefaultthisissettolocalhostforlocalandpseudo-distributedmodes
ofoperation.Forafully-distributedsetup,thisshouldbesettoafull
listofZooKeeperquorumservers.IfHBASE_MANAGES_ZKissetinhbase-env.sh
thisisthelistofserverswhichwewillstart/stopZooKeeperon.
</description>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/home/hadoop/zookeeper</value>
<description>PropertyfromZooKeeper'sconfigzoo.cfg.
Thedirectorywherethesnapshotisstored.
</description>
</property>
</configuration>

要想執行完全分散式模式，加一個屬性hbase.cluster.distributed設定為true然後把hbase.rootdir設定為HDFS的NameNode的位置。例如，你的namenode執行在node1，埠是49002 你期望的目錄是/hbase,使用如下的配置：hdfs://node1:49002/hbase

hbase.rootdir：這個目錄是region server的共享目錄，用來持久化Hbase。URL需要是'完全正確'的，還要包含檔案系統的scheme。例如，要表示hdfs中的'/hbase'目錄，namenode 執行在node1的9090埠。則需要設定為hdfs://node1:49002/hbase。預設情況下Hbase是寫到/tmp的。不改這個配置，資料會在重啟的時候丟失。預設:file:///tmp/hbase-${user.name}/hbase

hbase.cluster.distributed：Hbase的執行模式。false是單機模式，true是分散式模式。若為false,Hbase和Zookeeper會執行在同一個JVM裡面。

預設:false

在hbase-site.xml配置zookeeper：

當Hbase管理zookeeper的時候，你可以通過修改zoo.cfg來配置zookeeper，

一個更加簡單的方法是在conf/hbase-site.xml裡面修改zookeeper的配置。Zookeeer的配置是作為property寫在hbase-site.xml裡面的。

對於zookeepr的配置，你至少要在hbase-site.xml中列出zookeepr的ensemble servers，具體的欄位是hbase.zookeeper.quorum. 該這個欄位的預設值是localhost，這個值對於分散式應用顯然是不可以的. (遠端連線無法使用)。

hbase.zookeeper.property.clientPort：ZooKeeper的zoo.conf中的配置。客戶端連線的埠。

hbase.zookeeper.quorum：Zookeeper叢集的地址列表，用逗號分割。例如："host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".預設是localhost,是給偽分散式用的。要修改才能在完全分散式的情況下使用。如果在hbase-env.sh設定了HBASE_MANAGES_ZK，這些ZooKeeper節點就會和Hbase一起啟動。

預設:localhost

執行一個zookeeper也是可以的，但是在生產環境中，你最好部署3，5，7個節點。部署的越多，可靠性就越高，當然只能部署奇數個，偶數個是不可以的。你需要給每個zookeeper 1G左右的記憶體，如果可能的話，最好有獨立的磁碟。 (獨立磁碟可以確保zookeeper是高效能的。).如果你的叢集負載很重，不要把Zookeeper和RegionServer執行在同一臺機器上面。就像DataNodes 和 TaskTrackers一樣

hbase.zookeeper.property.dataDir：ZooKeeper的zoo.conf中的配置。快照的儲存位置

把ZooKeeper儲存資料的目錄地址改掉。預設值是/tmp，這裡在重啟的時候會被作業系統刪掉，可以把它修改到/home/hadoop/zookeeper(這個路徑hadoop使用者擁有操作許可權)

對於獨立的Zookeeper，要指明Zookeeper的host和埠。可以在hbase-site.xml中設定, 也可以在Hbase的CLASSPATH下面加一個zoo.cfg配置檔案。 HBase 會優先載入zoo.cfg裡面的配置，把hbase-site.xml裡面的覆蓋掉.

參見http://www.yankay.com/wp-content/hbase/book.html#hbase_default_configurations可以查詢hbase.zookeeper.property字首，找到關於zookeeper的配置。

3.3 配置conf/regionservers

Node1

Node2

完全分散式模式的還需要修改conf/regionservers.在這裡列出了你希望執行的全部HRegionServer，一行寫一個host (就像Hadoop裡面的slaves一樣). 列在這裡的server會隨著叢集的啟動而啟動，叢集的停止而停止.

4 執行和確認你的安裝

4.1當Hbase託管ZooKeeper的時候

當Hbase託管ZooKeeper的時候Zookeeper叢集的啟動是Hbase啟動指令碼的一部分

首先確認你的HDFS是執行著的。你可以執行HADOOP_HOME中的bin/start-hdfs.sh來啟動HDFS.你可以通過put命令來測試放一個檔案，然後有get命令來讀這個檔案。通常情況下Hbase是不會執行mapreduce的。所以比不需要檢查這些。

用如下命令啟動Hbase:

bin/start-hbase.sh

這個指令碼在HBASE_HOME目錄裡面。

你現在已經啟動Hbase了。Hbase把log記在logs子目錄裡面. 當Hbase啟動出問題的時候，可以看看Log.

Hbase也有一個介面，上面會列出重要的屬性。預設是在Master的60010埠上H (HBase RegionServers 會預設繫結 60020埠，在埠60030上有一個展示資訊的介面 ).如果Master執行在node1，埠是預設的話，你可以用瀏覽器在http://node:60010看到主介面. .

一旦Hbase啟動，可以看到如何建表，插入資料，scan你的表，還有disable這個表，最後把它刪掉。

可以在Hbase Shell停止Hbase

$./bin/stop-hbase.sh

stoppinghbase...............

停止操作需要一些時間，你的叢集越大，停的時間可能會越長。如果你正在執行一個分散式的操作，要確認在Hbase徹底停止之前，Hadoop不能停.

4.2獨立的zookeeper啟動，

除了啟動habse，

執行：bin/start-hbase.sh啟動habse

你需要自己去執行zookeeper：

${HBASE_HOME}/bin/hbase-daemons.sh {start,stop} zookeeper

你可以用這條命令啟動ZooKeeper而不啟動Hbase.HBASE_MANAGES_ZK的值是false，如果你想在Hbase重啟的時候不重啟ZooKeeper,你可以這樣。

5.測試：

可以使用jps檢視程序：在master上：

在node2，node3（slave節點）上

通過瀏覽器檢視60010埠：

6 在安裝中出現的問題：

1 ）

用./start-hbase.sh啟動HBase後，執行hbase shell
# bin/hbase shell
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Version: 0.20.6, rUnknown, Thu Oct 28 19:02:04 CST 2010
接著建立表時候出現如下情況：hbase(main):001:0> create 'test',''c
NativeException: org.apache.hadoop.hbase.MasterNotRunningException: null

jps下，發現主節點上HMaster沒有啟動，查理HBase log（logs/hbase-hadoop-master-ubuntu.log）裡有下面異常：
FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.
java.io.IOException: Call to node1/10.64.56.76:49002 failed on local exception: java.io.EOFException

解決：

從hadoop_home/下面cp一個hadoop/hadoop-core-1.2.0.jar到hbase_home/lib下。

因為Hbase建立在Hadoop之上，所以他用到了hadoop.jar,這個Jar在 lib 裡面。這個jar是hbase自己打了branch-0.20-append 補丁的hadoop.jar. Hadoop使用的hadoop.jar和Hbase使用的必須一致。所以你需要將 Hbaselib 目錄下的hadoop.jar替換成Hadoop裡面的那個，防止版本衝突。比方說CDH的版本沒有HDFS-724而branch-0.20-append裡面有，這個HDFS-724補丁修改了RPC協議。如果不替換，就會有版本衝突，繼而造成嚴重的出錯，Hadoop會看起來掛了。

再用./start-hbase.sh啟動HBase後，jps下，發現主節點上HMaster還是沒有啟動，在HBase log裡有下面異常：
FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.
java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration
解決：
在NoClassDefFoundError,缺少 org/apache/commons/configuration/Configuration
果斷給他加一個commons-configuration包，
從hadoop_home/lib下面cp一個hadoop/lib/commons-configuration-1.6.jar到hbase_home/lib下。

（叢集上所有機子的hbase配置都需要一樣）

2 注意事項：

1）、先啟動hadoop後，再開啟hbase
2）、去掉hadoop的安全模式：hadoop dfsadmin -safemode leave
3）、把/etc/hosts裡的ubuntu的IP改為伺服器當前的IP
4) 、確認hbase的hbase-site.xml中
<name>hbase.rootdir</name>
<value>hdfs://node：49002/hbase</value>
與hadoop的core-site.xml中
<name>fs.default.name</name>
<value>hdfs://node：49002/hbase</value>
紅字部分保持一致
<value>hdfs://localhost:8020/hbase</value>
6)、重新執行./start-hbase.sh之前，先kill掉當前的hbase和zookeeper程序

PS：遇到問題時，先檢視logs，很有幫助。

HBase 官方文件，全面介紹hbase安裝配置：