實時系統HBase讀寫優化--大量寫入無障礙

阿新 • • 發佈：2019-01-22

在使用hbase過程中發現在寫入hbase的資料量很大時，經常發生寫不進去的情況。而我們基於hbase的應用是對實時性要求很高的，一旦hbase不能讀寫則會大大影響系統的使用。下面將記錄hbase寫優化的過程。

1.禁止Major Compaction

在hbase進行Major Compaction時，該region將合併所有的storefile，因此整個region都不可讀，所有對此region的查詢都會block。HBase預設一天左右執行一次Major Compaction。我們將Major Compaction禁掉並用Cron指令碼每天在系統空閒時對所有表執行major compaction。

Major Compaction的配置：

<spanstyle="font-size:18px;"><property>
<name>hbase.hregion.majorcompaction</name>
<value>0</value>
</property>

預設是1天，每個region會在建立時以當前時間初始化regionMajorCompactionTime，並將下一次的major compaction時間設為1+-0.2天。配置中將此值設為0禁止major compaction。

major_compaction的指令碼：取出所有table，一一執行major_compact：

TMP_FILE=tmp_tables
TABLES_FILE=tables.txt
echo "list" | hbase shell > tmp_tables
sleep 2
sed '1,6d' $TMP_FILE | tac | sed '1,2d' | tac > $TABLES_FILE
sleep 2
for table in $(cat $TABLES_FILE);

do
echo "major_compact '$table'" | hbase shell
sleep 10
done

2.禁掉split

hbase通過split region實現水平的sharding，但在split的過程中舊的region會下線，新region還會做compaction，中間有一段時間大量的資料不能被讀寫，這對於我們這種online系統是不能忍受的。我們同樣禁掉自動的split，而在晚上系統空閒時執行我們的splittool手動的split。

禁止split的配置：

<spanstyle="font-size:18px;"><property>
<name>hbase.hregion.max.filesize</name>
<value>536870912000</value>
</property>

配置項的含義是當region的大小大於設定值後hbase就會開始split，我們將此值設為500G，我們認為在白天系統繁忙時一個region不會超過此大小，在晚上時執行splittool將region分割開。

splittool的邏輯比較簡單。遍歷所有region的資訊，如果region大小大於某值（比如1G）則split該region，這樣為一輪split，如果一輪後沒有大於某值的region則結束，如果還有大於某個值的region則繼續新一輪split，直到沒有region大於某個閾值為止。這裡提一下判斷split完成的方法：通過檢查hdfs上舊region的資料夾是否被清除來判斷split是否結束。

3.設定blockingStoreFiles

這個引數的重要性是在我們的效能測試中發現的。我們禁掉major_compaction和split後理論上寫入應該無障礙了，但在測試中發現寫入單個region速度大於10M/s時還是會出現長時間無法寫入的情況。通過檢視log，我們發現了這行log“Waited 90314ms on a compaction to clean up 'too many store files'”，通過檢視程式碼發現原來是blockingStoreFiles這個引數在作怪。

在flushRegion時會檢測當前store中hfile的數量是否大於此值，如果大於則會block資料的寫入，等待其他執行緒將hfile compact掉。這樣，如果寫入速度超過compact的速度，hbase就會阻止該region的資料寫入。

privateboolean flushRegion(final FlushRegionEntry fqe) {
HRegion region = fqe.region;
if (!fqe.region.getRegionInfo().isMetaRegion() &&
isTooManyStoreFiles(region)) {
if (fqe.isMaximumWait(this.blockingWaitTime)) {
LOG.info("Waited " + (System.currentTimeMillis() - fqe.createTime) +
"ms on a compaction to clean up 'too many store files'; waited " +
"long enough... proceeding with flush of " +
region.getRegionNameAsString());
}

預設值為7

this.blockingStoreFilesNumber =
conf.getInt("hbase.hstore.blockingStoreFiles", 7);
if (this.blockingStoreFilesNumber == -1) {
this.blockingStoreFilesNumber = 1 +
conf.getInt("hbase.hstore.compactionThreshold", 3);
}

我們將此值設為很大的值，使得此問題不會block我們的寫入。

<spanstyle="font-size:18px;"><property>
<name>hbase.hstore.blockingStoreFiles</name>
<value>2100000000</value>

</property>

http://blog.csdn.net/mrtitan/article/details/8660280

實時系統HBase讀寫優化--大量寫入無障礙

實時系統HBase讀寫優化--大量寫入無障礙

hbase讀寫優化

Hbase高併發讀寫優化

hbase讀寫流程

Linux mount 修改文件系統的讀寫屬性

關於HBase讀寫數據的方法

Java: Hadoop檔案系統的讀寫操作

SSD和HDD下Linux系統的讀寫速度

Hbase讀寫過程

Hbase讀寫流程和定址機制

C#讀寫註冊列表(寫入註冊列表，讀取註冊列表的資料）

hbase讀寫原理（2）

hbase 讀寫資料流程----文字簡介

linux下檢視系統socket讀寫緩衝區

在安卓系統中讀寫資料

從HDFS檔案系統中讀寫檔案原理

python讀寫檔案file寫入到mysql

HBase-讀寫流程及JavaAPI

hbase學習教程（二）：HBase容錯性和Hbase使用場景、Hbase讀寫過程詳解

hbase 讀寫過程

實時系統HBase讀寫優化--大量寫入無障礙

相關推薦