Hbase 提高寫入效率之預分割槽

阿新 • • 發佈：2019-01-09

背景：HBase預設建表時有一個region，這個region的rowkey是沒有邊界的，即沒有startkey和endkey，在資料寫入時，所有資料都會寫入這個預設的region，隨著資料量的不斷增加，此region已經不能承受不斷增長的資料量，會進行split，分成2個region。在此過程中，會產生兩個問題：1.資料往一個region上寫,會有寫熱點問題。2.region split會消耗寶貴的叢集I/O資源。基於此我們可以控制在建表的時候，建立多個空region，並確定每個region的起始和終止rowky，這樣只要我們的rowkey設計能均勻的命中各個region，就不會存在寫熱點問題。自然split的機率也會大大降低。當然隨著資料量的不斷增長，該split的還是要進行split。像這樣預先建立hbase表分割槽的方式，稱之為預分割槽，下面給出一種預分割槽的實現方式:
首先看沒有進行預分割槽的表，startkey和endkey為空。

要進行預分割槽，首先要明確rowkey的取值範圍或構成邏輯，以我的rowkey組成為例:兩位隨機數+時間戳+客戶號，兩位隨機數的範圍從00-99，於是我劃分了10個region來儲存資料,每個region對應的rowkey範圍如下：
-10,10-20,20-30,30-40,40-50,50-60,60-70,70-80,80-90,90-

在使用HBase API建表的時候，需要產生splitkeys二維陣列,這個陣列儲存的rowkey的邊界值。下面是java 程式碼實現:

String[] keys = new String[] { "10|", "20|", "30|", "40|", "50|",  
                "60|", "70|", "80|", "90|" };  
        byte[][] splitKeys = new byte[keys.length][];  
        TreeSet<byte[]> rows = new TreeSet<byte[]>(Bytes.BYTES_COMPARATOR);//升序排序  
        for (int i = 0; i < keys.length; i++) {  
            rows.add(Bytes.toBytes(keys[i]));  
        }  
        Iterator<byte[]> rowKeyIter = rows.iterator();  
        int i=0;  
        while (rowKeyIter.hasNext()) {  
            byte[] tempRow = rowKeyIter.next();  
            rowKeyIter.remove();  
            splitKeys[i] = tempRow;  
            i++;  
        }  
        return splitKeys;

需要注意的是，在上面的程式碼中用treeset對rowkey進行排序，必須要對rowkey排序，否則在呼叫admin.createTable(tableDescriptor,splitKeys)的時候會出錯。建立表的程式碼如下:

* 建立預分割槽hbase表 
     * @param tableName 表名 
     * @param columnFamily 列簇 
     * @return 
     */  
    @SuppressWarnings("resource")  
    public boolean createTableBySplitKeys(String tableName, List<String> columnFamily) {  
        try {  
            if (StringUtils.isBlank(tableName) || columnFamily == null  
                    || columnFamily.size() < 0) {  
                log.error("===Parameters tableName|columnFamily should not be null,Please check!===");  
            }  
            HBaseAdmin admin = new HBaseAdmin(conf);  
            if (admin.tableExists(tableName)) {  
                return true;  
            } else {  
                HTableDescriptor tableDescriptor = new HTableDescriptor(  
                        TableName.valueOf(tableName));  
                for (String cf : columnFamily) {  
                    tableDescriptor.addFamily(new HColumnDescriptor(cf));  
                }  
                byte[][] splitKeys = getSplitKeys();  
                admin.createTable(tableDescriptor,splitKeys);//指定splitkeys  
                log.info("===Create Table " + tableName  
                        + " Success!columnFamily:" + columnFamily.toString()  
                        + "===");  
            }  
        } catch (MasterNotRunningException e) {  
            // TODO Auto-generated catch block  
            log.error(e);  
            return false;  
        } catch (ZooKeeperConnectionException e) {  
            // TODO Auto-generated catch block  
            log.error(e);  
            return false;  
        } catch (IOException e) {  
            // TODO Auto-generated catch block  
            log.error(e);  
            return false;  
        }  
        return true;  
    }

在hbase shell中輸入命令san 'hbase:meta'檢視建表結果:

從上圖可看出10個region均勻的分佈在了3臺regionserver上(叢集就3臺機器regionserver)，達到預期效果。還可以在hbase的web UI介面中更加直觀的檢視建表的預分割槽資訊。

再看看寫資料是否均勻的命中各個region，是否能夠做到對寫請求的負載均衡：

public class TestHBasePartition {  
public static void main(String[] args) throws Exception{  
   HBaseAdmin admin = new HBaseAdmin(conf);  
   HTable table = new HTable(conf, "testhbase");  
   table.put(batchPut());  
}  
  
private static String getRandomNumber(){  
        String ranStr = Math.random()+"";  
        int pointIndex = ranStr.indexOf(".");  
        return ranStr.substring(pointIndex+1, pointIndex+3);  
    }  
      
    private static List<Put> batchPut(){  
        List<Put> list = new ArrayList<Put>();  
        for(int i=1;i<=10000;i++){  
            byte[] rowkey = Bytes.toBytes(getRandomNumber()+"-"+System.currentTimeMillis()+"-"+i);  
            Put put = new Put(rowkey);  
            put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("zs"+i));  
            list.add(put);  
        }  
        return list;  
    }  
}

publicclass TestHBasePartition {
publicstaticvoid main(String[] args) throws Exception{
HBaseAdmin admin = new HBaseAdmin(conf);
HTable table = new HTable(conf, "testhbase");
table.put(batchPut());
}
privatestatic String getRandomNumber(){
String ranStr = Math.random()+"";
int pointIndex = ranStr.indexOf(".");
return ranStr.substring(pointIndex+1, pointIndex+3);
}
privatestatic List<Put> batchPut(){
List<Put> list = new ArrayList<Put>();
for(int i=1;i<=10000;i++){
byte[] rowkey = Bytes.toBytes(getRandomNumber()+"-"+System.currentTimeMillis()+"-"+i);
Put put = new Put(rowkey);
put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("zs"+i));
list.add(put);
}
return list;
}
}</span>

我寫了1萬條資料，從Write Request Count一欄可以檢視寫請求是否均勻的分佈到3臺機器上，實測我的達到目標，完成。參考文章:

Hbase 提高寫入效率之預分割槽

Hbase 提高寫入效率之預分割槽

Hbase優化之預分割槽

Hbase優化之預分割槽設計

hbase熱點問題解決（預分割槽）

mysql儲存過程的學習(mysql提高執行效率之進階過程)

提高開發效率之tomcat免重啟(隨意更改java程式碼)

常用操作提高效率之 for 與in

parallels desktop for mac安裝虛擬機之parallelsdesktop密鑰以及 parallels desktop安裝win10的辦公推薦可以提高辦公效率

HBase表設計----預分割槽和雜湊儲存

提高效率之常用開發工具

前端開發提高效率之快速輸入標籤

mysql通過建立分割槽和索引來提高查詢效率

提高效率之python的多執行緒

Hbase 表預分割槽----手動分割槽

iOS開發之總結幾個提高開發效率的小技巧

Hbase 建表預分割槽

HBase的預分割槽設計（很實用的一篇文章）

HBase RowKey雜湊和預分割槽

hbase api常用方法使用及預分割槽解決熱點問題

springboot系列之04-提高開發效率必備工具lombok

Hbase 提高寫入效率之 預分割槽

相關推薦

Hbase 提高寫入效率之預分割槽