hbase熱點問題解決（預分割槽）

阿新 • • 發佈：2019-01-16

一、出現熱點問題原因

1、hbase的中的資料是按照字典序排序的，當大量連續的rowkey集中寫在個別的region，各個region之間資料分佈不均衡；

2、建立表時沒有提前預分割槽，建立的表預設只有一個region，大量的資料寫入當前region；

3、建立表已經提前預分割槽，但是設計的rowkey沒有規律可循，設計的rowkey應該由regionNo+messageId組成。

二、如何解決熱點問題

設計可以讓資料分佈均勻的rowkey，與nosql資料庫們一樣,rowkey是用來檢索記錄的主鍵。訪問hbase table中的行，rowkey 可以是任意字串(最大長度是 64KB，實際應用中長度一般為 10-100bytes)，在hbase內部，rowkey儲存為位元組陣列，儲存時，資料按照rowkey的字典序排序儲存。

建立表命令：

create 'testTable',{NAME => 'cf', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE=> '0', VERSIONS => '1', COMPRESSION => 'snappy', MIN_VERSIONS =>'0', TTL => '15552000', KEEP_DELETED_CELLS => 'false', BLOCKSIZE =>'65536', IN_MEMORY => 'false', BLOCKCACHE => 'true', METADATA =>{'ENCODE_ON_DISK' => 'true'}},{SPLITS_FILE=>'/app/soft/hbaseregionsplist/region.txt'}

region.txt內容：

我這裡預分10個region，建立表之後，在hbae的ui中可以看到以下資訊，說明分預期ok了！！！

1、第一種設計rowkey方式：隨機數+messageId，如果想讓最近的資料快速get到，可以將時間戳加上

regionNum=10，因為我預分10個region

這種設計的rowkey可以解決熱點問題，但是要建立關聯表，比如將rowkey儲存到資料庫或者nosql資料庫中，因為前面的regionNo是隨機的，不知道對應資料在hbase的rowkey是多少；同一批資料，因為這個regionNo是隨機的，所以要到多個region中get資料，不能使用startkey和endkey去get資料。

2、第二種設計rowkey的方式：通過messageId對映regionNo，這樣既可以讓資料均勻分佈到各個region中，同時可以根據startkey和endkey可以get到同一批資料

messageId對映regionNo，使用一致性hash演算法解決，一致性雜湊演算法在1997年由麻省理工學院的Karger等人在解決分散式Cache中提出的，設計目標是為了解決因特網中的熱點(Hot spot)問題，參考(https://baike.baidu.com/item/%E4%B8%80%E8%87%B4%E6%80%A7%E5%93%88%E5%B8%8C/2460889?fr=aladdin）

（https://www.cnblogs.com/lpfuture/p/5796398.html）

public class ConsistentHash<T> implements Serializable{
    private static final long serialVersionUID = 1L;
    private  final HashFunction hashFunction;
    //每個regions的虛擬節點個數
private final int numberOfReplicas;
    //儲存虛擬節點的hash值到真實節點的對映
private final SortedMap<Long, String> circle = new TreeMap<Long, String>();
    public ConsistentHash(HashFunction hashFunction, int numberOfReplicas, Collection<String> nodes) {
        this.hashFunction = hashFunction;
        this.numberOfReplicas = numberOfReplicas;
        for (String node : nodes){
            add(node);
        }
    }
    /**
     * 新增節點
     * @param node
* @see java.util.TreeMap
     * */
public void add(String node) {
        for (int i = 0; i < numberOfReplicas; i++)
             /*
              * 不同的虛擬節點(i不同)有不同的hash值,但都對應同一個實際機器node
              * 虛擬node一般是均衡分佈在環上的,資料儲存在順時針方向的虛擬node上
              */
circle.put(hashFunction.getHashValue(node.toString() + i), node);
    }
    /**
     * 移除節點
     * @param node
* @see java.util.TreeMap
     * */
public void remove(String node) {
        for (int i = 0; i < numberOfReplicas; i++)
            circle.remove(hashFunction.getHashValue(node.toString() + i));
    }
    /**
     * 獲取對應key的hashcode值，然後根據hashcode獲取當前資料儲存的真實節點
     * */
public String get(Object key) {
        if (circle.isEmpty())
            return null;
        //獲取對應key的hashcode值
long hash = hashFunction.getHashValue((String) key);
        //資料對映在兩臺虛擬機器器所在環之間,就需要按順時針方向尋找機器
if (!circle.containsKey(hash)) {
            SortedMap<Long, String> tailMap = circle.tailMap(hash);
            hash = tailMap.isEmpty() ? circle.firstKey() : tailMap.firstKey();
        }
        return circle.get(hash);
    }
    /**
     * 獲取hash環節點大小
     * @return
* */
public long getSize() {
        return circle.size();
    }
    /**
     * 獲取double型別資料的小數位後四位小數
     * @param num
* @return
* */
public String getDecimalPoint(double num){
        DecimalFormat df = new DecimalFormat("0.0000");
        return df.format(num);
    }

}

public class HashFunction implements Serializable{
    private static final long serialVersionUID = 1L;
    /**
     * 獲取對應字串的hashCode值
     * @param key
* @return
* */
public  long getHashValue(String key) {
        final int p = 167776199999;
        int hash = (int) 216613626111L;
        for (int i = 0; i < key.length(); i++)
            hash = (hash ^ key.charAt(i)) * p;
        hash += hash << 13;
        hash ^= hash >> 8;
        hash += hash << 3;
        hash ^= hash >> 18;
        hash += hash << 5;
        // 如果算出來的值為負數則取其絕對值
if (hash < 0)
            hash = Math.abs(hash);
        return hash;
    }}

 這樣可以通過messageId映射出regionNo，最後得到rowkey。

我目前滿意第二種方式，然後在es中建立關聯表，get資料時，現在es中get到rowkey，然後在hbase中獲取資料，這個根據自己的業務設計。

寫的內容有問題，歡迎來吐槽，我會及時修改，謝謝！

hbase熱點問題解決（預分割槽）

hbase熱點問題解決（預分割槽）

4、CORS跨域請求限制與解決（預請求）

阿裏雲手動搭建k8s搭建中遇到的問題解決（持續更新）

HihoCoder 1640 : 命名的煩惱（預處理）（好題）

xfire沖突問題解決（maven配置）

Citrix問題和解決（持續更新）

spark2.2.0：記錄一次資料傾斜的解決（擴容join）！

Hbase偽分散式（成功實施）

C語言（預處理）

atom中latex配置問題的解決（元件缺失）

記錄某專案中的踩坑與解決（持續更新）

記錄某項目中的踩坑與解決（持續更新）

power designer16.5 連線資料庫以及 Could not Initialize JavaVM! 和SQLSTATE = IM014錯誤的解決（詳細圖文）

2018全國大學生數學建模競賽頒獎儀式直播現場（預存）

Android系列Viewpager+Fragment 優化之懶載入（預載入）的實現

Sql Server資料庫解決（單個使用者）打開不了資料庫的問題

【Swiper】4.3.2 自動滾屏錯位問題解決（含demo）

運維老司機帶你出坑：複雜故障的排查及解決（案例實錄）

HBase利用observer（協處理器）建立二級索引

【windows核心驅動開發】檔案系統微過濾驅動Minifilter——繫結指定的卷（磁碟分割槽）

hbase熱點問題解決（預分割槽）

相關推薦