hbase原始碼系列（五）Trie單詞查詢樹

阿新 • • 發佈：2022-04-29

　　在上一章中提到了編碼壓縮，講了一個簡單的DataBlockEncoding.PREFIX演算法，它用的是前序編碼壓縮的演算法，它搜尋到時候，是全掃描的方式搜尋的，如此一來，搜尋效率實在是不敢恭維，所以在hbase當中單獨拿了一個工程出來實現了Trie的資料結果，既達到了壓縮編碼的效果，亦達到了方便查詢的效果，一舉兩得，設定的方法是在上一章的末尾提了。

　　下面講一下這個Trie樹的原理吧。

　　樹裡面有3中型別的資料結構，branch（分支）、leaf（葉子）、nub（節點）

1、branch 分支節點，比如圖中的t，以它為結果的詞並沒有出現過，但它是to、tea等次的分支的地方，單個t的詞沒有出現過。

2、leaf葉子節點，比如圖中的to，它下面沒有子節點了，並且出現了7次。

3、nub節點，它是結餘兩者之間的，比如i，它獨立出現了11次。

　　下面我們就具體說一下在hbase的工程裡面它是什麼樣子的，下面是一個例子：

* Example inputs (numInputs=7): 
* 0: AAA 
* 1: AAA 
* 2: AAB 
* 3: AAB 
* 4: AAB 
* 5: AABQQ 
* 6: AABQQ 
* <br/><br/> 
* Resulting TokenizerNodes: 
* AA <- branch, numOccurrences=0, tokenStartOffset=0, token.length=2 
* A  <- leaf, numOccurrences=2, tokenStartOffset=2, token.length=1 
* B  <- nub, numOccurrences=3, tokenStartOffset=2, token.length=1 
* QQ <- leaf, numOccurrences=2, tokenStartOffset=3, token.length=2

　　這裡面3個輔助欄位，numOccurrences（出現次數）、tokenStartOffset（在原詞當中的位置）、token.length（詞的長度）。

　　描述這個資料結構用了兩個類Tokenizer和TokenizerNode。

　　好，我們先看一下發起點PrefixTreeCodec，這個類是繼承自DataBlockEncoder介面的，DataBlockEncoder是專門負責編碼壓縮的，它裡面的有3個重要的方法，encodeKeyValues（編碼）、decodeKeyValues（反編碼）、createSeeker（建立掃描器）。

因此我們先看PrefixTreeCodec裡面的encodeKeyValues方法，這個是我們的入口，我們發現internalEncodeKeyValues是實際編碼的地方。

private void internalEncodeKeyValues(DataOutputStream encodedOutputStream, 
      ByteBuffer rawKeyValues, boolean includesMvccVersion) throws IOException { 
    rawKeyValues.rewind(); 
    PrefixTreeEncoder builder = EncoderFactory.checkOut(encodedOutputStream, includesMvccVersion);

    try{ 
      KeyValue kv; 
      while ((kv = KeyValueUtil.nextShallowCopy(rawKeyValues, includesMvccVersion)) != null) { 
        builder.write(kv); 
      } 
      builder.flush(); 
    }finally{ 
      EncoderFactory.checkIn(builder); 
    } 
}

　可以看到從rawKeyValues裡面不斷讀取kv出來，用PrefixTreeEncoder.write方法來進行編碼，最後呼叫flush進行輸出。

　　我們現在就進入PrefixTreeEncoder.write的方法裡面吧。

rowTokenizer.addSorted(CellUtil.fillRowRange(cell, rowRange)); 
addFamilyPart(cell); 
addQualifierPart(cell); 
addAfterRowFamilyQualifier(cell);

　　這裡就跳到Tokenizer.addSorted方法裡面

  public void addSorted(final ByteRange bytes) { 
    ++numArraysAdded; 
    //先檢查最大長度，如果它是最大，改變最大長度 
    if (bytes.getLength() > maxElementLength) { 
      maxElementLength = bytes.getLength(); 
    } 
    if (root == null) { 
      // 根節點
      root = addNode(null, 1, 0, bytes, 0); 
    } else { 
      root.addSorted(bytes); 
    } 
  }

　　如果root節點為空，就new一個root節點出來，有了根節點之後，就把節點新增到root節點的孩子佇列裡面。

　　下面貼一下addSorted的程式碼吧

public void addSorted(final ByteRange bytes) {// recursively build the tree

    /* 
     * 字首完全匹配，子節點也不為空，取出最後一個節點，和最後一個節點也部分匹配 
     * 就新增到最後一個節點的子節點當中 
     */ 
    if (matchesToken(bytes) && CollectionUtils.notEmpty(children)) { 
      TokenizerNode lastChild = CollectionUtils.getLast(children); 
      //和最後一個節點字首部分匹配 
      if (lastChild.partiallyMatchesToken(bytes)) { 
        lastChild.addSorted(bytes); 
        return; 
      } 
    }
//匹配長度 
    int numIdenticalTokenBytes = numIdenticalBytes(bytes);// should be <= token.length 
    //當前token的起始長度是不變的了，剩餘的尾巴的其實位置 
    int tailOffset = tokenStartOffset + numIdenticalTokenBytes; 
    //尾巴的長度 
    int tailLength = bytes.getLength() - tailOffset;

    if (numIdenticalTokenBytes == token.getLength()) { 
      //和該節點完全匹配 
      if (tailLength == 0) {// identical to this node (case 1) 
        incrementNumOccurrences(1); 
      } else {
        // 加到節點的下面，作為孩子 
        int childNodeDepth = nodeDepth + 1; 
        int childTokenStartOffset = tokenStartOffset + numIdenticalTokenBytes; 
        TokenizerNode newChildNode = builder.addNode(this, childNodeDepth, childTokenStartOffset, bytes, tailOffset); 
        addChild(newChildNode); 
      } 
    } else {
      split(numIdenticalTokenBytes, bytes); 
    } 
  }

1、我們先新增一個AAA進去，它是根節點，parent是null，深度為1，在原詞中起始位置為0。

2、新增一個AAA，它首先和之前的AAA相比，完全一致，走的是incrementNumOccurrences(1)，出現次數（numOccurrences）變成2。

3、新增AAB，它和AAA相比，匹配的長度為2，尾巴長度為1，那麼它走的是這條路split(numIdenticalTokenBytes, bytes)這條路徑

protected void split(int numTokenBytesToRetain, final ByteRange bytes) { 
    int childNodeDepth = nodeDepth; 
    int childTokenStartOffset = tokenStartOffset + numTokenBytesToRetain;

    //create leaf AA 先建立左邊的節點 
    TokenizerNode firstChild = builder.addNode(this, childNodeDepth, childTokenStartOffset, 
      token, numTokenBytesToRetain); 
    firstChild.setNumOccurrences(numOccurrences);// do before clearing this node's numOccurrences 
    //這一步很重要，更改原節點的長度，node節點記錄的資料不是一個簡單的byte[] 
    token.setLength(numTokenBytesToRetain);//shorten current token from BAA to B 
    numOccurrences = 0;//current node is now a branch

    moveChildrenToDifferentParent(firstChild);//point the new leaf (AA) to the new branch (B) 
    addChild(firstChild);//add the new leaf (AA) to the branch's (B's) children

    //create leaf 再建立右邊的節點
    TokenizerNode secondChild = builder.addNode(this, childNodeDepth, childTokenStartOffset, 
      bytes, tokenStartOffset + numTokenBytesToRetain); 
    addChild(secondChild);//add the new leaf (00) to the branch's (B's) children

    // 遞迴增加左右子樹的深度 
    firstChild.incrementNodeDepthRecursively(); 
    secondChild.incrementNodeDepthRecursively(); 
  }

split完成的效果：

1) 子節點的tokenStartOffset 等於父節點的tokenStartOffset 加上匹配的長度，這裡是0+2=2

2)建立左孩子，token為A，深度為父節點一致，出現次數和父親一樣2次

3）父節點的token長度變為匹配長度2，即（AA），出現次數置為0

4）把原來節點的子節點指向左孩子

5）把左孩子的父節點指向當前節點

6）建立右孩子，token為B，深度為父節點一致

7）把右孩子的父節點指向當前節點

8）把左右孩子的深度遞迴增加。

4、新增AAB，和AA完全匹配，最後一個孩子節點AAB也匹配，呼叫AAB節點的addSorted(bytes)，因為是完全匹配，所以和第二步一樣，B的出現次數加1

5、新增AABQQ，和AA完全匹配，最後一個孩子節點AAB也匹配，呼叫AAB節點的addSorted(bytes), 成為AAB的孩子

先走的這段程式碼，走進遞迴

if (matchesToken(bytes) && CollectionUtils.notEmpty(children)) { 
      TokenizerNode lastChild = CollectionUtils.getLast(children); 
      //和最後一個節點字首部分匹配 
      if (lastChild.partiallyMatchesToken(bytes)) { 
        lastChild.addSorted(bytes); 
        return; 
      } 
}

然後再走的這段程式碼

int childNodeDepth = nodeDepth + 1;  
int childTokenStartOffset = tokenStartOffset + numIdenticalTokenBytes; 
TokenizerNode newChildNode = builder.addNode(this, childNodeDepth, childTokenStartOffset, 
          bytes, tailOffset); 
addChild(newChildNode);

6、新增AABQQ，和之前的一樣，這裡就不重複了，增加QQ的出現次數

　　構建玩Trie樹之後，在flush的時候還做了很多操作，為這棵樹構建索引資訊，方便查詢，這塊博主真的無能為力了，不知道怎麼才能把這塊講好。

hbase原始碼系列（五）Trie單詞查詢樹

hbase原始碼系列（五）Trie單詞查詢樹

Spark原始碼系列（五）分散式快取

hbase原始碼系列（一）Balancer 負載均衡

hbase原始碼系列（十）HLog與日誌恢復

hbase原始碼系列（六）HMaster啟動過程

hbase原始碼系列（八）從Snapshot恢復表

hbase原始碼系列（七）Snapshot的過程

hbase原始碼系列（九）StoreFile儲存格式

hbase原始碼系列（十三）快取機制MemStore與Block Cache

hbase原始碼系列（四）資料模型-表定義和列族定義的具體含義

hbase原始碼系列（二）HTable 探祕

hbase原始碼系列（三）Client如何找到正確的Region Server

hbase原始碼系列（十五）終結篇&Scan續集-->如何查詢出來下一個KeyValue

HBase 系列（五）——HBase 常用 Shell 命令

Spring原理與原始碼分析系列（五）- Spring IoC原始碼分析（下）

hbase原始碼系列（十四）Compact和Split

hbase原始碼系列（十一）Put、Delete在服務端是如何處理？

hbase原始碼系列（十二）Get、Scan在服務端是如何處理？

Dubbo原始碼解析（五）註冊中心——multicast

Flink 系列（五）—— Flink Data Sink

hbase原始碼系列（五）Trie單詞查詢樹

相關推薦