hbase原始碼系列（四）資料模型-表定義和列族定義的具體含義

阿新 • • 發佈：2022-04-29

　hbase是一個KeyValue型的資料庫，在《hbase實戰》描述它的邏輯模型【行鍵，列族，列限定符，時間版本】，物理模型是基於列族的。但實際情況是啥？還是上點程式碼吧。

　　　　 HTableDescriptor tableDesc = new HTableDescriptor("test");
        //日誌flush的時候是同步寫，還是非同步寫
        tableDesc.setDurability(Durability.SYNC_WAL);
        //MemStore大小
        tableDesc.setMemStoreFlushSize(256*1024*1024);
        
        HColumnDescriptor colDesc = new HColumnDescriptor("f");
        //塊快取，儲存著每個HFile資料塊的startKey
        colDesc.setBlockCacheEnabled(true);
        //塊的大小，預設值是65536
        //載入到記憶體當中的資料塊越小，隨機查詢效能更好,越大，連續讀效能更好
        colDesc.setBlocksize(64*1024);
        //bloom過濾器，有ROW和ROWCOL，ROWCOL除了過濾ROW還要過濾列族
        colDesc.setBloomFilterType(BloomType.ROW);
        //寫的時候快取bloom
        colDesc.setCacheBloomsOnWrite(true);
        //寫的時候快取索引
        colDesc.setCacheIndexesOnWrite(true);
　　　　　//儲存的時候使用壓縮演算法
  　　　 colDesc.setCompressionType(Algorithm.SNAPPY);
        //進行compaction的時候使用壓縮演算法
        colDesc.setCompactionCompressionType(Algorithm.SNAPPY);
        //壓縮記憶體和儲存的資料，區別於Snappy
        colDesc.setDataBlockEncoding(DataBlockEncoding.PREFIX);
        //寫入硬碟的時候是否進行編碼
        colDesc.setEncodeOnDisk(true);
        //關閉的時候，是否剔除快取的塊
        colDesc.setEvictBlocksOnClose(true);
        //是否儲存那些已經刪除掉的kv
        colDesc.setKeepDeletedCells(false);
        //讓資料塊快取在LRU快取裡面有更高的優先順序
        colDesc.setInMemory(true);
        //最大最小版本
        colDesc.setMaxVersions(3);
        colDesc.setMinVersions(1);
        //叢集間複製的時候，如果被設定成REPLICATION_SCOPE_LOCAL就不能被複制了
        colDesc.setScope(HConstants.REPLICATION_SCOPE_GLOBAL);
        //生存時間
        colDesc.setTimeToLive(18000);
        
        tableDesc.addFamily(colDesc);

　　在上面列出來表定義和列族定義的所有引數，含義也標上去了，我們經常需要設定的可能就是下面的這些。

　　　　 //bloom過濾器，過濾加速
        colDesc.setBloomFilterType(BloomType.ROW);
        //壓縮記憶體和儲存中的資料，記憶體緊張的時候設定
        colDesc.setDataBlockEncoding(DataBlockEncoding.PREFIX);
　　　　 //讓資料塊快取在LRU快取裡面有更高的優先順序
        colDesc.setInMemory(true);
        //最大版本，沒必要的話，就設定成1個
        colDesc.setMaxVersions(1);
        //叢集間複製的時候，如果被設定成REPLICATION_SCOPE_LOCAL就不能被複制了
        colDesc.setScope(HConstants.REPLICATION_SCOPE_GLOBAL);
　　　　　//儲存的時候使用壓縮演算法，這個基本是必備的，hbase的儲存大得驚人
  　　　 colDesc.setCompressionType(Algorithm.SNAPPY);
        //進行compaction的時候使用壓縮演算法
        colDesc.setCompactionCompressionType(Algorithm.SNAPPY);

　　hbase的表在hdfs上面的是這麼儲存的，/hbase-root/tableName/regionName/familyName/HFile, 在tableName這一級目錄會有一個名.tabledesc的檔案，在region這一級目錄有一個名為.regioninfo的檔案，都是明文的。

　　瞭解完表和列族的定義之後，我們看看KeyValue是怎麼儲存的吧，引用一下程式碼，可能大家一看就都懂了。

　　@Override
    public void write(Cell cell) throws IOException {
      checkFlushed();
      // Row rowkey，起始位置，長度
      write(cell.getRowArray(), cell.getRowOffset(), cell.getRowLength());
      // Column family 列族，起始位置，長度
      write(cell.getFamilyArray(), cell.getFamilyOffset(), cell.getFamilyLength());
      // Qualifier 列名，起始位置，長度
      write(cell.getQualifierArray(), cell.getQualifierOffset(), cell.getQualifierLength());
      // Version 時間戳
      this.out.write(Bytes.toBytes(cell.getTimestamp()));
      // Type Put或者Delete
      this.out.write(cell.getTypeByte());
      // Value 值，起始位置，長度
      write(cell.getValueArray(), cell.getValueOffset(), cell.getValueLength());
    }

　　好吧，列儲存的話儲存的時候每個列都會重複前面的rowkey、列族這些資訊，在列很多的情況下，rowkey和列族越長，消耗的記憶體和列族都會很大，所以它們都要儘量的短。

　　可以考慮用colDesc.setDataBlockEncoding(DataBlockEncoding.PREFIX_TREE)來壓縮一下記憶體中的大小，這個後面後面會講到。

hbase原始碼系列（四）資料模型-表定義和列族定義的具體含義

Spark原始碼系列（四）圖解作業生命週期

這一章我們探索了Spark作業的執行過程，但是沒把整個過程描繪出來，好，跟著我走吧，let you know！

hbase原始碼系列（一）Balancer 負載均衡

　　看原始碼很久了，終於開始動手寫部落格了，為什麼是先寫負載均衡呢，因為一個室友入職新公司了，然後他們遇到這方面的問題，某些機器的硬碟使用明顯比別的機器要多，每次用hadoop做完負載均衡，很快又變回來了。

hbase原始碼系列（十）HLog與日誌恢復

HLog概述 hbase在寫入資料之前會先寫入MemStore，成功了再寫入HLog，當MemStore的資料丟失的時候，還可以用HLog的資料來進行恢復，下面先看看HLog的圖。

hbase原始碼系列（六）HMaster啟動過程

　　這一章是server端開始的第一章，有興趣的朋友先去看一下hbase的架構圖，我專門從網上弄下來的。

hbase原始碼系列（八）從Snapshot恢復表

在看這一章之前，建議大家先去看一下snapshot的使用。這一章是上一章snapshot的續集，上一章了講了怎麼做snapshot的原理，這一章就怎麼從snapshot恢復表。

hbase原始碼系列（七）Snapshot的過程

　　在看這一章之前，建議大家先去看一下snapshot的使用。可能有人會有疑問為什麼要做Snapshot，hdfs不是自帶了3個備份嗎，這是個很大的誤區，要知道hdfs的3個備份是用於防止網路傳輸中的失敗或者別的異常情況導致資

hbase原始碼系列（九）StoreFile儲存格式

從這一章開始要講Region Server這塊的了，但是在講Region Server這塊之前得講一下StoreFile，否則後面的不好講下去，這塊是基礎，Region Sever上面的操作，大部分都是基於它來進行的。

hbase原始碼系列（十三）快取機制MemStore與Block Cache

這一章講hbase的快取機制，這裡面涉及的內容也是比較多，呵呵，我理解中的快取是儲存在記憶體中的特定的便於檢索的資料結構就是快取。

hbase原始碼系列（二）HTable 探祕

　　hbase的原始碼終於搞一個段落了，在接下來的一個月，著重於把看過的原始碼提煉一下，對一些有意思的主題進行分享一下。繼上一篇講了負載均衡之後，這一篇我們從client開始講吧，從client到master再到region serv

hbase原始碼系列（三）Client如何找到正確的Region Server

　　客戶端在進行put、delete、get等操作的時候，它都需要資料到底存在哪個Region Server上面，這個定位的操作是通過HConnection.locateRegion方法來完成的。

hbase原始碼系列（五）Trie單詞查詢樹

　　在上一章中提到了編碼壓縮，講了一個簡單的DataBlockEncoding.PREFIX演算法，它用的是前序編碼壓縮的演算法，它搜尋到時候，是全掃描的方式搜尋的，如此一來，搜尋效率實在是不敢恭維，所以在hbase當中單獨拿了一

Sentinel-Go 原始碼系列（二）｜初始化流程和責任鏈設計模式

上節中我們知道了 Sentinel-Go 大概能做什麼事情，最簡單的例子如何跑起來其實我早就寫好了本系列的第二篇，但遲遲沒有釋出，感覺光初始化流程顯得有些單一，於是又補充了責任鏈模式，二合一，內容顯得豐富一些。

hbase原始碼系列（十四）Compact和Split

先上一張圖講一下Compaction和Split的關係，這樣會比較直觀一些。 Compaction把多個MemStore flush出來的StoreFile合併成一個檔案，而Split則是把過大的檔案Split成兩個。

HBase 系列（四）—— HBase 叢集環境配置

一、叢集規劃這裡搭建一個 3 節點的 HBase 叢集，其中三臺主機上均為 Regin Server。同時為了保證高可用，除了在 hadoop001 上部署主 Master 服務外，還在 hadoop002 上部署備用的 Master 服務。Master 服務由 Zook

Docker 系列（四）：Docker 容器資料卷簡單使用

開始之前如果你有一些需要持續更新的資料並且希望持久化資料，或者需要在不同的容器之間共享資料，再者需要主機與容器之間共享資料，那麼你可以使用資料捲來滿足這些需求。

儲存引擎系列（四）：不同型別的查詢語句如何設定索引（上）—— 資料表初始化

B+ 索引樹回顧上篇教程學院君給大家介紹了不同型別的資料庫索引對應的 B+ 樹是如何維護的，這其實是對資料庫表記錄進行更新時底層所做的（插入、修改、刪除）事情，我們來簡單回顧下 B+ 索引樹：

hbase原始碼系列（十五）終結篇&Scan續集-->如何查詢出來下一個KeyValue

這是這個系列的最後一篇了，實在沒精力寫了，本來還想寫一下hbck的，這個東西很常用，當hbase的Meta表出現錯誤的時候，它能夠幫助我們進行修復，無奈看到3000多行的程式碼時，退卻了，原諒我這點自私的想法吧。

hbase原始碼系列（十一）Put、Delete在服務端是如何處理？

在講完之後HFile和HLog之後，今天我想分享是Put在Region Server經歷些了什麼？相信前面看了《HTable探祕》的朋友都會有印象，沒看過的建議回去先看看，Put是通過MultiServerCallable來提交的多個Put，好，我們就先去

hbase原始碼系列（十二）Get、Scan在服務端是如何處理？

繼上一篇講了Put和Delete之後，這一篇我們講Get和Scan, 因為我發現這兩個操作幾乎是一樣的過程，就像之前的Put和Delete一樣，上一篇我本來只打算寫Put的，結果發現Delete也可以走這個過程，所以就一起寫了。

hbase原始碼系列（四）資料模型-表定義和列族定義的具體含義

相關推薦