HBase 系列（八）——HBase 協處理器

一、簡述

在使用 HBase 時，如果你的資料量達到了數十億行或數百萬列，此時能否在查詢中返回大量資料將受制於網路的頻寬，即便網路狀況允許，但是客戶端的計算處理也未必能夠滿足要求。在這種情況下，協處理器（Coprocessors）應運而生。它允許你將業務計算程式碼放入在 RegionServer 的協處理器中，將處理好的資料再返回給客戶端，這可以極大地降低需要傳輸的資料量，從而獲得性能上的提升。同時協處理器也允許使用者擴充套件實現 HBase 目前所不具備的功能，如許可權校驗、二級索引、完整性約束等。

二、協處理器型別

2.1 Observer協處理器

1. 功能

Observer 協處理器類似於關係型資料庫中的觸發器，當發生某些事件的時候這類協處理器會被 Server 端呼叫。通常可以用來實現下面功能：

許可權校驗：在執行 Get 或 Put 操作之前，您可以使用 preGet 或 prePut 方法檢查許可權；
完整性約束： HBase 不支援關係型資料庫中的外來鍵功能，可以通過觸發器在插入或者刪除資料的時候，對關聯的資料進行檢查；
二級索引：可以使用協處理器來維護二級索引。

2. 型別

當前 Observer 協處理器有以下四種類型：

RegionObserver :
允許您觀察 Region 上的事件，例如 Get 和 Put 操作。
RegionServerObserver :
允許您觀察與 RegionServer 操作相關的事件，例如啟動，停止或執行合併，提交或回滾。
MasterObserver :

允許您觀察與 HBase Master 相關的事件，例如表建立，刪除或 schema 修改。
WalObserver :
允許您觀察與預寫日誌（WAL）相關的事件。

3. 介面

以上四種類型的 Observer 協處理器均繼承自 Coprocessor 介面，這四個介面中分別定義了所有可用的鉤子方法，以便在對應方法前後執行特定的操作。通常情況下，我們並不會直接實現上面介面，而是繼承其 Base 實現類，Base 實現類只是簡單空實現了介面中的方法，這樣我們在實現自定義的協處理器時，就不必實現所有方法，只需要重寫必要方法即可。

這裡以 RegionObservers 為例，其介面類中定義了所有可用的鉤子方法，下面截取了部分方法的定義，多數方法都是成對出現的，有 pre

就有 post：

4. 執行流程

客戶端發出 put 請求
該請求被分派給合適的 RegionServer 和 region
coprocessorHost 攔截該請求，然後在該表的每個 RegionObserver 上呼叫 prePut()
如果沒有被 prePut() 攔截，該請求繼續送到 region，然後進行處理
region 產生的結果再次被 CoprocessorHost 攔截，呼叫 postPut()
假如沒有 postPut() 攔截該響應，最終結果被返回給客戶端

如果大家瞭解 Spring，可以將這種執行方式類比於其 AOP 的執行原理即可，官方文件當中也是這樣類比的：

If you are familiar with Aspect Oriented Programming (AOP), you can think of a coprocessor as applying advice by intercepting a request and then running some custom code,before passing the request on to its final destination (or even changing the destination).

如果您熟悉面向切面程式設計（AOP），您可以將協處理器視為通過攔截請求然後執行一些自定義程式碼來使用 Advice，然後將請求傳遞到其最終目標（或者更改目標）。

2.2 Endpoint協處理器

Endpoint 協處理器類似於關係型資料庫中的儲存過程。客戶端可以呼叫 Endpoint 協處理器在服務端對資料進行處理，然後再返回。

以聚集操作為例，如果沒有協處理器，當用戶需要找出一張表中的最大資料，即 max 聚合操作，就必須進行全表掃描，然後在客戶端上遍歷掃描結果，這必然會加重了客戶端處理資料的壓力。利用 Coprocessor，使用者可以將求最大值的程式碼部署到 HBase Server 端，HBase 將利用底層 cluster 的多個節點併發執行求最大值的操作。即在每個 Region 範圍內執行求最大值的程式碼，將每個 Region 的最大值在 Region Server 端計算出來，僅僅將該 max 值返回給客戶端。之後客戶端只需要將每個 Region 的最大值進行比較而找到其中最大的值即可。

三、協處理的載入方式

要使用我們自己開發的協處理器，必須通過靜態（使用 HBase 配置）或動態（使用 HBase Shell 或 Java API）載入它。

靜態載入的協處理器稱之為 System Coprocessor（系統級協處理器）,作用範圍是整個 HBase 上的所有表，需要重啟 HBase 服務；
動態載入的協處理器稱之為 Table Coprocessor（表處理器），作用於指定的表，不需要重啟 HBase 服務。

其載入和解除安裝方式分別介紹如下。

四、靜態載入與解除安裝

4.1 靜態載入

靜態載入分以下三步：

在 hbase-site.xml 定義需要載入的協處理器。

<property>
    <name>hbase.coprocessor.region.classes</name>
    <value>org.myname.hbase.coprocessor.endpoint.SumEndPoint</value>
</property>

<name> 標籤的值必須是下面其中之一：

RegionObservers 和 Endpoints 協處理器：hbase.coprocessor.region.classes
WALObservers 協處理器： hbase.coprocessor.wal.classes
MasterObservers 協處理器：hbase.coprocessor.master.classes

<value> 必須是協處理器實現類的全限定類名。如果為載入指定了多個類，則類名必須以逗號分隔。

將 jar(包含程式碼和所有依賴項) 放入 HBase 安裝目錄中的 lib 目錄下；
重啟 HBase。

4.2 靜態解除安裝

從 hbase-site.xml 中刪除配置的協處理器的<property>元素及其子元素；
從類路徑或 HBase 的 lib 目錄中刪除協處理器的 JAR 檔案（可選）；
重啟 HBase。

五、動態載入與解除安裝

使用動態載入協處理器，不需要重新啟動 HBase。但動態載入的協處理器是基於每個表載入的，只能用於所指定的表。
此外，在使用動態載入必須使表離線（disable）以載入協處理器。動態載入通常有兩種方式：Shell 和 Java API 。

以下示例基於兩個前提：

coprocessor.jar 包含協處理器實現及其所有依賴項。

JAR 包存放在 HDFS 上的路徑為：hdfs：// <namenode>：<port> / user / <hadoop-user> /coprocessor.jar

5.1 HBase Shell動態載入

使用 HBase Shell 禁用表

hbase > disable 'tableName'

使用如下命令載入協處理器

hbase > alter 'tableName', METHOD => 'table_att', 'Coprocessor'=>'hdfs://<namenode>:<port>/
user/<hadoop-user>/coprocessor.jar| org.myname.hbase.Coprocessor.RegionObserverExample|1073741823|
arg1=1,arg2=2'

Coprocessor 包含由管道（|）字元分隔的四個引數，按順序解釋如下：

JAR 包路徑：通常為 JAR 包在 HDFS 上的路徑。關於路徑以下兩點需要注意：
允許使用萬用字元，例如：hdfs://<namenode>:<port>/user/<hadoop-user>/*.jar 來新增指定的 JAR 包；
可以使指定目錄，例如：hdfs://<namenode>:<port>/user/<hadoop-user>/ ，這會新增目錄中的所有 JAR 包，但不會搜尋子目錄中的 JAR 包。
類名：協處理器的完整類名。
優先順序：協處理器的優先順序，遵循數字的自然序，即值越小優先順序越高。可以為空，在這種情況下，將分配預設優先順序值。
可選引數：傳遞的協處理器的可選引數。

啟用表

hbase > enable 'tableName'

驗證協處理器是否已載入

hbase > describe 'tableName'

協處理器出現在 TABLE_ATTRIBUTES 屬性中則代表載入成功。

5.2 HBase Shell動態解除安裝

禁用表

hbase> disable 'tableName'

移除表協處理器

hbase> alter 'tableName', METHOD => 'table_att_unset', NAME => 'coprocessor$1'

啟用表

hbase> enable 'tableName'

5.3 Java API 動態載入

TableName tableName = TableName.valueOf("users");
String path = "hdfs://<namenode>:<port>/user/<hadoop-user>/coprocessor.jar";
Configuration conf = HBaseConfiguration.create();
Connection connection = ConnectionFactory.createConnection(conf);
Admin admin = connection.getAdmin();
admin.disableTable(tableName);
HTableDescriptor hTableDescriptor = new HTableDescriptor(tableName);
HColumnDescriptor columnFamily1 = new HColumnDescriptor("personalDet");
columnFamily1.setMaxVersions(3);
hTableDescriptor.addFamily(columnFamily1);
HColumnDescriptor columnFamily2 = new HColumnDescriptor("salaryDet");
columnFamily2.setMaxVersions(3);
hTableDescriptor.addFamily(columnFamily2);
hTableDescriptor.setValue("COPROCESSOR$1", path + "|"
+ RegionObserverExample.class.getCanonicalName() + "|"
+ Coprocessor.PRIORITY_USER);
admin.modifyTable(tableName, hTableDescriptor);
admin.enableTable(tableName);

在 HBase 0.96 及其以後版本中，HTableDescriptor 的 addCoprocessor() 方法提供了一種更為簡便的載入方法。

TableName tableName = TableName.valueOf("users");
Path path = new Path("hdfs://<namenode>:<port>/user/<hadoop-user>/coprocessor.jar");
Configuration conf = HBaseConfiguration.create();
Connection connection = ConnectionFactory.createConnection(conf);
Admin admin = connection.getAdmin();
admin.disableTable(tableName);
HTableDescriptor hTableDescriptor = new HTableDescriptor(tableName);
HColumnDescriptor columnFamily1 = new HColumnDescriptor("personalDet");
columnFamily1.setMaxVersions(3);
hTableDescriptor.addFamily(columnFamily1);
HColumnDescriptor columnFamily2 = new HColumnDescriptor("salaryDet");
columnFamily2.setMaxVersions(3);
hTableDescriptor.addFamily(columnFamily2);
hTableDescriptor.addCoprocessor(RegionObserverExample.class.getCanonicalName(), path,
Coprocessor.PRIORITY_USER, null);
admin.modifyTable(tableName, hTableDescriptor);
admin.enableTable(tableName);

5.4 Java API 動態解除安裝

解除安裝其實就是重新定義表但不設定協處理器。這會刪除所有表上的協處理器。

TableName tableName = TableName.valueOf("users");
String path = "hdfs://<namenode>:<port>/user/<hadoop-user>/coprocessor.jar";
Configuration conf = HBaseConfiguration.create();
Connection connection = ConnectionFactory.createConnection(conf);
Admin admin = connection.getAdmin();
admin.disableTable(tableName);
HTableDescriptor hTableDescriptor = new HTableDescriptor(tableName);
HColumnDescriptor columnFamily1 = new HColumnDescriptor("personalDet");
columnFamily1.setMaxVersions(3);
hTableDescriptor.addFamily(columnFamily1);
HColumnDescriptor columnFamily2 = new HColumnDescriptor("salaryDet");
columnFamily2.setMaxVersions(3);
hTableDescriptor.addFamily(columnFamily2);
admin.modifyTable(tableName, hTableDescriptor);
admin.enableTable(tableName);

六、協處理器案例

這裡給出一個簡單的案例，實現一個類似於 Redis 中 append 命令的協處理器，當我們對已有列執行 put 操作時候，HBase 預設執行的是 update 操作，這裡我們修改為執行 append 操作。

# redis append 命令示例
redis>  EXISTS mykey
(integer) 0
redis>  APPEND mykey "Hello"
(integer) 5
redis>  APPEND mykey " World"
(integer) 11
redis>  GET mykey 
"Hello World"

6.1 建立測試表

# 建立一張雜誌表 有文章和圖片兩個列族
hbase >  create 'magazine','article','picture'

6.2 協處理器程式設計

完整程式碼可見本倉庫：hbase-observer-coprocessor

新建 Maven 工程，匯入下面依賴：

<dependency>
    <groupId>org.apache.hbase</groupId>
    <artifactId>hbase-common</artifactId>
    <version>1.2.0</version>
</dependency>
<dependency>
    <groupId>org.apache.hbase</groupId>
    <artifactId>hbase-server</artifactId>
    <version>1.2.0</version>
</dependency>

繼承 BaseRegionObserver 實現我們自定義的 RegionObserver,對相同的 article:content 執行 put 命令時，將新插入的內容新增到原有內容的末尾，程式碼如下：

public class AppendRegionObserver extends BaseRegionObserver {

    private byte[] columnFamily = Bytes.toBytes("article");
    private byte[] qualifier = Bytes.toBytes("content");

    @Override
    public void prePut(ObserverContext<RegionCoprocessorEnvironment> e, Put put, WALEdit edit,
                       Durability durability) throws IOException {
        if (put.has(columnFamily, qualifier)) {
            // 遍歷查詢結果，獲取指定列的原值
            Result rs = e.getEnvironment().getRegion().get(new Get(put.getRow()));
            String oldValue = "";
            for (Cell cell : rs.rawCells())
                if (CellUtil.matchingColumn(cell, columnFamily, qualifier)) {
                    oldValue = Bytes.toString(CellUtil.cloneValue(cell));
                }

            // 獲取指定列新插入的值
            List<Cell> cells = put.get(columnFamily, qualifier);
            String newValue = "";
            for (Cell cell : cells) {
                if (CellUtil.matchingColumn(cell, columnFamily, qualifier)) {
                    newValue = Bytes.toString(CellUtil.cloneValue(cell));
                }
            }

            // Append 操作
            put.addColumn(columnFamily, qualifier, Bytes.toBytes(oldValue + newValue));
        }
    }
}

6.3 打包專案

使用 maven 命令進行打包，打包後的檔名為 hbase-observer-coprocessor-1.0-SNAPSHOT.jar

# mvn clean package

6.4 上傳JAR包到HDFS

# 上傳專案到HDFS上的hbase目錄
hadoop fs -put /usr/app/hbase-observer-coprocessor-1.0-SNAPSHOT.jar /hbase
# 檢視上傳是否成功
hadoop fs -ls /hbase

6.5 載入協處理器

載入協處理器前需要先禁用表

hbase >  disable 'magazine'

載入協處理器

hbase >   alter 'magazine', METHOD => 'table_att', 'Coprocessor'=>'hdfs://hadoop001:8020/hbase/hbase-observer-coprocessor-1.0-SNAPSHOT.jar|com.heibaiying.AppendRegionObserver|1001|'

啟用表

hbase >  enable 'magazine'

檢視協處理器是否載入成功

hbase >  desc 'magazine'

協處理器出現在 TABLE_ATTRIBUTES 屬性中則代表載入成功，如下圖：

6.6 測試載入結果

插入一組測試資料：

hbase > put 'magazine', 'rowkey1','article:content','Hello'
hbase > get 'magazine','rowkey1','article:content'
hbase > put 'magazine', 'rowkey1','article:content','World'
hbase > get 'magazine','rowkey1','article:content'

可以看到對於指定列的值已經執行了 append 操作：

插入一組對照資料：

hbase > put 'magazine', 'rowkey1','article:author','zhangsan'
hbase > get 'magazine','rowkey1','article:author'
hbase > put 'magazine', 'rowkey1','article:author','lisi'
hbase > get 'magazine','rowkey1','article:author'

可以看到對於正常的列還是執行 update 操作:

6.7 解除安裝協處理器

解除安裝協處理器前需要先禁用表

hbase >  disable 'magazine'

解除安裝協處理器

hbase > alter 'magazine', METHOD => 'table_att_unset', NAME => 'coprocessor$1'

啟用表

hbase >  enable 'magazine'

檢視協處理器是否解除安裝成功

hbase >  desc 'magazine'

6.8 測試解除安裝結果

依次執行下面命令可以測試解除安裝是否成功

hbase > get 'magazine','rowkey1','article:content'
hbase > put 'magazine', 'rowkey1','article:content','Hello'
hbase > get 'magazine','rowkey1','article:content'

參考資料

Apache HBase Coprocessors
Apache HBase Coprocessor Introduction
HBase 高階知識

更多大資料系列文章可以參見 GitHub 開源專案：大資料入門指南

相關推薦

HBase 系列（八）——HBase 協處理器

一、簡述在使用 HBase 時，如果你的資料量達到了數十億行或數百萬列，此時能否在查詢中返回大量資料將受制於網路的頻寬，即便網路狀況允許，但是客戶端的計算處理也未必能夠滿足要求。在這種情況下，協處理器（Coprocessors）應運而生。它允許你將業務計算程式碼放入在 RegionServer 的協處理器中

HBase 系列（二）—— HBase 系統架構及資料結構

一、基本概念一個典型的 Hbase Table 表如下： 1.1 Row Key (行鍵) Row Key 是用來檢索記錄的主鍵。想要訪問 HBase Table 中的資料，只有以下三種方式：通過指定的 Row Key 進行訪問；通過 Row Key 的 range 進行訪問，即訪問指定範圍內

HBase 系列（四）—— HBase 叢集環境配置

一、叢集規劃這裡搭建一個 3 節點的 HBase 叢集，其中三臺主機上均為 Regin Server。同時為了保證高可用，除了在 hadoop001 上部署主 Master 服務外，還在 hadoop002 上部署備用的 Master 服務。Master 服務由 Zookeeper 叢集進行協調管理，如果主

HBase 系列（六）——HBase Java API 的基本使用

一、簡述截至到目前 (2019.04)，HBase 有兩個主要的版本，分別是 1.x 和 2.x ，兩個版本的 Java API 有所不同，1.x 中某些方法在 2.x 中被標識為 @deprecated 過時。所以下面關於 API 的樣例，我會分別給出 1.x 和 2.x 兩個版本。完整的程式碼見本倉庫：

HBase 系列（七）——HBase 過濾器詳解

一、HBase過濾器簡介 Hbase 提供了種類豐富的過濾器（filter）來提高資料處理的效率，使用者可以通過內建或自定義的過濾器來對資料進行過濾，所有的過濾器都在服務端生效，即謂詞下推（predicate push down）。這樣可以保證過濾掉的資料不會被傳送到客戶端，從而減輕網路傳輸和客戶端處理的壓力

HBase 系列（十）—— HBase 的 SQL 中間層 Phoenix

一、Phoenix簡介 Phoenix 是 HBase 的開源 SQL 中間層，它允許你使用標準 JDBC 的方式來操作 HBase 上的資料。在 Phoenix 之前，如果你要訪問 HBase，只能呼叫它的 Java API，但相比於使用一行 SQL 就能實現資料查詢，HBase 的 API 還是過於複雜。

Storm 系列（八）—— Storm 整合 HDFS 和 HBase

一、Storm整合HDFS 1.1 專案結構本用例原始碼下載地址：storm-hdfs-integration 1.2 專案主要依賴專案主要依賴如下，有兩個地方需要注意：這裡由於我伺服器上安裝的是 CDH 版本的 Hadoop，在匯入依賴時引入的也是 CDH 版本的依賴，需要使用 <

HBase 系列（二）安裝部署

clas binary hive .data base start.s 模式域名一點 HBase 系列（二）安裝部署本節以 Hadoop-2.7.6，HBase-1.4.5 為例安裝 HBase 環境。HBase 也有三種模式：本地模式、偽分布模式、分布模式。一、環

uml系列（八）——部署圖與構件圖

復雜數據 net 打包 img 之前說明而且 bsp 之前說了uml的設計圖，現在說一下uml的最後兩種圖：構件圖、部署圖。這兩種圖之所以放在一起是因為它們都是軟件的實現圖。構件圖構件圖是描述一組構件之間

SpringMVC系列（八）國際化

enc undle charset ucc tid utf pre 獲取值 -c 1.在pom.xml引入國際化需要的依賴 1  2 <dependency> 3 <groupI

winform 寫App.config配置文件——IT輪子系列（八）

項目 ble .exe private conf 遇到配置信息操作 src 前言在winform項目中，常常需要讀app.config文件。如： 1 var version = System.Configuration.ConfigurationManager.Ap

Docker入門與應用系列（八）Docker圖形界面管理之Shipyard

tps 數據庫 sock blog ocs body mage 代理 cell Shipyard基於Docker API實現的容器圖形管理系統，支持container、images、engine、cluster等功能，可滿足我們基本的容器部署需求可堆棧的Docker管理基於

SQL系列（八）—— 分組（group by）

出了常用 sql select group 數量通過報錯 mysql 在很多場景時，需要對數據按照某條件進行分組統計其數量、平均值等等。有這種需求，SQL自然也有解決方式。在SQL中通過group by子句對結果按某條件進行分組。語法： select count(c

計算機組成與設計（八）—— 單週期處理器

處理器的設計步驟分析指令系統，得出對資料通路的需求為資料通路選擇合適的元件連線元件，建立資料通路分析每條指令的實現，以確定控制訊號整合控制訊號，完成完整的資料通路具體設計步驟（一）分析指令系統 MIPS的所有指令是非常多的，我們只實現其簡化版，包

apache ignite系列（八）：問題彙總

1，java.lang.ClassNotFoundException Unknown pair 1.Please try to turn on isStoreKeepBinary in cache settings - like this; please note the last line: down

STM32開發筆記54：STM32F4+DP83848乙太網通訊指南系列（八）：收包流程

本章為系列指南的第八章，講述如何使用STM32F407晶片配合DP83848進行乙太網資料的收包流程，將監聽到的網路包資料通過UART傳給PC，同時輔以WireShark監聽對比驗證。關於UART，也就是串列埠通訊的使用，這裡不做贅述，我們這裡預設兩個函式分別為UART6Init()和UART

Oracle索引梳理系列（八）- 索引掃描型別及分析（高效索引必備知識）

理解oracle索引掃描型別的特點以及具體觸發的條件，對於通過合理地使用索引，進行sql優化至關重要（例如組合索引的引導列的選擇問題）。在總結索引掃描型別前，需要再次強調關於索引特點的幾個關鍵點：對於單一列建立的索引，既單一列索引，b-tree中不儲存索引列的null值資訊

深度學習基礎系列（八）| 偏差和方差

　　當我們費勁周章不斷調參來訓練模型時，不可避免地會思考一系列問題，模型好壞的評判標準是什麼？改善模型的依據何在？何時停止訓練為佳？　　要解決上述問題，我們需要引入偏差和方差這兩個概念，理解他們很重要，也是後續瞭解過擬合、正則化、提早終止訓練、資料增強等概念和方法的前提。一、概念定義偏差（bias）

分散式快取技術redis學習系列（八）——JedisCluster原始碼解讀：叢集初始化、slot(槽)的分配、值的存取

redis叢集環境，客戶端使用JedisCluster獲取連線並操作redis服務，上一篇分散式快取技術redis學習系列（七）——spring整合jediscluster 簡單介紹了spring使用JedisCluster，這篇從JedisCluster原始

前端學習系列——（八）CSS樣式優先順序

不知道你有沒有遇到這樣一種情況，語法正確、單詞正確，但是樣式就是無法應用，而是使用的不知道在哪寫過的一個樣式，然後你就偷懶使用!important讓樣式生效。哈哈哈，反正我遇到過，而且這麼做了。其實這個問題的出現，是因為樣式存在優先順序規則。如果瞭解了樣式