一、已知的問題和不足

在上一個版本中，實現了使用HBase的協處理器將HBase的二級索引同步到Solr中，但是仍舊有幾個缺陷：

寫入Solr的Collection是寫死在程式碼裡面，且是唯一的。如果我們有一張表的資料希望將不同的欄位同步到Solr中該如何做呢？
目前所有配置相關資訊都是寫死到了程式碼中的，是否可以新增外部配置檔案。
原來的方法是每次都需要編譯新的Jar檔案單獨執行，能否將所有的同步使用一段通用的程式碼完成？

二、解決思路

針對上面的三個主要問題，我們一一解決

通常一張表會對應多個SolrCollection以及不同的Column。我們可以使用Map[表名->List[（Collection1，List[Columns]),(Collection2,List[Columns])...]]

這樣的型別，根據表名獲取所有的Collection和Column。
通過Typesafe Config讀取外部配置檔案，達到所有資訊可配的目的。
所有的資料都只有Put和Delete，只要我們攔截到具體的訊息之後判斷當前的表名，然後根據問題一中的Collection和Column即可寫入對應的SolrServer。在協處理器中獲取表名的是e.getEnvironment().getRegion().getTableDesc().getTableName().getNameAsString()其中e是ObserverContext

三、程式碼

3.1 讀取config檔案內容

使用typesafe的config元件讀取morphlines.conf檔案，將內容轉換為 Map<String,List<HBaseIndexerMappin>>

。具體程式碼如下

publicclassConfigManager{
privatestaticSourceConfig sourceConfig =newSourceConfig();
publicstaticConfig config;
static{
sourceConfig.setConfigFiles("morphlines.conf");
config = sourceConfig.getConfig();
}
publicstaticMap<String,List<HBaseIndexerMappin>> getHBaseIndexerMappin(){
Map<String,List<HBaseIndexerMappin>> mappin =newHashMap<String,List<HBaseIndexerMappin>>();
Config mappinConf = config.getConfig("Mappin");
List<String> tables = mappinConf.getStringList("HBaseTables");
for(String table :tables){
List<Config> confList =(List<Config>) mappinConf.getConfigList(table);
List<HBaseIndexerMappin> maps =newLinkedList<HBaseIndexerMappin>();
for(Config tmp :confList){
HBaseIndexerMappin map =newHBaseIndexerMappin();
map.solrConnetion = tmp.getString("SolrCollection");
map.columns = tmp.getStringList("Columns");
maps.add(map);
}
mappin.put(table,maps);
}
return mappin;
}
}

3.2 封裝SolrServer的獲取方式

因為目前我使用的環境是Solr和HBase公用的同一套Zookeeper，因此我們完全可以藉助HBase的Zookeeper資訊。HBase的協處理器是執行在HBase的環境中的，自然可以通過HBase的Configuration獲取當前的Zookeeper節點和埠，然後輕鬆的獲取到Solr的地址。

publicclassSolrServerManagerimplementsLogManager{
staticConfiguration conf =HBaseConfiguration.create();
publicstaticStringZKHost= conf.get("hbase.zookeeper.quorum","bqdpm1,bqdpm2,bqdps2");
publicstaticStringZKPort= conf.get("hbase.zookeeper.property.clientPort","2181");
publicstaticStringSolrUrl=ZKHost+":"+ZKPort+"/"+"solr";
publicstaticint zkClientTimeout =1800000;// 心跳
publicstaticint zkConnectTimeout =1800000;// 連線時間
publicstaticCloudSolrServer create(String defaultCollection){
log.info("Create SolrCloudeServer .This collection is "+ defaultCollection);
CloudSolrServer solrServer =newCloudSolrServer(SolrUrl);
solrServer.setDefaultCollection(defaultCollection);
solrServer.setZkClientTimeout(zkClientTimeout);
solrServer.setZkConnectTimeout(zkConnectTimeout);
return solrServer;
}
}

3.3 編寫提交資料到Solr的程式碼

理想狀態下，我們時時刻刻都需要提交資料到Solr中，但是事實上我們資料寫入的時間是比較分散的，可能集中再每一天的某幾個時間點。因此我們必須保證在高併發下能達到一定資料量自動提交，在低併發的情況下能隔一段時間寫入一次。只有兩種機制並存的情況下才能保證資料能即時寫入。

publicclassSolrCommitTimerextendsTimerTaskimplementsLogManager{
publicMap<String,List<SolrInputDocument>> putCache =newHashMap<String,List<SolrInputDocument>>();//Collection名字->更新（插入）操作快取
publicMap<String,List<String>> deleteCache =newHashMap<String,List<String>>();//Collection名字->刪除操作快取
Map<String,CloudSolrServer> solrServers =newHashMap<String,CloudSolrServer>();//Collection名字->SolrServers
int maxCache =ConfigManager.config.getInt("MaxCommitSize");
// 任何時候，保證只能有一個執行緒在提交索引，並清空集合
finalstaticSemaphore semp =newSemaphore(1);
//新增Collection和SolrServer
publicvoid addCollecttion(String collection,CloudSolrServer server){
this.solrServers.put(collection,server);
}
//往Solr新增（更新）資料
publicUpdateResponse put(CloudSolrServer server,SolrInputDocument doc)throwsIOException,SolrServerException{
server.add(doc);
return server.commit(false,false);
}
//往Solr新增（更新）資料
publicUpdateResponse put(CloudSolrServer server,List<SolrInputDocument> docs)throwsIOException,SolrServerException{
server.add(docs);
return server.commit(false,false);
}
//根據ID刪除Solr資料
publicUpdateResponsedelete(CloudSolrServer server,String rowkey)throwsIOException,SolrServerException{
server.deleteById(rowkey);
return server.commit(false,false);
}
//根據ID刪除Solr資料
publicUpdateResponsedelete(CloudSolrServer server,List<String> rowkeys)throwsIOException,SolrServerException{
server.deleteById(rowkeys);
return server.commit(false,false);
}
//將doc新增到快取
publicvoid addPutDocToCache(String collection,SolrInputDocument doc)throwsIOException,SolrServerException,InterruptedException{
semp.acquire();
log.debug("addPutDocToCache:"+"collection="+ collection +"data="+ doc.toString());
if(!putCache.containsKey(collection)){
相關推薦 HBase協處理器同步二級索引到Solr 一、已知的問題和不足在上一個版本中，實現了使用HBase的協處理器將HBase的二級索引同步到Solr中，但是仍舊有幾個缺陷：寫入Solr的Collection是寫死在程式碼裡面，且是唯一的。如果我們有一張表的資料希望將不同的欄位同步到Solr中該如何做呢？目前所有 hbase協處理器與二級索引一、協處理器—Coprocessor 1、起源 Hbase 作為列族資料庫最經常被人詬病的特性包括：無法輕易建立“二級索引”，難以執行求和、計數、排序等操作。比如，在舊版本的(<0.92)Hbase 中，統計資料表的總行數，需要使用 Counte HBase建表高階屬性，hbase應用案例看行鍵設計，HBase和mapreduce結合，從Hbase中讀取資料、分析，寫入hdfs，從hdfs中讀取資料寫入Hbase，協處理器和二級索引 1. Hbase高階應用 1.1建表高階屬性下面幾個shell 命令在hbase操作中可以起到很到的作用，且主要體現在建表的過程中，看下面幾個create 屬性 1、 BLOOMFILTER 預設是NONE 是否使用布隆過慮及使用何種方式布隆 HBase協處理器協處理器分兩種型別，系統協處理器可以全域性匯入region server上的所有資料表，表協處理器即是使用者可以指定一張表使用協處理器。協處理器框架為了更好支援其行為的靈活性，提供了兩個不同方面的外掛。一個是觀察者（observer），類似於關係資料庫的觸發器。另一個是終端(endpoint)， HBase協處理器載入過程（1.2.x）一、首先來看ObserverCoprocessor:1.觀察者協處理器的靜態載入的配置是在hbase-site.xml中配置如下屬性：通過hbase.coprocessor.region.classes 配置 RegionObservers 和 Endpoints.通過hb 關於HBase協處理器導致問題的研究 1 載入協處理器 1.1 將協處理器上傳到hdfs： hadoop fs -mkdir /hbasenew/usercoprocesser hadoop fs -ls /hbasenew/usercoprocesser hadoop fs -rm /hbasenew/us HBase協處理器載入過程（1.2）之前寫過HBase協處理器的一些原理和使用，基本上都是官方文件和官方的部落格翻過來的，知道了怎麼寫，怎麼用。現在需要思考的一個問題是，自己寫的協處理器是怎麼載入成功並呼叫的。一、首先來看ObserverCoprocessor: 1.觀察者協處理器的靜態載入的配置是在hb HBase-6.hbase 協處理器引入Hbase中的Coprocessor的原因HBase作為列族資料庫無法建立“二級索引”，難以執行求和、計數、排序等操作。為解決這些問題，HBase0.92 之後引入協處理器（Coprocessor），實現一些新特性，能夠輕易建立二次索引、複雜過濾器、以及訪問控制。參考： http://blog.csdn. HBase 協處理器實踐（一）AggregationClient hbase協處理器簡介本章要點 hbase協處理器有哪幾種類型 hbase協處理器如何部署協處理器的主要介面，已經介面功能自定義協處理器例項協處理器型別 hbase協處理型別主要分為observer 和endpoint兩種型別。 observer hbase協處理器--建立endpoint協處理器下載hbase-source之後，裡面有相應的原始碼，可以找到RowCountEndpoint.java，ExampleProto.java等一系列程式碼。通過閱讀原始碼以及其中的註釋，我們可以知道，Hbase的很多的功能都是通過protobuf這個工具來生成程式碼，尤其是 HBase 協處理器 (二) 3.7 The RegionObserver Class 用於 region level, 注意，這個類的所有呼叫方法的第一個引數為 ObserverContext<RegionCoprocessorEnvironment> ctx8, 提供訪問 conte HBase 協處理器統計行數環境：cdh5.1.0 啟用協處理器方法1. 啟用協處理器 Aggregation(Enable Coprocessor Aggregation) 我們有兩個方法：1.啟動全域性aggregatio HBase 系列（八）——HBase 協處理器一、簡述在使用 HBase 時，如果你的資料量達到了數十億行或數百萬列，此時能否在查詢中返回大量資料將受制於網路的頻寬，即便網路狀況允許，但是客戶端的計算處理也未必能夠滿足要求。在這種情況下，協處理器（Coprocessors）應運而生。它允許你將業務計算程式碼放入在 RegionServer 的協處理器中 HBase利用observer（協處理器）建立二級索引一、協處理器—Coprocessor 1、起源 Hbase 作為列族資料庫最經常被人詬病的特性包括：無法輕易建立“二級索引”，難以執行求和、計數、排序等操作。比如，在舊版本的(<0.92)Hbase 中，統 solr-hbase二級索引及查詢解決方案(一) 最近要搞一個查詢功能,是把hbase中的資料方便的查詢出來.之前根據rowkey的查詢方式,儘管有針對性設計過rowkey,有字首查詢,字尾查詢,以及正則查詢,但是實際上不夠用. 參考了網路上的設計,建立二級索引是比較好的思路.於是就以solr儲存hbase Hbase二級索引方案Solr key value index 概述在Hbase中,表的RowKey 按照字典排序, Region按照RowKey設定split point進行shard，通過這種方式實現的全域性、分散式索引. 成為了其成功的最大的砝碼。然而單一的通過RowKey檢索資料的方式,不再滿足更多的需求，查詢成為Hb 使用協處理器將HBase資料索引到Elasticsearch叢集 HBaseCon 2013: Using Coprocessors to Index Columns in an Elasticsearch Cluster 使用協處理器將列資料索引到Elasticsearch叢集總結來說，一般就是擴充套件RegionObs 利用Solr建立HBase的二級索引 public void insertSolr(Put put) { CloudSolrServer cloudSolrServer; final String zkHost = "IP:2181,IP:2181,IP:2181"; final int zkConnectTimeout = 1; 基於Solr的Hbase二級索引關於Hbase二級索引 HBase 是一個列存資料庫，每行資料只有一個主鍵RowKey，無法依據指定列的資料進行檢索。查詢時需要通過RowKey進行檢索，然後檢視指定列的資料是什麼，效率低下。在實際應用中，我們經常需要根據指定列進行檢索，或者幾個列進行組合檢索，這就提出

HBase協處理器同步二級索引到Solr

一、 已知的問題和不足