solrCloud 索引更新邏輯學習筆記

ZkCoreNodeProps 封裝了一個node的相關資訊，包括base_url，core_name,state,node_name,core_url,isLeader

SolrCmdDistributor

solr分散式更新的一個重要實現工具類，因為它本身的只負責分散式的請求處理，並沒有很多的業務邏輯。

staticAdjustableSemaphoresemaphore = new AdjustableSemaphore(8);

限制同時併發的請求最多數。從建構函式看可以跟結點數相關，但最大是16.

public SolrCmdDistributor(intnumHosts, ThreadPoolExecutorexecutor) {
int maxPermits = Math.max(16, numHosts * 16);
// limits how many tasks can actually execute at once
if (maxPermits != semaphore.getMaxPermits()) {
semaphore.setMaxPermits(maxPermits);
}
completionService = new ExecutorCompletionService<Request>(executor);
pending = new

HashSet<Future<Request>>();
}

privatefinalMap<Node,List<AddRequest>> adds = new HashMap<Node,List<AddRequest>>();
privatefinalMap<Node,List<DeleteRequest>> deletes = new HashMap<Node,List<DeleteRequest>>();

這兩個欄位主要是實現用於快取更新請求

執行快取的請求，呼叫下面方法

publicvoid finish() {
// piggyback on any outstanding adds or deletes if possible.
flushAdds(1);
flushDeletes(1);
checkResponses(true);
}

提交請求

void submit(UpdateRequestExt ureq, Node node) {
Request sreq = new Request();
sreq.node = node;
sreq.ureq = ureq;
submit(sreq);
}

然後是檢查響應結果，呼叫

void checkResponses(booleanblock) 作為檢查上一次提交的請求響應。當請求需要重試的時候，會預設重試最大次數10次

將最終結果返回到響應結果裡，有異常也會記錄下來。

分散式增加更新

publicvoid distribAdd(AddUpdateCommand cmd, List<Node> nodes, ModifiableSolrParams params) throws IOException {
//執行前都會去掉之前還會檢查可能沒響應完的請求，不等待，直接刪除舊的請求。
checkResponses(false);
// 確保所有刪除的請求被執行
flushDeletes(1);
//克隆更新請求重用
AddUpdateCommand clone = new AddUpdateCommand(null);
clone.solrDoc = cmd.solrDoc;
clone.commitWithin = cmd.commitWithin;
clone.overwrite = cmd.overwrite;
clone.setVersion(cmd.getVersion());
AddRequest addRequest = new AddRequest();
addRequest.cmd = clone;
addRequest.params = params;
//增加對每個節點的請求到快取adds裡
for (Nodenode : nodes) {
List<AddRequest> alist = adds.get(node);
if (alist == null) {
alist = new ArrayList<AddRequest>(2);
adds.put(node, alist);
}
alist.add(addRequest);
}
//執行快取adds的請求
flushAdds(maxBufferedAddsPerServer);
}

其它的doDelete,addCommit的請求邏輯的處理都相差不多

DistributedUpdateProcessor

這個是solrCloud主要的一個更新處理鏈，使用cloud模式的時候必要的一個處理鏈，負責分散式更新的邏輯處理

一個重要的hash演算法，作為更新記錄具體分配到哪個shard的演算法

這演算法應該會在後期重構並設計為外掛方式，可被使用者自定議的hash演算法替換。

privateint hash(AddUpdateCommandcmd) {
String hashableId = cmd.getHashableId();
return Hash.murmurhash3_x86_32(hashableId, 0, hashableId.length(), 0);
}
privateint hash(DeleteUpdateCommandcmd) {
return Hash.murmurhash3_x86_32(cmd.getId(), 0, cmd.getId().length(), 0);
}

其中cmd.getHashableId()方法返回的主要是文件的主鍵的值

通過hash值定位更新到哪個shard

private String getShard(int hash, String collection, ClusterState clusterState) {
return clusterState.getShard(hash, collection);
}

通過取到collection對應的RangeInfo，計算該hash值座落在哪個Range，就可以計算到相應的shard

public String getShard(int hash, String collection) {
RangeInfo rangInfo = getRanges(collection);
int cnt = 0;
for (Range range : rangInfo.ranges) {
if (range.includes(hash)) {
return rangInfo.shardList.get(cnt);
}
cnt++;
}
thrownew IllegalStateException("The HashPartitioner failed");
}

HashPartitioner

做為切分為多個範圍的Range，主要實現方法如下：

public List<Range> partitionRange(int partitions, int min, int max) {
assert max >= min;
if (partitions == 0) return Collections.EMPTY_LIST;
long range = (long)max - (long)min;
long srange = Math.max(1, range / partitions);
List<Range> ranges = new ArrayList<Range>(partitions);
long start = min;
long end = start;
while (end < max) {
end = start + srange;
// make last range always end exactly on MAX_VALUE
if (ranges.size() == partitions - 1) {
end = max;
}
ranges.add(new Range((int)start, (int)end));
start = end + 1L;
}
return ranges;
}

指定了某個範圍[min,max]切分為多個partitions的Ranges;切分的範圍是按平均的切分。

Range類封裝了主鍵hash值範圍【min,max】

RangeInfo封裝一個collection下所有shard資訊對應的Range,主要實現方法如下：

private RangeInfo addRangeInfo(String collection) {
List<Range> ranges;
RangeInfo rangeInfo= new RangeInfo();
Map<String,Slice> slices = getSlices(collection);
if (slices == null) {
thrownew SolrException(ErrorCode.BAD_REQUEST, "Can not find collection "
+ collection + " in " + this);
}
Set<String> shards = slices.keySet();
ArrayList<String> shardList = new ArrayList<String>(shards.size());
shardList.addAll(shards);
Collections.sort(shardList);
ranges = hp.partitionRange(shards.size(), Integer.MIN_VALUE, Integer.MAX_VALUE);
rangeInfo.ranges = ranges;
rangeInfo.shardList = shardList;
rangeInfos.put(collection, rangeInfo);
return rangeInfo;
}

從上面方法的實現可以看到，會先將所有shard的名稱排序，然後根據shard的大小切分相應的多個的範圍，每一個shard在排序完的位置有對應的範圍Range，兩者的資訊存放在RangeInfo.

不用擔心，上面按整數最小值，最大值的平均切分的範圍會導致分配不勻的情況，

可能你會擔心如果我的主鍵值是整數，那主鍵的hash值會不會跟他的值所對應呢，這樣的話，會讓hash出來的資料先填滿小的shard，其它shard不夠勻稱。其實設計者本身使用的hash演算法是針對任何型別，取的主鍵值也是以位元組陣列去做hash。這個可以自己使用它的hash演算法去校驗。

再來看一下DistributedUpdateProcessor

先看add請求，請求的來源有多種：

privateList<Node> setupRequest(inthash)

此方法就是為了判斷上面請求來源而決定分發的結點

請求來自leader轉發：FROMLEADER，那麼就只需要寫到本地ulog,不需要轉發給leader，也不需要轉發給其它replicas
請求不是來自leader，但自己就是leader，那麼就需要將請求寫到本地，順便分發給其他的replicas.
請求不是來自leader，但自己又不是leader,也就是該更新請求是最原始的更新請求，那麼需要將請求寫到本地ulog，順便轉發給leader,再由leader分發

所以為了不讓更新請求不會轉發來轉發去。提交索引的時候，只提交給所有leader是最佳選擇。

也就是能預先知道該資料是要到哪個leader，這個solrj好像有實現。solrcloudserver，分對更新的資料預先做分發請求。

先來講一下增加的更新邏輯

@Override
publicvoid processAdd(AddUpdateCommand cmd) throws IOException {
int hash = 0;
if (zkEnabled) {//cloud模式下
zkCheck();//檢查zk連線狀態
hash = hash(cmd);//取得更新請求hash值，再決定hash到哪一個shard
//判斷更新請求來源，決定需要轉發的nodes
nodes = setupRequest(hash);
} else {
isLeader = getNonZkLeaderAssumption(req);
}
boolean dropCmd = false;
if (!forwardToLeader) {

相關推薦

solrCloud 索引更新邏輯學習筆記

ZkCoreNodeProps 封裝了一個node的相關資訊，包括base_url，core_name,state,node_name,core_url,isLeader SolrCmdDistributor solr分散式更新的一個重要實現工具類，因為它本身的只負

[持續更新]HTML5學習筆記（二）

1.  元素分類元資料元素（metadata element）：由此可見主要是<meta>元素中的事情了，向瀏覽器提供資訊和指示；流元素（flow element）：聽名字怪異，但是其實是規定這些元素可以成為父元素；短語元素（phrasing elemen

[持續更新]CSS3學習筆記（一）偽類選擇器&自定義字型&背景圖片

CSS3學習筆記 1.  偽類選擇器 CSS3之前的偽類共有：::first-line,::first-letter, :after, :before, :hover, :active, :visited, :focus, :link,:first-child, :l

[持續更新]CSS3學習筆記（二）漸變&圓角&陰影&變換&動畫

1.  顏色模式在網頁中常見的顏色模式有：RGB，HSLA。 RGB 大家不陌生，分別代表red，green，blue。使用6位16進位制數表示。#00FF00； RGBA 就說多了一個Aplha透明通道。這個數值用0~1的數字來表示。rbga（255，255，255，0

SpringCloud學習筆記024---SpringBoot整合Lucene實現全文檢索_分詞_索引_更新_刪除文件_詞條搜尋_多條件查詢

先看程式碼實現,下面有lucene介紹: 測試用例 Github 程式碼程式碼我已放到 Github ，匯入spring-boot-lucene-demo 專案新增依賴  <dependency>

機器學習筆記（六）邏輯回歸

邏輯回歸 alt 表示結果不變改變最小值 nbsp 可能性一、邏輯回歸問題二分類的問題為是否的問題，由算出的分數值，經過sign函數輸出的是（+1，-1），想要輸出的結果為一個幾率值，則需要改變函數模型，其中，，則邏輯回歸的函數為二、邏輯回歸錯誤評價線性

struts2學習筆記——常見報錯及解決方法匯總（持續更新）

允許 clip 之間 con ack 技術 ext tro height 操作環境：（1）Tomcat 7.0.72.0 　　　　　（2）OS Name: Windows 7 　　　　（3）JVM Version: 1.8.0_25-b18 　　　　（4）e

.Net基礎篇_學習筆記_第四天_關系運算符和邏輯運算符

不能 main 運算 ram true con 是否 names 關系 1.關系運算符包含：> < <= >= == != 以及bool類型中的true和false。 2.邏輯運算符與 &

JavaSE中Collection集合框架學習筆記(1)——具有索引的List

alt 很快存取 array 架構圖一是第一個元素技術發現前言：因為最近要重新找工作，Collection（集合）是面試中出現頻率非常高的基礎考察點，所以好好惡補了一番。復習過程中深感之前的學習不系統，而且不能再像剛畢業那樣死背面試題，例如：String是

學習筆記：邏輯運算符也有優先級區別

php 運算符優先級 and or不嘗試還真不知道，居然是因為優先級的差別導致，如果是真實編程中遇到，排錯就很困難了，幸虧這裏看到了：$a = true; //聲明一個布爾型變量$a，賦值為真 $b = true; //聲明一個布爾型變量$b，賦值為真 $c

oracle學習筆記持續更新

.net 情況 style 空間 resource sdn detail reat net 1、創建表空間DATA_BASIC (1)Orale用戶登錄系統 (2)sqlplus / as sysdba; DBA用戶登錄數據庫；執行：create tablespace T

[知了堂學習筆記]_純JS制作《飛機大戰》遊戲_第3講(邏輯方法的實現)

了解隱藏 div 開始遊戲創建對象 eve 我們 span nbsp 整體展示：上一講實現了諸多對象，這次我們就需要實現許多邏輯方法，如控制飛機移動，判斷子彈擊中敵機，敵機與英雄飛機相撞等等。並且我們在實現這些功能的時候需要計時器去調用這些方法。setInt

【安全牛學習筆記】網絡配置、更新升級、安裝軟件包、瀏覽器插件

信息安全；網絡配置[email protected]:~# dhclient eth0 //用來通過 dhcp 協議配置本機的網絡接口[email protected]:~# ifconfig 查看現在的ip地址[email protected]:~# ifc

MongoDB 學習筆記之 TTL索引，部分索引和文本索引

強制類型支持行存儲 pan 事件搜索篩選 ext TTL索引： TTL集合支持mongodb對存儲的數據進行失效時間設置，經過指定的時間段後、或在指定的時間點過期，集合自動被mongod清除。這一特性有利於對一些只需要保存一定時間的數據信息進行存儲，比如機器產生

MongoDB 學習筆記之地理空間索引入門

geometry 分享如果 sphere mce insert del sap 計劃地理空間索引：地理空間索引，可用於處理基於地理位置的查詢。 Point:用於指定所在的具體位置，我們以restaurants為例： db.restaurants.insert({

MongoDB 學習筆記之 $or與索引關系

其中沒有默認 ont mes exp style explain alt $or與索引關系：對leftT集合的timestamp創建索引執行$or語句：db.leftT.find({$or: [{ "timestamp" : 5},{"age": 10}]}

EF學習筆記（八）：更新關聯數據

tro rop es2017 net sage red ida string entity 學習筆記主目錄鏈接：ASP.NET MVC5 及 EF6 學習筆記 - （目錄整理）上一篇鏈接：EF學習筆記（七）：讀取關聯數據本篇原文鏈接：Updating Related D

機器學習筆記(3)：多類邏輯回歸

display images 可能 https 都沒有 -s labels 明顯交叉仍然是動手學嘗試學習系列的筆記，原文見：多類邏輯回歸 — 從0開始。這篇的主要目的，是從一堆服飾圖片中，通過機器學習識別出每個服飾圖片對應的分類是什麽（比如：一個看起來

12W學習筆記——獨立子查詢，更新，刪除，建立視圖

記錄 date 筆記獨立 https 清空名單 sel 方式查詢的學習進入了最後階段了，接下來我就來介紹一下查詢最後的獨立子查詢。獨立子查詢基本上都是用SELECT FROM WHERE 三個語句。例：在學院表、專業表中，查詢人文與管理學院下設各專業的簡稱

學習筆記（九）——數據庫存儲結構：頁、聚集索引、非聚集索引

分享 style end 宋體 blog lec storage rop cas 1、頁 SQL Server用8KB 的頁來存儲數據，並且在SQL Server裏磁盤 I/O 操作在頁級執行。也就是說，SQL Server 讀取或寫入所有數據頁。頁有不同的類型，像

solrCloud 索引更新邏輯學習筆記

相關推薦