Elasticsearch使用Scroll-Scan實現資料遍歷

阿新 • • 發佈：2019-01-15

Elasticsearch 是一個實時的分散式搜尋與分析引擎，被廣泛用來做全文搜尋、結構化搜尋、結果分析。在實際應用中有時需要遍歷某個索引的全部資料，這時使用分頁檢索的形式效率會比較差。

分頁檢索即from-size形式，from指的是從哪裡開始拿資料，size是結果集中返回的文件個數。from-size的工作原理是：如size=10&from=100，那麼Elasticsearch會從每個分片裡取出110條資料，然後彙集到一起再排序，取出101~110序號的文件。由此可見，from-size的效率必然不會很高，特別是分頁越深，需要排序的資料越多，其效率就越低。

這時更為有效的方法是使用Scroll-Scan。Scroll是先做一次初始化搜尋把所有符合搜尋條件的結果快取起來生成一個快照，然後持續地、批量地從快照里拉取資料直到沒有資料剩下。而這時對索引資料的插入、刪除、更新都不會影響遍歷結果，因此scroll 並不適合用來做實時搜尋。Scan是搜尋型別，告訴Elasticsearch不用對結果集進行排序，只要分片裡還有結果可以返回，就返回一批結果。scroll- scan使用中不能跳頁獲取結果，必須一頁接著一頁獲取。

為了使用scroll-scan，需要執行一個初始化搜尋請求，將search_type設定成scan，並且傳遞一個scroll引數來告訴 Elasticsearch快取應該持續多長時間，在快取持續時間內初始化搜尋請求後對索引的修改不會反應到快照中。每次搜尋請求後都會返回一個scrollId，是一個 64 位的字串編碼，後續會使用此scrollId來獲取資料。scroll時間指的是本次資料處理所需要的時間，如果超過此時間，繼續使用該scrollId搜尋資料則會報錯。在使用scroll-scan時可以指定返回結果集大小，在 scan 的時候，size 作用在每個分片上，所以將會在每批次中得到最大為 size * 主分片數個文件。

JAVA示例

public class ScrollTest {
	public static void main(String[] args) {
		JSONObject resultObject = null;
		Client esClient = ESClientHelper.getInstance().getClient();
		SearchResponse searchResponse = esClient.prepareSearch("index")
				.setSearchType(SearchType.SCAN)
				// 實際返回的數量為5*index的主分片個數
				.setSize(5)
				// 這個遊標維持多長時間
				.setScroll(TimeValue.timeValueMinutes(8)).execute().actionGet();
		// 第一次查詢，只返回數量和一個scrollId
		System.out.println(searchResponse.getScrollId());
		System.out.println(searchResponse.getHits().getTotalHits());
		System.out.println(searchResponse.getHits().hits().length);
		System.out.println("------------------------------");
		// 使用上次的scrollId繼續訪問
		ScrollTest scroll = new ScrollTest();
		do{
			int num = scroll.scanData(esClient,searchResponse.getScrollId());
			if(num ==0) break;
		}while(true);
		System.out.println("------------------------------END");
	}
	
	private int scanData (Client esClient, String scrollId){
		SearchResponse searchResponse = esClient.prepareSearchScroll(scrollId)
				.setScroll(TimeValue.timeValueMinutes(8)).execute().actionGet();
		System.out.println(searchResponse.getScrollId());
		System.out.println(searchResponse.getHits().getTotalHits());
		int num = searchResponse.getHits().hits().length;
		System.out.println(searchResponse.getHits().hits().length);
		JSONObject resultObject = null;
		for (SearchHit hit : searchResponse.getHits()) {
			String json = hit.getSourceAsString();
			try {
				resultObject = new JSONObject(json);
			} catch (JSONException e) {
				e.printStackTrace();
			}
		}
		return num;
	}
}

Elasticsearch使用Scroll-Scan實現資料遍歷

Elasticsearch使用Scroll-Scan實現資料遍歷

【sql】-儲存過程實現迴圈遍歷一列資料

大資料學習[16]--使用scroll實現Elasticsearch資料遍歷和深度分頁[轉]

foreach 實現 MyBatis 遍歷集合與批量操作資料

算法-實現each遍歷多維數組(javascript)

Java實現深度遍歷和廣度遍歷數及其應用

golang實現樹遍歷

AJAX資料遍歷輸出

select下拉選擇框實現迴圈遍歷資料庫

excel 資料讀取，資料遍歷，獲取日期資料和合並單元格資料

C語言實現由遍歷序列構造二叉樹

freemarker網頁靜態化生成靜態頁面，資料遍歷，freemarker編輯器

相關子查詢——用子查詢實現類似遍歷的效果（部門工資前三高的員工）

Java 實現深度遍歷和廣度遍歷數及其應用

無限極分類如何把資料遍歷成 tree 結構

js構建二叉樹，實現深度遍歷

八：go陣列及資料遍歷

小程式ajax獲取資料遍歷前幾名樣式不一樣

解決後端資料遍歷前端標籤新增事件

PTA 6-2 二叉樹的遍歷（25 分） 25分程式碼（陣列實現層次遍歷）

Elasticsearch使用Scroll-Scan實現資料遍歷

相關推薦