Lucene 合併倒排表演算法之交集

阿新 • • 發佈：2018-12-22

可能大家都知道,lucene採用了傳統搜尋引擎中倒排表的資料結構.在搜尋時，假設我們要查詢"+(a:test)+(b:test1)"的話,首先要先查詢得到a欄位中包含 test關鍵字的倒排表,然後查詢得到b欄位中包含test1關鍵字的倒排表,然後對兩個倒排表結構進行merge操作：計算兩者間的交集就是我們的查詢結果.

當然這只是其中一個例子罷了.實際情況中,因為查詢條件不同和複雜性,我們可能會遇到更多對倒排表的操作:交集,並集,差集等.本文主要講述lucene如何對交集進行處理:合併倒排表,生成SumScorer結果.

第一步:過濾篩選:

先對每個倒排表進行檢查:每個倒排表都是一個DocIdSetIterator,如果其中一個倒排表中list為空,則說明交集肯定為空,不需要進行接下來的工作:

for (int i = 0; i < scorers.length; i++) { if (scorers[i].nextDoc() == NO_MORE_DOCS) { // If even one of the sub-scorers does not have any documents, this // scorer should not attempt to do any more work. lastDoc = NO_MORE_DOCS; return; } } 時間複雜度為O(N)常量級別

第二步:對倒排表陣列進行排序:效果是倒排表陣列按照每個倒排表第一個docid進行升級排序:

Arrays.sort(scorers, new Comparator() { // sort the array public int compare(Object o1, Object o2) { return ((Scorer) o1).docID() - ((Scorer) o2).docID(); } });

第三步:刪減無用docid:因為是對多個倒排表求交集,所以需要先篩選去掉倒排表中那些比較小的docid:

if (doNext() == NO_MORE_DOCS) { // The scorers did not agree on any document. lastDoc = NO_MORE_DOCS; return; } doNext():該方法做的事情就是:比如倒排表陣列中每個倒排表第一個docId分別為1,3,4,5,6,7;因為每個倒排表迭代器都是升序的,所以其實1,3,4,5,6在最後一個倒排表中沒有,所以每個倒排表都應該從7開始,而不是1: int first = 0; int doc = scorers[scorers.length - 1].docID(); Scorer firstScorer; while ((firstScorer = scorers[first]).docID() < doc) { doc = firstScorer.advance(doc); first = first == scorers.length - 1 ? 0 : first + 1; } return doc; advance方法: if (lastDoc == NO_MORE_DOCS) { return lastDoc; } else if (scorers[(scorers.length - 1)].docID() < target) { scorers[(scorers.length - 1)].advance(target); } return lastDoc = doNext();

Lucene 合併倒排表演算法之交集

Lucene 合併倒排表演算法之交集

Lucene 合併倒排表演算法之並集

Lucene倒排索引簡述之倒排表

Lucene倒排索引簡述之索引表

MapReduce--帶有詞頻統計的倒排索引演算法

lucene中倒排索引的記憶體結構

搜尋引擎入門 --- 倒排索引演算法

海量資料處理專題（八）——倒排索引(搜尋引擎之基石)(轉)

檔案倒排索引演算法及其hadoop實現

【大資料】實驗三文件倒排索引演算法

lucene和倒排索引

（四）單鏈接表演算法之刪除節點

（七）雙鏈表演算法之遍歷

Elasticsearch是通過Lucene的倒排索引 VS Mysql Btree

Lucene全文檢索之倒排索引實現原理、API解析【2018.11】

lucene倒排索引表搜尋原理

經典演算法之兩個有序單鏈表合併

mapreduce演算法之倒排索引

資料結構——演算法之（033）（兩個有序單鏈表合併為一個有序的單鏈表）

虛擬記憶體之倒排頁表

Lucene 合併倒排表演算法之交集

相關推薦