lucene學習之針對多索引的搜尋

阿新 • • 發佈：2019-01-02

在實際應用中，很多應用程式保持多個分離的Lucene索引，但有需要在搜尋過程中能夠將結果合併輸出，比如新聞網站每天都會建立不同索引，但是搜尋一個月的新聞時就需要合併輸出結果。這時可以使用如下方式：

mreader = new MultiReader(readera,readern);
        searcher = new IndexSearcher(mreader);//4.0以後的MultiSearcher替換成這樣

可以看到我們需要使用MultiReader這個類，將讀不同索引的reader封裝在一塊。
下面是實現程式碼

import java.io.IOException 
;

import junit.framework.TestCase;

import org.apache.lucene.analysis.*;
import org.apache.lucene.analysis.core.*;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.index.DirectoryReader;
import org.apache 
.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.MultiReader;
import org.apache.lucene.search.*;
import org.apache.lucene.store.*;


public class MultiSearcherTest extends TestCase{
    private static IndexSearcher searcher; 

    static IndexReader readera;
    static IndexReader readern;
    static MultiReader mreader;

    public static void testMulti() throws IOException{
        String[] animals = {
                "aardvark","beaver","coati","dog",
                "elephant","frog","gila monster",
                "horse","iguana","javelina","kangroo",
                "lemur","moose","rematode","orca",
                "python","quoka","rat","scorpion",
                "tarantula","uromastyx","vicuna",
                "walrus","xiphias","yak","zebra"
        };
        Analyzer analyzer = new WhitespaceAnalyzer();
        Directory aTOmDirectory = new RAMDirectory();//建立兩個目錄
        Directory nTOzDirectory = new RAMDirectory();
        IndexWriterConfig configa = new IndexWriterConfig(analyzer);
        IndexWriterConfig confign = new IndexWriterConfig(analyzer);
        IndexWriter aTOmWriter = new IndexWriter(aTOmDirectory,configa);
        IndexWriter nTOzWriter = new IndexWriter(nTOzDirectory,confign);

        for(int i = animals.length - 1;i >= 0;i--){
            Document doc = new Document();
            String animal  = animals[i];
            doc.add(new StringField("animal",animal,Field.Store.YES));
            if(animal.charAt(0) < 'n'){
                aTOmWriter.addDocument(doc);
            }else{ 
                nTOzWriter.addDocument(doc);
            }
        }


        readera = DirectoryReader.open(aTOmWriter,true);
        readern = DirectoryReader.open(nTOzWriter,true);
        aTOmWriter.close();
        nTOzWriter.close();
        mreader = new MultiReader(readera,readern);
        searcher = new IndexSearcher(mreader);//4.0以後的MultiSearcher替換成這樣
        TermRangeQuery query = TermRangeQuery.newStringRange("animal","h","t",true,true);
        TopDocs hits = searcher.search(query, 10);
        System.out.println("一共搜尋到結果："+hits.totalHits+"條");
        for(ScoreDoc s:hits.scoreDocs){
            Document doc = searcher.doc(s.doc);//通過序號得到檔案
            System.out.println("序號為"+s.doc+"   "+"animal:"+doc.get("animal"));
        }
        assertEquals("tarantula not included",12,hits.totalHits);
    }

    public static void main(String args[]) throws IOException{
        testMulti();
    }
}

TermRangeQuery類查詢包含從h到t開頭的動物名稱，匹配的文件來自於兩個不同的索引。結果如下：
執行結果
當然上面程式是一個searcher單執行緒操作，也可以使用多執行緒的辦法，lucene5中提供了ParalleLeafReader類。

lucene學習之針對多索引的搜尋

在實際應用中，很多應用程式保持多個分離的Lucene索引，但有需要在搜尋過程中能夠將結果合併輸出，比如新聞網站每天都會建立不同索引，但是搜尋一個月的新聞時就需要合併輸出結果。這時可以使用如下方式： mreader = new MultiReader(readera,readern);

lucene學習之近實時搜尋

下面是近實時搜尋的一個例子 public class IndexFenci {private static String[] ids = {"1","2","3"};private static String[] citys = {"北京","南京","上海"};priva

lucene學習之Field常用型別

Field類資料型別 Analyzed是否分詞 Indexed是否索引 Stored是否儲存說明 StringField(FieldName, FieldValue,Store.YES)) 字串

HTML5學習之WebWork多執行緒處理

多執行緒技術在服務端技術中已經發展的很成熟了，而在Web端的應用中卻一直是雞肋在新的標準中，提供的新的WebWork API，讓前端的非同步工作變得異常簡單。使用：建立一個Worker物件，指向一個js檔案，然後通過Worker

C++學習之對多型的理解

最近學習C++多型及子類記憶體結構，有一些理解與看法，記錄下來 1.多型產生，虛擬函式，虛擬函式指標，虛擬函式表這一部分不詳細描述，個人參考的書籍是Siddhartha Rao的<21天學通C++>的第11章:多型瞭解了編譯器利用虛擬函式表與物件的虛擬函式指標來實現多型的

JAVA學習之路(多執行緒)---模擬售票(細解)

首先看題目描述：假設有火車票100張，建立4個執行緒模擬4個售票點，每100ms售出一張，打印出售票過程，格式如下：視窗3：賣出第100張票視窗4：賣出第99張票 ............ ............ 簡單的思路就是建立一個類，首先肯定要去繼承Thread。開啟執行

菜鳥的C#學習之旅——多型的實現途徑

目錄一、定義二、虛方法：三、抽象類與抽象方法：四、介面實現：五、總結：一、定義多型：在面嚮物件語言中，介面的多種不同實現方式即為多型多型性就是指在程式執行時，執行的雖然是一個呼叫方法的語句，卻可以根據派生類物件的型別的不同完成方法不同的具體實現

theano學習之更多高階用法

前面我們已經瞭解了關於機器學習和神經網路的基礎知識：學習了 theano 的基本功能，學習建立了迴歸神經網路，以及新增神經層的類，也建立了分類神經網路，知道了兩種網路在求 cost 時的方法是不一樣的，並且認識了 overfitting&n

Lucene學習之高亮顯示

在搜尋引擎中我們經常會看到這樣的情景：紅色部分我們稱之為高亮顯示，lucene提供了HighLighter模組來實現這一功能。高亮顯示模組通常包含兩個獨立的功能，首先是動態拆分，就是從匹配搜尋的大量文字中選取一小部分句子。第二個內容就是高亮顯示。我們先來看下高亮顯示的原理：

Lucene學習之拼寫檢查

在搜尋引擎中，我們往往會遇見下面的情景這其實就是拼寫檢查的應用，lucene的suggest模組就是為此而設的。首先需要的是一個有效的拼寫檢查的源詞典。 private static String dicpath = "G:\\downloads\\LJParser_

Lucene學習之Facet

Facet簡單來說就是點選某個品牌或者網路，獲取更細分的結果。也就是站在不同的方面去搜索會得到不同的結果，其主要API支援，我們通過一段程式碼來看 import java.io.IOException; import java.util.ArrayList; import java.u

lucene學習之建立自定義排序

Lucene提供了一套強大的API來幫助我們實現自定義排序，本節我們使用一個距離搜尋的例子來闡述：其實核心是換一個comparator就成，而這個排序器用在哪裡呢，如下所示： package custom; import java.io.IOException; import o

Hive學習之檢視、索引DDL

建立檢視檢視是純邏輯物件並不關聯任何儲存，下面的語句使用給定view_name名稱建立檢視，若view_name與現存的表或者檢視重名，則出錯。 CREATE VIEW [IF NOT EXISTS] view_name [(column_name [COM

Android學習之解決多次點選導致Toast不斷彈出的問題

當點選某個控制元件會彈出Toast時，如果直接使用Toast.makeText()的方式的話，會發現在我們多次點選的情況下，Toast會延遲地不斷地出現，直到點選的次數的Toast出現完畢為止，這種情

基於Lucene.Net包裝的傻瓜索引搜尋系統

最初做了一個快速搜尋的系統，但是改動很多，就考慮把這個系統給做成一個簡化的Lucene應用。把複雜的東西過濾掉，幫助只想應用的使用者相對輕鬆的應用Lucene快速搜尋。下載地址如下： http://download.csdn.net/detail/raykenio/42

Lucene學習篇之高亮搜尋結果

前言： import org.apache.lucene.document.Document; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.index.IndexRe

Lucene學習篇之修改/刪除索引

前言：修改示例： import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.document.Stri

Lucene學習總結之七：Lucene搜尋過程解析

2.4、搜尋查詢物件 2.4.4、收集文件結果集合及計算打分在函式IndexSearcher.search(Weight, Filter, int) 中，有如下程式碼： TopScoreDocCollector collector = TopScoreDocCollector.create

Lucene學習總結之七：Lucene搜尋過程解析(1)

一、Lucene搜尋過程總論搜尋的過程總的來說就是將詞典及倒排表資訊從索引中讀出來，根據使用者輸入的查詢語句合併倒排表，得到結果文件集並對文件進行打分的過程。其可用如下圖示：總共包括以下幾個過程： IndexReader開啟索引檔案，讀取並開啟指向索引檔案的流。

Lucene學習總結之七：Lucene搜尋過程解析(7)轉

2.4、搜尋查詢物件 2.4.3.2、並集DisjunctionSumScorer(A OR B) DisjunctionSumScorer中有成員變數List<Scorer> subScorers，是一個Scorer的連結串列，每一項代表一個倒排表，Dis

lucene學習之針對多索引的搜尋

相關推薦