lucene 初探 - 查詢

阿新 • • 發佈：2017-12-27

log ets 執行 () 準備 parser 技術分享文件路徑 must

lucene初探, 是為了後面solr做準備的. 如果跳過lucene, 直接去看solr, 估計有點懵.

由於時間的關系, lucene查詢方法也有多個, 所以單獨出來.

一. 精確查詢

     /**
     * 獲取 查找對象
     * @return
     * @throws Exception
     */
    private IndexSearcher getSearcher() throws Exception {
        //1. 創建一個directory對象, 也就是索引庫存放的位置
        Directory directory = FSDirectory.open(new 
 File(indexDir));

        //2. 創建一個indexReader對象, 需要指定directory
        IndexReader indexReader = DirectoryReader.open(directory);

        //3. 創建一個indexSearcher對象, 需要指定indexReader對象
        IndexSearcher indexSearcher = new IndexSearcher(indexReader);

        return indexSearcher;
    }

     /**
     * 輸出信息到控制臺
     *  
@param indexSearcher
     * @param query
     * @throws Exception
     */
    public void sout(IndexSearcher indexSearcher, Query query) throws Exception {
        //5. 執行查詢
        TopDocs topDocs = indexSearcher.search(query, 5);

        //6. 返回查詢結果
        ScoreDoc[] scoreDocs = topDocs.scoreDocs;
         
for (ScoreDoc scoreDoc : scoreDocs) {
            //獲取文檔id
            int doc = scoreDoc.doc;
            //根據文檔id獲取文檔
            Document document = indexSearcher.doc(doc);
            //文件名字
            String fileName = document.get("fileName");
            //文件大小
            String fileSize = document.get("fileSize");
            //文件路徑
            String filePath = document.get("filePath");
            //文件內容
            String fileContent = document.get("fileContent");

            System.out.println("fileName : " + fileName);
            System.out.println("fileSize : " + fileSize);
            System.out.println("filePath : " + filePath);
            System.out.println("fileContent : " + fileContent);
            System.out.println("-----------------------");
        }
    }

     /**
     * 精確查詢
     *
     * @throws Exception
     */
    @Test
    public void searchIndex() throws Exception {

        //1. 獲取查詢對象
        IndexSearcher indexSearcher = getSearcher();

        //2. 創建一個TermQuery對象, 指定查詢的域和查詢的關鍵詞
        Query query = new TermQuery(new Term("fileName", "生活"));

        sout(indexSearcher, query);

        //3. 關閉IndexReader 對象
        indexSearcher.getIndexReader().close();
    }

在查詢的時候, 新建一個Term對象, 進去精確匹配. 前一篇提到過, 經過分詞器分下來的每一個詞或者一段話, 就是一個Term.

這裏在新建Term的時候, 傳入的是域名和要搜索的詞.

這裏, 一個Term對象, 只有一個域, 那如果我想查詢多個域怎麽辦呢.

二. 組合查詢

/**
 * 組合查詢
 */
@Test
public void queryBoolean() throws Exception {
    IndexSearcher searcher = getSearcher();

    BooleanQuery query = new BooleanQuery();

    Query query1 = new TermQuery(new Term("fileName", "生活"));
    Query query2 = new TermQuery(new Term("fileContent", "生活"));

    query.add(query1, BooleanClause.Occur.MUST);
    query.add(query2, BooleanClause.Occur.SHOULD);

    //System.out.println(query);

    sout(searcher, query);

    searcher.getIndexReader().close();
}

這裏的Occur枚舉值, 有三個, must, should, must_not .

must : 相當於sql裏面的 and 連接

should : 相當於 or , 可有可沒有

must_not : 相當於 != , 不包含

這裏如果打印query, 會顯示: +fileName:生活 fileContent:生活

這是lucene的一種語法, lucene可以根據語法來查詢數據. 後面會提到. 如果是must_not , 則使用減號.

如: 將上面的query2使用 MUST_NOT 連接, 則顯示成: +fileName:生活 -fileContent:生活

三 . 查詢所有

一般查詢數據庫的時候, 都會提供一個 getAll 方法, 用於查詢滿足條件的所有數據, 當不傳條件時, 就查詢所有

lucene也提供了一個查詢所有的方法 : MatchAllDocsQuery

/**
 * 查詢所有
 *
 * @throws Exception
 */
@Test
public void queryAll() throws Exception {
    IndexSearcher searcher = getSearcher();

    Query query = new MatchAllDocsQuery();

    sout(searcher, query);

    searcher.getIndexReader().close();
}

四. 數值區間查詢

/**
 * 數值區間查詢
 *
 * @throws Exception
 */
@Test
public void queryNumericRange() throws Exception {
    IndexSearcher searcher = getSearcher();

    Query query = NumericRangeQuery.newLongRange("fileSize", 10L, 647L, true, true);

    sout(searcher, query);

    searcher.getIndexReader().close();
}

這裏的語法輸出就是 : fileSize:[40 to 647]

這是因為我後面兩個都設置為true, 表示包含關系. 如果都設置為false, 就是 {40 to 647}

五. 分詞器解析查詢

如前面提到的, 我輸入一句話查詢, 結果展示的結果卻並不是按照我輸入的全匹配結果.

那是因為在查詢之前, 對輸入的信息, 進行了分詞器解析, 然後根據解析結果, 再去查詢數據.

/**
 * 條件解析對象查詢
 *
 * @throws Exception
 */
@Test
public void queryParser() throws Exception {

    IndexSearcher searcher = getSearcher();

    QueryParser queryParser = new QueryParser("fileName", new IKAnalyzer());

    //Query query = queryParser.parse("*:*");
    Query query = queryParser.parse("fileName:這花好漂亮");
    //Query query = queryParser.parse("花");

    sout(searcher, query);

    searcher.getIndexReader().close();
}

*:* 表示查詢所有. 不管是哪個域.

fileName:這花好漂亮 : 表示在fileName域中, 將 "這花好漂亮" 分詞解析後, 進行查詢

花 : 在fileName域中, 查詢花. 因為在QueryParse創建的時候, 指定了域為 fileName

即使我在QueryParser裏面指定了要查詢的域, 但是在parse的時候, 我可以重新指定域.

這裏需要註意的是, 在上面數值區間查詢的時候, 如果我直接寫語法進去查詢, 是查不出來的. 因為數值類型變了. 通過語法輸進去, 變成字符串類型了.

技術分享圖片

從結果中可以看到, 我輸入這花好漂亮, 查出來的卻是軍中綠花. 這就是分詞的作用了.

六. 多域分詞查詢

/**
 * 條件解析對象查詢
 *
 * @throws Exception
 */
@Test
public void queryMultiParser() throws Exception {

    IndexSearcher searcher = getSearcher();

    String[] fields = {"fileName", "fileContent"};
    MultiFieldQueryParser queryParser = new MultiFieldQueryParser(fields, new IKAnalyzer());

    Query query = queryParser.parse("生活大爆炸");

    sout(searcher, query);

    searcher.getIndexReader().close();
}

多域分詞查詢, 沒啥好說的了.

lucene 初探 - 查詢

log ets 執行 () 準備 parser 技術分享文件路徑 must lucene初探, 是為了後面solr做準備的. 如果跳過lucene, 直接去看solr, 估計有點懵. 由於時間的關系, lucene查詢方法也有多個, 所以單獨出來. 一. 精確查詢

lucene 初探

聚集分享圖片 ive 獲取出現 void top readfile 創建索引前言: 　　window文件管理右上角, 有個搜索功能, 可以根據文件名進行搜索. 那如果從文件名上判斷不出內容, 我豈不是要一個一個的打開文件, 查看文件的內容, 去判斷是否是我要的文件?

lucene分組查詢的簡單使用

網上介紹的Lucene分組查詢的過程大多比較複雜，這裡提供一個較為簡單的實現，可以滿足基本的分組查詢需求。 1.首先引入依賴  <!-- https://mvnrepository.com/artif

【手把手教你全文檢索】Apache Lucene初探

PS: 苦學一週全文檢索，由原來的搜尋小白，到初次涉獵，感覺每門技術都博大精深，其中精髓亦是不可一日而語。那小博豬就簡單介紹一下這一週的學習歷程，僅供各位程式猿們參考，這其中不涉及任何私密話題，因此也不用打馬賽克了，都是網路分享的開源資料，當然也不涉及任何利益關係。　　如若轉載，還請註明出處——

lucene多種查詢方式

package junit; import java.io.File; import java.io.IOException; import java.text.ParseException; import java.util.ArrayList; import java.util.List; imp

lucene搜索之高級查詢

ice 數組 cto tab 分詞 apach 後者最小值支持使用Query子類查詢 MatchAllDocsQuery TermQuery NumericRangeQuery BooleanQuery 使用QueryParser QueryParser

Lucene實現索引和查詢

ont termquery 文件夾移植指定安裝過程 buffer upd 遇到 0引言　　隨著萬維網的發展和大數據時代的到來，每天都有大量的數字化信息在生產、存儲、傳遞和轉化，如何從大量的信息中以一定的方式找到滿足自己需求的信息，使之有序化並加以利用成為一大難題。全

Lucene筆記26-Lucene的使用-自定義QueryParser解決部分查詢的效能問題

一、使用自定義QueryParser的原因對於某些QueryParser（FuzzyQuery、WildcardQuery）在查詢時會使得效能降低，所以考慮將這些查詢取消。在具體的查詢時候，很可能有這樣一種需求：獲取的是一個數字查詢範圍，所以必須要擴充套件原有的QueryPa

Lucene筆記12-Lucene的搜尋-複習和再查詢分頁搜尋

一、Lucene的分頁搜尋 Lucene的分頁不像資料庫中的limit的方式，而是提供了一種“再查詢”的方式。什麼是“再查詢”呢？就是第一次把所有的資料都取出來，第二次查詢再根據需求，從第幾條取到第幾條，分兩步進行查詢，所以叫“再查詢”。二、測試程式碼 package com.ws

ELK：kibana使用的lucene查詢語法

kibana在ELK陣營中用來查詢展示資料 elasticsearch構建在Lucene之上，過濾器語法和Lucene相同 kibana官方演示頁面全文搜尋在搜尋欄輸入login，會返回所有欄位值中包含login的文件使用雙引號包起來作為一個短語搜尋 “like Ge

Elasticsearch初探（3）——簡單查詢與中文分詞

一、簡單查詢 1.1 查詢全部請求方式： GET 請求路徑： ES服務的IP：埠/索引名/{分組，可省略}/_search 以上篇文章建立的索引為例，搜尋結果如下： { "took": 0, "timed_out": false, "

基於Lucene查詢原理分析Elasticsearch的效能

摘要：前言 Elasticsearch是一個很火的分散式搜尋系統，提供了非常強大而且易用的查詢和分析能力，包括全文索引、模糊查詢、多條件組合查詢、地理位置查詢等等，而且具有一定的分析聚合能力。因為其查詢場景非常豐富，所以如果泛泛的分析其查詢效能是一個非常複雜的事情，而且除了

Lucene查詢語法詳解

Lucene查詢 Lucene查詢語法以可讀的方式書寫，然後使用JavaCC進行詞法轉換，轉換成機器可識別的查詢。下面著重介紹下Lucene支援的查詢： Terms詞語查詢詞語搜尋，支援單詞和語句。單詞，例如："test","hello" 語句，例如："hello,world!" 多個詞語可以

Lucene之分頁查詢的三種方式-yellowcong

分頁查詢有三種，一種是直接查詢出這頁及這頁以後的資料，第二種，查詢這頁以前的最後一條資料，然後再查詢這頁之後的資料，這種方式還不如第一種方法快，第三種，是根據一個id來進行分頁，這種方式適合不變更的資料方法1 思路是將所有的查詢取來，然後取自己當前

Lucene 查詢中的距離查詢(proximity query)

我們在使用 ELK 的時候，使用 Lucene querystring 語法的機會，遠超過使用 Elasticsearch 的 query DSL。畢竟在搜尋框裡寫語法比自己拼 JSON 簡單多了。不過一般我們用的 querystring 語法總是最簡單的幾樣：

10、索引庫的查詢四之：Lucene的高階搜尋技術

Lucene的高階搜尋技術首先要說的就是 SpanTermQuery ，他和TermQuery用法很相似，唯一區別就是SapnTermQuery可以得到Term的span跨度資訊，用法如下：@Test

spring+hibernate初探（電影查詢專案）

一、spring框架簡介 Spring是一個開放原始碼的設計層面框架，他解決的是業務邏輯層和其他各層的鬆耦合問題，因此它將面向介面的程式設計思想貫穿整個系統應用。Spring是於2003 年興起的一個輕量級的Java 開發框架，由Rod Johnson建立。簡單來說，Spring是一個分層的

Lucene多欄位查詢&高亮顯示

在百度搜索的時候，查詢的關鍵詞會高亮顯示在搜尋一個關鍵詞的時候，有可能這個關鍵詞在title和content中，搜尋的時候要把結果全部顯示出來例項說明 package com.bart.lucene.mutilseacher; import

Lucene之模糊、精確、匹配、範圍、多條件查詢-yellowcong

Lucene的查詢方式很豐富，對於數值型別的資料，採取TermRangeQuery的方式，對於String型別的，就可以採取TermQuery等，查詢方式了，可以通過採取合適的查詢方式，檢索到資料。Queryparser這個查詢方式包含了其他幾種查詢方式

JAVAWEB開發之Lucene詳解——Lucene入門及使用場景、全文檢索、索引CRUD、優化索引庫、分詞器、高亮、相關度排序、各種查詢

Lucene入門應用場景 windows系統中的有搜尋功能：開啟“我的電腦”，按“F3”就可以使用查詢的功能，查詢指定的檔案或資料夾。搜尋的範圍是整個電腦中的檔案資源。 Eclipse中的幫助子系統：點選Help->Help Contents，可以查找出相關的幫助資

lucene 初探 - 查詢

相關推薦