lucene 4.7 （2）全文檢索之查詢

阿新 • • 發佈：2019-02-13

package org.apache.lucene.demo;

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

import java.io.IOException;
import java.io.StringReader;
import java.util.Date;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.BooleanClause;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.QueryFilter;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Sort;
import org.apache.lucene.search.SortField;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.InvalidTokenOffsetsException;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleFragmenter;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;

import thtf.ebuilder.website.search.DBIndex;

/** Simple command-line based search demo. */
public class SearchFiles {

  private SearchFiles() {}

  /** Simple command-line based search demo. */
  public static void main(String[] args) throws Exception {

    String field = "INFO_CONTENT";
    String word = "舞蹈";
    int hitsPerPage = 10;
    
    IndexReader reader = DirectoryReader.open(FSDirectory.open(DBIndex._$.getIndexFile()));
    IndexSearcher searcher = new IndexSearcher(reader);
    QueryParser parser = new QueryParser(Version.LUCENE_47, field, DBIndex._$.analyzer);
      
      Query query = parser.parse(word);
      System.out.println("Searching for: " + query.toString(field));
            
      //排序
      Sort sort=new Sort(new SortField[]{new SortField("info_id", SortField.Type.INT, true)});
      //過濾
      BooleanQuery bqf = new BooleanQuery();
      bqf.add(query,BooleanClause.Occur.SHOULD);
       
      
        Date start = new Date();
       TopDocs tDocs=searcher.search(query,new QueryFilter(bqf),100,sort);
       System.out.println("查詢到："+tDocs.scoreDocs.length);
        Date end = new Date();
        System.out.println("Time: "+(end.getTime()-start.getTime())+"ms");

      doPagingSearch(word, searcher, query, hitsPerPage);
    reader.close();
  }

  /**
   * This demonstrates a typical paging search scenario, where the search engine presents 
   * pages of size n to the user. The user can then go to the next page if interested in
   * the next hits.
   * 
   * When the query is executed for the first time, then only enough results are collected
   * to fill 5 result pages. If the user wants to page beyond this limit, then the query
   * is executed another time and all hits are collected.
   * 
   */
  public static void doPagingSearch(String word,IndexSearcher searcher, Query query, 
                                     int hitsPerPage) throws IOException {
 
    // Collect enough docs to show 5 pages
    TopDocs results = searcher.search(query, 5 * hitsPerPage);
    ScoreDoc[] hits = results.scoreDocs;
    
    int numTotalHits = results.totalHits;
    System.out.println(numTotalHits + " total matching documents");

    int start = 0;
    int end = Math.min(numTotalHits, hitsPerPage);
      end = Math.min(hits.length, start + hitsPerPage);
      System.out.println(start+"-"+end);
      for (int i = start; i < end; i++) {
        Document doc = searcher.doc(hits[i].doc);
        SimpleHTMLFormatter formatter=new SimpleHTMLFormatter("<b><font color='red'>","</font></b>");
        Highlighter highlighter=new Highlighter(formatter, new QueryScorer(query));
        highlighter.setTextFragmenter(new SimpleFragmenter(400));
        String content=doc.get("info_title");
        if(content!=null){
          TokenStream tokenstream=DBIndex._$.analyzer.tokenStream(word, new StringReader(content));
          try {
            content=highlighter.getBestFragment(tokenstream, content);
          } catch (InvalidTokenOffsetsException e) {
            e.printStackTrace();
          }
          System.out.println(doc.get("info_id")+"\t"+content);
        }
      }
  }
}

lucene 4.7 （2）全文檢索之查詢

package org.apache.lucene.demo; /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTI

lucene4.7（3）全文檢索之相關類

public class DBIndex{ public static final config _$=new config(); public static class config{ public static final Analyzer analyzer=new StandardAnal

視圖框架：Spring MVC 4.0（2）

源碼 resolv pub 發出 variables 不同圖解 rect js xml 在《springMVC4(7)模型視圖方法源碼綜合分析》一文中，我們介紹了ModelAndView的用法，它會在控制層方法調用完畢後作為返回值返回，裏面封裝好了我們的業務邏輯數據和

[譯] 關於 SPA，你需要掌握的 4 層（2）

此文已由作者張威授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。檢視層現在我們有了一個可執行且不依賴於框架的應用程式，React 已經準備投入使用。檢視層由 presentational components 和 container components 組成。 present

C#入門經典第6版練習4.6（2）

（2）編寫一個應用程式，其中包含練習（1）中的邏輯，要求使用者輸入數字，並顯示它們，但拒絕接受兩個數字都大於10的情況，並要求使用者重新輸入。 using System; using System.C

4.GDscript（2）關鍵字，運算子，字面量

（來源godot官方文件）關鍵詞下面是該語言支援的關鍵字列表。由於關鍵字是保留字(令牌)，它們不能用作識別符號。操作符(如 in , not , and 或 or )以及下面列出的內建型別的名稱也是保留的。

Robot Framework接口測試（2）--http請求之get

pci frame font urllib status pac 只需要 install height 本來打算把http發送請求的get和post方法都介紹一下的，結果發現篇幅有點長，文本編輯也變得混亂，所以這裏先介紹一下get方法，下一次再post。其實這些方法大家

spring源碼閱讀（2）-- 容器啟動之加載BeanDefinition

不同的 from war resource encode 空間 getname contex import 　　在《spring源碼閱讀（1）-- 容器啟動之資源定位》一文中，閱讀了spring是怎麽根據用戶指定的配置加載資源，當加載完資源，接下來便是把從資源中加載Bean

微信開發學習總結（四）——自定義選單（2）——自定義選單查詢介面

自定義選單查詢介面使用介面建立自定義選單後，開發者還可使用介面查詢自定義選單的結構。另外請注意，在設定了個性化選單後，使用本自定義選單查詢介面可以獲取預設選單和全部個性化選單資訊。請求說明 http請求方式：GET https://api.weixin.qq.com/cg

理解OpenShift（2）：網路之 DNS（域名服務）

理解OpenShift（1）：網路之 Router 和 Route 理解OpenShift（2）：網路之 DNS（域名服務） OpenShift 叢集中，至少有三個地方需要用到 DNS：一是Pod 中的應用通過域名訪問外網的時候，需要DNS來解析外網的域名二是在叢集內部（p

跟廠長學PHP核心7（六）：變數之zval

記得網上流傳甚廣的段子“PHP是世界上最好的語言”，暫且不去討論是否言過其實，但至少PHP確實有獨特優勢的，比如它的弱型別，即只需要$符號即可宣告變數，使得PHP入手門檻極低，成為大家所青睞的Web服務端語言。那麼它的變數是如何實現的呢？我們今天就來學習一下PHP的基本變數。一、引言 PHP的變數儲存在

Mysql學習筆記（2）- 常見通用JOIN查詢

左連線 left join (A所有,包含與B的交集) select * from A left join B on A.key = B.key -- 結果 = A所有+AB交集右連線 rig

MySQL（2）資料庫表的查詢操作

來源參考https://www.cnblogs.com/whgk/p/6149009.html 跟著源部落格敲一遍可以加深對資料庫的理解，同時對其中一些程式碼做一些改變，可以驗證自己的理解。本文改動了其中的一些程式碼和內容，刪除了其中比較簡單的內容，以便於操作和理解。一、

java 基礎資料遍歷（2）----二維陣列查詢

題目要求：一個二維陣列中，每一行都按照從左到右遞增的順序排序，每一列都按照從上到下遞增的順序排序。請完成一個函式，輸入這樣的一個二維陣列和一個整數，判斷陣列中是否含有該整數。輸入描述: array：待查詢的二維陣列 target：查詢的數字輸

LDA原理（2）知識儲備之貝葉斯派和概率派

介紹貝葉斯派和概率派概率派認為要推斷的引數是固定的值，雖然概率是未知的，但是一定是固定的值，同時樣本是隨機的，既然這樣，他們的側重點就是研究樣本空間，比如我們不知道拋硬幣正面朝上的概率，那概率派的思路就是做很多次的拋硬幣的實驗，試驗次數越多，越能逼近概率

Django面試題系列（2）-ORM實現複雜查詢

假設有以下ORM模型： from django.db import models class Student(models.Model): """學生表""" name =

OpenCV入門教程（2）-Mat類之畫素的讀寫

一、矩陣元素的基本表達對於單通道影象,其元素型別一般為 8U(即 8 位無符號整數),當然也可以是 16S、32F等;這些型別可以直接用 uchar、short、float 等 C/C++語言中的基本資料型別表達。如果多通道影象,如 RGB 彩色影象,需

柯南君：看大資料時代下的IT架構（2）訊息佇列之RabbitMQ-基礎概念詳細介紹

在實際應用中，可能會發生消費者收到Quque中的訊息，但沒有處理完成就宕機的情況，這種情況下，就可能導致資訊丟失，為了避免這種情況發生，我們可以要求消費者在消費完訊息後傳送一個回執給RabbitMQ,RabbitMQ收到訊息回執（Message acknowledge）後，才將該訊息從Quque中移除。如果R

Shiro學習筆記（2）——身份驗證之Realm

環境準備建立java工程需要的jar包大家也可以使用maven，參考官網什麼是Realm 在我所看的學習資料中，關於Realm的定義，寫了整整一長串，但是對於初學者來說，看定義實在是太頭疼了。對於什麼是Realm，我使用

7.（高階）CSS形狀之：平行四邊形

一、平行四邊形方法一：2個HTML HTML <a href="#" class="button"> <div>Click me</div> </a> CSS .button{transform:skew(-45

lucene 4.7 （2）全文檢索之查詢

相關推薦