Lucene4.10使用教程(四)：lucene的Search

阿新 • • 發佈：2019-01-24

package com.johnny.lucene02.search;

import java.io.File;
import java.io.IOException;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Date;
import java.util.HashMap;
import java.util.Map;

import org.apache.commons.io.ByteOrderMark;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.IntField;
import org.apache.lucene.document.LongField;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.FuzzyQuery;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.NumericRangeQuery;
import org.apache.lucene.search.PhraseQuery;
import org.apache.lucene.search.PrefixQuery;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TermRangeFilter;
import org.apache.lucene.search.TermRangeQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.WildcardQuery;
import org.apache.lucene.search.BooleanClause.Occur;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.util.BytesRef;
import org.apache.lucene.util.Version;
/**
* 對於中文來說，Lucene提供的search基本上不能使用，使用中文分詞器替換即可
* @author Johnny
*
*/
public class SearchUtil {
   private Version Lucene_Version = Version.LUCENE_4_10_2;
   private Directory directory;
   private DirectoryReader reader = null;
   private String[] ids = {"1","2","3","4","5","6"};
   private String[] emails = {"

[email protected]","[email protected]","[email protected]","[email protected]","[email protected]","[email protected]"};
   private String[] contents = {
           "welcome to visited the space,I like book java",
           "hello boy, I like pingpeng ball",
           "my name is cc I like game java",
           "I like football",
           "I like football and I like basketball too",
           "I like movie and swim java"
   };
   private Date[] dates = null;
   private int[] attachs = {2,3,1,4,5,5};
   private String[] names = {"zhangsan","lisi","john","jetty","mike","jake"};

   public SearchUtil() {
//       directory = new RAMDirectory();
       try {
           directory = FSDirectory.open(new File("/Users/ChinaMWorld/Desktop/index/"));
           setDates();
       } catch (IOException e) {
           e.printStackTrace();
       }
   }

   private void setDates() {
       SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");
       try {
           dates = new Date[ids.length];
           dates[0] = sdf.parse("2010-02-19");
           dates[1] = sdf.parse("2012-01-11");
           dates[2] = sdf.parse("2011-09-19");
           dates[3] = sdf.parse("2010-12-22");
           dates[4] = sdf.parse("2012-01-01");
           dates[5] = sdf.parse("2011-05-19");
       } catch (ParseException e) {
           e.printStackTrace();
       }
   }


   public void index() {
       IndexWriter writer = null;
       try {
           writer = new IndexWriter(directory,new IndexWriterConfig(Lucene_Version, new StandardAnalyzer()));
           //writer.deleteAll();
           Document doc = null;
           for(int i=0;i<ids.length;i++) {
               doc = new Document();
               doc.add(new StringField("id",ids[i],Store.YES));
               doc.add(new StringField("email", emails[i],Store.YES));
               doc.add(new TextField("content", contents[i], Store.NO));
               doc.add(new StringField("name",names[i], Store.YES));
               //儲存數字
               doc.add(new IntField("attach",attachs[i], Store.YES));
               //儲存日期
               doc.add(new LongField("date", dates[i].getTime(), Store.YES));

               String et = emails[i].substring(emails[i].lastIndexOf("@")+1);
               System.out.println(et);
               /**
               * 在Lucene4.x中，只能給域加權，部門給文件加權，如果要提高文件的加權，需要給
               * 文件的每個域進行加權
               * **/

               writer.addDocument(doc);
           }
       } catch (IOException e) {
           e.printStackTrace();
       } finally{
           try{
               if(writer!=null) writer.close();
           }catch(Exception ex){
               ex.printStackTrace();
           }
       }
   }

   public IndexSearcher getSearcher() {
       try {
           if(reader==null) {
               reader = DirectoryReader.open(directory);
           } else {
               DirectoryReader tr = DirectoryReader.openIfChanged(reader) ;
               if(tr!=null) {
                   reader.close();
                   reader = tr;
               }
           }
           return new IndexSearcher(reader);
       } catch (CorruptIndexException e) {
           e.printStackTrace();
       } catch (IOException e) {
           e.printStackTrace();
       }
       return null;
   }

   /**
   * 指定field進行查詢，termquery不能進行數字和日期的查詢
   * 日期的查詢需要轉成數字進行查詢，
   * 數字查詢使用NumbericRangeQuery
   * @param field
   * @param name
   * @param num
   */
   public void searchByTerm(String field,String name,int num) {
       try {
           IndexSearcher searcher = getSearcher();
           Query query = new TermQuery(new Term(field,name));
           TopDocs tds = searcher.search(query, num);
           System.out.println("一共查詢了:"+tds.totalHits);
           for(ScoreDoc sd:tds.scoreDocs) {
               Document doc = searcher.doc(sd.doc);
               System.out.println(doc.get("id")+"---->"+
                       doc.get("name")+"["+doc.get("email")+"]-->"+doc.get("id")+","+
                       doc.get("attach")+","+doc.get("date"));
           }
       } catch (CorruptIndexException e) {
           e.printStackTrace();
       } catch (IOException e) {
           e.printStackTrace();
       }
   }

   public void searchByTermRange(String field,String start,String end,int num) {
       try {
           IndexSearcher searcher = getSearcher();
           Query query = new TermRangeQuery(field,new BytesRef(start.getBytes()),new BytesRef(end.getBytes()) , true, true);
           TopDocs tds = searcher.search(query, num);
           System.out.println("一共查詢了:"+tds.totalHits);
           for(ScoreDoc sd:tds.scoreDocs) {
               Document doc = searcher.doc(sd.doc);
               System.out.println(doc.get("id")+"---->"+
                       doc.get("name")+"["+doc.get("email")+"]-->"+doc.get("id")+","+
                       doc.get("attach")+","+doc.get("date"));
           }
       } catch (CorruptIndexException e) {
           e.printStackTrace();
       } catch (IOException e) {
           e.printStackTrace();
       }
   }



   public void searchByQueryParse(Query query,int num) {
       try {
           IndexSearcher searcher = getSearcher();
           TopDocs tds = searcher.search(query, num);
           System.out.println("一共查詢了:"+tds.totalHits);
           for(ScoreDoc sd:tds.scoreDocs) {
               Document doc = searcher.doc(sd.doc);
               System.out.println(doc.get("id")+"---->"+
                       doc.get("name")+"["+doc.get("email")+"]-->"+doc.get("id")+","+
                       doc.get("attach")+","+doc.get("date")+"=="+sd.score);
           }
       } catch (CorruptIndexException e) {
           e.printStackTrace();
       } catch (IOException e) {
           e.printStackTrace();
       }
   }
   /***如果想要獲取為儲存到索引中得值，可以根據ID去原始檔中進行查詢並返回**/
   public void searchPage(String query,int pageIndex,int pageSize) {
       try {
           IndexSearcher searcher = getSearcher();
           QueryParser parser = new QueryParser("content",new StandardAnalyzer());
           Query q =null;
           try {
               q = parser.parse(query);
           } catch (org.apache.lucene.queryparser.classic.ParseException e) {
               e.printStackTrace();
           }
           TopDocs tds = searcher.search(q, 500);
           ScoreDoc[] sds = tds.scoreDocs;
           int start = (pageIndex-1)*pageSize;
           int end = pageIndex*pageSize;
           if(end>=sds.length) end = sds.length;
           for(int i=start;i<end;i++) {
               Document doc = searcher.doc(sds[i].doc);
               String id = doc.get("id");
               int arrInt = -1;
               for(int j=0;j<ids.length;j++){
                   if(id.equals(ids[j])){
                       arrInt = j;
                       break;
                   }
               }

               System.out.println(sds[i].doc+":"+doc.get("name")+"-->"+contents[arrInt]);
           }

       } catch (IOException e) {
           e.printStackTrace();
       }
   }

   /**
   * 根據頁碼和分頁大小獲取上一次的最後一個ScoreDoc
   */
   private ScoreDoc getLastScoreDoc(int pageIndex,int pageSize,Query query,IndexSearcher searcher) throws IOException {
       if(pageIndex==1)return null;//如果是第一頁就返回空
       int num = pageSize*(pageIndex-1);//獲取上一頁的數量
       TopDocs tds = searcher.search(query, num);
       return tds.scoreDocs[num-1];
   }
   /***
   * 在使用時，searchAfter查詢的是指定頁數後面的資料，效率更高，推薦使用
   * @param query
   * @param pageIndex
   * @param pageSize
   */
   public void searchPageByAfter(String query,int pageIndex,int pageSize) {
       try {
           IndexSearcher searcher = getSearcher();
           QueryParser parser = new QueryParser("content",new StandardAnalyzer());
           Query q = null;
           try {
               q = parser.parse(query);
           } catch (org.apache.lucene.queryparser.classic.ParseException e) {
               e.printStackTrace();
           }
           //先獲取上一頁的最後一個元素
           ScoreDoc lastSd = getLastScoreDoc(pageIndex, pageSize, q, searcher);
           //通過最後一個元素搜尋下頁的pageSize個元素
           TopDocs tds = searcher.searchAfter(lastSd,q, pageSize);
           for(ScoreDoc sd:tds.scoreDocs) {
               Document doc = searcher.doc(sd.doc);
               String id = doc.get("id");
               int arrInt = -1;
               for(int j=0;j<ids.length;j++){
                   if(id.equals(ids[j])){
                       arrInt = j;
                       break;
                   }
               }
               System.out.println(doc.get("name")+"-->"+contents[arrInt]);
           }
       } catch (IOException e) {
           e.printStackTrace();
       }
   }


}

測試程式碼如下：

Lucene4.10使用教程(四)：lucene的Search

Lucene4.10使用教程(四)：lucene的Search

Spring Cloud 入門教程(四)：分布式環境下自動發現配置服務

Spring Boot系列教程四：配置文件詳解properties

Shiro學習系列教程四：集成web(二)

Spring Security教程(四)：自定義登入頁

Java開發公眾號系列教程(四)：公眾號訊息推送|事件訊息|模板訊息應用

Spring Boot基礎教程 ( 四 ) ：Spring Boot 屬性配置檔案詳解

Quartz教程四：Trigger

PostGIS教程四：載入空間資料

熊大UWB系列教程四：UWB超寬頻三基站定位系統原理介紹與效果展示

MVC教程四：Controller向View傳值的幾種方式

教你如何開發VR遊戲系列教程四：UI 設計

【QT】QT從零入門教程(四)：選單欄、工具欄、狀態列

Google Map API Version3 教程(四)：給marker標記加上自定義內容

springcloud 系列教程四：服務消費者（Feign）

WebGL簡易教程(四)：顏色

Lucene4.10使用教程(六)：Lucene的過濾器

Lucene4.10使用教程(九)：Tika

《C#圖解教程》讀書筆記之四：類和繼承

Spring 基礎教程之四：JavaBean基本配置詳解

Lucene4.10使用教程(四)：lucene的Search

相關推薦