lucene的實戰入門
最近在寫個人部落格專案.有個需求.就是要求在前端頁面上有一個搜尋框,使用者可以根據這個搜尋框對所有部落格進行全文檢索,包括標題和正文,然後根據搜尋匹配度進行排序展示出來,並且要有高亮顯示,類似如下效果:
全文檢索的這個功能可以採用lucene這個框架實現.
具體lucene到底是什麼東西,官方定義是什麼,大家可以去百度,或者其他大佬們的部落格,寫的很明確.我這裡只說到底該怎麼做,具體的概念能省則省.
lucene的具體原理到底是什麼呢? 其實就是根據 索引 去查詢.
舉個例子:我們查字典,都先要在字典前面的各類索引目錄去查,然後在索引中找到具體想要的後,然後再去正文中去找.這樣一來要大大節省時間.
如果你感覺不出,找個對比就知道了,我們寫sql中的模糊搜尋的like語句.這條語句在搜尋過程中,其實是一條一條查的,就是每條記錄都要去檢視,資料量小的話還好,資料量一大,就費勁了.
而lucene呢,他是先建立索引檔案,然後根據 搜尋詞 去索引檔案查詢,然後直接定位到搜尋結果.雖然建立索引檔案是費時間的,但是索引檔案是具有可複用性的,以後的搜尋是大大節約時間的.
廢話不多說,直接看程式碼;
導包.
生成索引檔案
/** * 初始化生成所有已存在的部落格索引檔案 * @param blogList 所有部落格例項的集合 * @param request * @throws Exception */ public void createIndexInit(List<Blog> blogList,HttpServletRequest request) throws Exception { //獲取 索引寫入器 IndexWriter writer=getWriter(request); for (Blog b : blogList) { //根據實體,生成索引檔案 addOrUpdateDoc(writer, b,1); } writer.close(); }
/** * 獲取IndexWriter例項 * @return * @throws Exception */ private IndexWriter getWriter(HttpServletRequest request) throws Exception{ // 設定索引檔案存放的目錄,我這裡是獲取了專案在伺服器中的根目錄 dir=FSDirectory.open(Paths.get(WebFileUtil.getSystemRootPath(request)+indexFile)); // 中文分詞器 IKAnalyzer analyzer = new IKAnalyzer(); IndexWriterConfig iwc=new IndexWriterConfig(analyzer); // 根據分詞器和路徑得到 索引寫入器 的例項 IndexWriter writer=new IndexWriter(dir, iwc); return writer; }
/**
* 生成或修改索引檔案
* @param writer
* @param b
* @throws IOException
*/
public void addOrUpdateDoc(IndexWriter writer,Blog b,int temp) throws IOException {
// new一個Document 並寫入各個欄位
Document doc = new Document();
doc.add(new StringField("id",String.valueOf(b.getId()),Field.Store.YES));
doc.add(new TextField("title",b.getTitle(),Field.Store.YES));
doc.add(new StringField("releaseDate",DateUtil.formatDate(b.getReleaseDate(), "yyyy-MM-dd"),Field.Store.YES));
doc.add(new TextField("content",String.valueOf(b.getContentNoTag()),Field.Store.YES));
if(temp == 1) {
// 根據doc生成索引檔案
writer.addDocument(doc);
}else if(temp == 0) {
// 根據id修改索引檔案
writer.updateDocument(new Term("id", String.valueOf(b.getId())), doc);
}
}
這樣一來,就可以生成索引檔案了.
在我自己的專案中,我是每次進入首頁時 開始生成索引檔案,其實這樣是不對的.由於我目前的數量比較小,所以可以這樣做.一旦資料量巨大的話,每次進入首頁的速度就會變慢,這樣不好.像我這樣生成所有實體的索引檔案,應該是定期更新生成.平時呢,應該是當對部落格進行 增 刪 改 等操作時也應對其索引檔案進行 增 刪 改. 增加和刪除都在上面,刪除操作如下:
public void deleteIndex(Blog blog,HttpServletRequest request)throws Exception{
IndexWriter writer=getWriter(request);
writer.deleteDocuments(new Term("id",blog.getId()+""));
writer.forceMergeDeletes(); // 強制刪除
writer.commit();
writer.close();
}
當索引檔案都弄好後,我們就可以對其進行搜尋了.
/**
* 根據關鍵詞進行全文檢索
* @param queryWord
* @param request
* @return
* @throws Exception
*/
public List<Blog> searchBlog(String queryWord,HttpServletRequest request) throws Exception{
//1.找到索引檔案存放的位置
dir=FSDirectory.open(Paths.get(WebFileUtil.getSystemRootPath(request)+indexFile));
//2.建立reader 來讀取索引檔案
IndexReader reader = DirectoryReader.open(dir);
//3.建立searcher搜尋器
IndexSearcher searcher = new IndexSearcher(reader);
//多條件搜尋要用到的
BooleanQuery.Builder booleanQuery = new BooleanQuery.Builder();
//4.建立parser解析器 引數為 目標欄位 和 分詞器
QueryParser parser = new QueryParser("title",analyzer);//條件一
QueryParser parser2 = new QueryParser("content",analyzer);//條件二
//5.用 搜尋關鍵詞 利用parser解析器出結果
Query query = parser.parse(queryWord);//條件一
Query query2 = parser2.parse(queryWord);//條件二
booleanQuery.add(query,BooleanClause.Occur.SHOULD);
booleanQuery.add(query2,BooleanClause.Occur.SHOULD);
//設定高亮顯示配置器
QueryScorer scorer=new QueryScorer(query);
Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);
SimpleHTMLFormatter simpleHTMLFormatter=new SimpleHTMLFormatter("<b><font color='red'>","</font></b>");
Highlighter highlighter=new Highlighter(simpleHTMLFormatter, scorer);
highlighter.setTextFragmenter(fragmenter);
//獲取到符合條件的記錄,並且擷取前100條記錄,生成的是一個數組
TopDocs tds = searcher.search(booleanQuery.build(),100);
ScoreDoc[] scoreDocs = tds.scoreDocs;
//新建一個實體類的集合
List<Blog> blogList=new LinkedList<Blog>();
//遍歷doc陣列,將符合條件的記錄一一放進集合中去
for(ScoreDoc scoreDoc : scoreDocs) {
Document doc = searcher.doc(scoreDoc.doc);
Blog blog=new Blog();
blog.setId(Integer.parseInt(doc.get("id")));
blog.setReleaseDateStr(doc.get(("releaseDate")));
String title=doc.get("title");
String content=doc.get("content");
//對目標詞彙進行高亮顯示
TokenStream tokenStream = analyzer.tokenStream("title", new StringReader(title));
String hTitle=highlighter.getBestFragment(tokenStream, title);
if(StringUtils.isEmpty(hTitle)){
blog.setTitle(title);
}else{
blog.setTitle(hTitle);
}
tokenStream = analyzer.tokenStream("content", new StringReader(content));
String hContent=highlighter.getBestFragment(tokenStream, content);
if(StringUtils.isEmpty(hContent)){
if(content.length()<=200){
blog.setContent(content);
}else{
blog.setContent(content.substring(0, 200));
}
}else{
blog.setContent(hContent);
}
blogList.add(blog);
}
return blogList;
}
搜尋的這個方法,肯定是在controller中呼叫,在controller中獲取到前臺傳過來的搜尋詞,然後調用搜索方法並傳入搜尋詞,返回一個實體集合,剩下的就是業務邏輯了.基本思路就是這樣. 搜尋方法中每一步是做什麼的,可以看註釋