javaEE Lucene，全文檢索，站內搜尋，入門程式。索引庫的新增

阿新 • • 發佈：2018-12-11

注意：搜尋使用的分析器(分詞器)要和建立索引時使用的分析器一致。

Field類(域物件)：

Test.java（入門程式測試類）：

package com.xxx.lucene;

import static org.junit.Assert.*;

import java.io.File;

import org.apache.commons.io.FileUtils;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.document.LongField;
import org.apache.lucene.document.StoredField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;
import org.junit.Test;
import org.wltea.analyzer.lucene.IKAnalyzer;

//Lucene入門案例。 建立索引、查詢索引
public class Test {

	// 建立索引
	@Test
	public void testIndex() throws Exception {
		// 第一步：建立一個java工程，並匯入jar包。
		// 第二步：建立一個indexwriter物件。
		// 1）指定索引庫的存放位置Directory物件
		// 2）指定一個分析器，對文件內容進行分析(分詞)。
		Directory directory = FSDirectory.open(new File("D:\\temp\\index"));
		// Directory directory = new RAMDirectory(); //儲存索引到記憶體中 （記憶體索引庫）
		//Analyzer analyzer = new StandardAnalyzer(); // 官方推薦(解析英文)
		Analyzer analyzer = new IKAnalyzer();  // 推薦使用的中文分析器
		IndexWriterConfig config = new IndexWriterConfig(Version.LATEST, analyzer); //Version根據匯入的Jar包選擇,LATEST表示最新的。 
		IndexWriter indexWriter = new IndexWriter(directory, config);
		
		// 第三步：建立field物件和Document物件，將field新增到document物件中。
		File f = new File("D:\\Lucene&solr\\searchsource");
		File[] listFiles = f.listFiles();
		for (File file : listFiles) {
			// 建立document物件。
			Document document = new Document();
			// 檔名稱 (Document物件的field物件)
			String file_name = file.getName();
			Field fileNameField = new TextField("fileName", file_name, Store.YES);
			// 檔案大小 (field)
			long file_size = FileUtils.sizeOf(file);
			Field fileSizeField = new LongField("fileSize", file_size, Store.YES);
			// 檔案路徑 (field)
			String file_path = file.getPath();
			Field filePathField = new StoredField("filePath", file_path);
			// 檔案內容 (field)
			String file_content = FileUtils.readFileToString(file);
			Field fileContentField = new TextField("fileContent", file_content, Store.NO);

			document.add(fileNameField);
			document.add(fileSizeField);
			document.add(filePathField);
			document.add(fileContentField);
			// 第四步：使用indexwriter物件將document物件寫入索引庫，此過程進行索引建立。並將索引和document物件寫入索引庫。
			indexWriter.addDocument(document);

		}
		// 第五步：關閉IndexWriter物件。
		indexWriter.close();
		
	}

	
	// 查詢索引
	@Test
	public void testSearch() throws Exception {
		// 第一步：建立一個Directory物件，也就是索引庫存放的位置。
		Directory directory = FSDirectory.open(new File("D:\\temp\\index"));// 磁碟
		// 第二步：建立一個indexReader物件，需要指定Directory物件。
		IndexReader indexReader = DirectoryReader.open(directory);
		// 第三步：建立一個indexsearcher物件，需要指定IndexReader物件
		IndexSearcher indexSearcher = new IndexSearcher(indexReader);
		// 第四步：建立一個TermQuery物件，指定查詢的域(field)和查詢的關鍵詞。
		Query query = new TermQuery(new Term("fileName", "abc"));  //fileName是(field)域名,abc是(域值)搜尋關鍵字
		// 第五步：執行查詢。 (查詢索引,根據索引查詢文件Document的id)
		TopDocs topDocs = indexSearcher.search(query, 10);  //10表示前10條
		// 第六步：返回查詢結果。遍歷查詢結果並輸出。
		ScoreDoc[] scoreDocs = topDocs.scoreDocs;
		for (ScoreDoc scoreDoc : scoreDocs) {
			int doc = scoreDoc.doc; //獲取文件Document的id。(從0開始,自增的id)
			Document document = indexSearcher.doc(doc); //根據id查詢文件。
			// 檔名稱
			String fileName = document.get("fileName"); //根據域名獲取域值
			System.out.println(fileName);
			// 檔案內容
			String fileContent = document.get("fileContent");
			System.out.println(fileContent);
			// 檔案大小
			String fileSize = document.get("fileSize");
			System.out.println(fileSize);
			// 檔案路徑
			String filePath = document.get("filePath");
			System.out.println(filePath);
			System.out.println("------------");
		}
		// 第七步：關閉IndexReader物件(流)
		indexReader.close();

	}

	
	// 檢視各種分析器的分詞效果(程式碼瞭解)
	@Test
	public void testTokenStream() throws Exception {
		// 建立一個標準分析器物件
		//Analyzer analyzer = new StandardAnalyzer();  //標準分詞器
		//Analyzer analyzer = new CJKAnalyzer();  //中日韓分詞器  (二分法分詞)
		//Analyzer analyzer = new SmartChineseAnalyzer();  //需要匯入Jar包: lucene-analyzers-smartcn-4.10.3.jar (不能擴充套件詞庫,禁用詞庫同義詞庫不好處理) 
		Analyzer analyzer = new IKAnalyzer();  //推薦使用的中文分詞器。 (需要匯入IKAnalyzer2012FF_u1.jar;IKAnalyzer.cfg.xml、src/ext.dic、src/stopword.dic) 
		// 獲得tokenStream物件
		// 第一個引數：域名，可以隨便給一個
		// 第二個引數：要分析的文字內容
		//TokenStream tokenStream = analyzer.tokenStream("test",
		//		"The Spring Framework provides a comprehensive programming and configuration model.");
		TokenStream tokenStream = analyzer.tokenStream("test",
				"高富帥可以用二維表結構來邏輯表達實現的資料");
		// 新增一個引用，可以獲得每個關鍵詞
		CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
		// 新增一個偏移量的引用，記錄了關鍵詞的開始位置以及結束位置
		OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);
		// 將指標調整到列表的頭部
		tokenStream.reset();
		// 遍歷關鍵詞列表，通過incrementToken方法判斷列表是否結束
		while (tokenStream.incrementToken()) {
			// 關鍵詞的起始位置
			System.out.println("start->" + offsetAttribute.startOffset());
			// 取關鍵詞
			System.out.println(charTermAttribute);
			// 結束位置
			System.out.println("end->" + offsetAttribute.endOffset());
		}
		tokenStream.close();
	}

}

javaEE Lucene，全文檢索，站內搜尋，入門程式。索引庫的新增

注意：搜尋使用的分析器(分詞器)要和建立索引時使用的分析器一致。 Field類(域物件)： Test.java（入門程式測試類）： package com.xxx.lucene; import static org.junit.Assert.*; im

14套java精品高級架構課，緩存架構，深入Jvm虛擬機，全文檢索Elasticsearch視頻教程

http soft 精品 target mysql rocket body 精通 ava 14套java精品高級架構課，緩存架構，深入Jvm虛擬機，全文檢索Elasticsearch，Dubbo分布式Restful服務，並發原理編程，SpringBoot，SpringClo

hexo next主題站內搜尋出現異常，無法正常跳轉，跳轉時出現異常

主要看看跳轉後的url是什麼，如果url異常，就需要在站點配置檔案（注意不是主題配置檔案）下面看看你的url和永久連結設定的是否正確。如下所示： # URL ## If your site is put in a subdirectory, set url as 'http://yo

百度站內搜尋https不可用切換api搜尋，加上谷歌api站內搜尋

google推https幾年了，百度開始宣傳全面https，但是，百度站內搜尋自己的服務卻不走https，介面報錯。百度分享也是。然後採用http://search.zhoulujun.cn/cse/search ，用了7-8個月的樣子，還是繼續，不聲不響地改變了配置了，突然就不通了——而且

lucene教程--全文檢索技術

bss bsp 詳細 .cn 總結 bbs 實例demo 技術 .net 1 Lucene 示例代碼 https://blog.csdn.net/qzqanzc/article/details/80916430 2 Lucene 4.7 學習及實例

Lucene（全文檢索）

介紹 Lucene是一個開放原始碼的全文檢索引擎工具包，但它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎，部分文字分析引擎。 A）什麼是索引庫索引庫是Lucene的一個重要的儲存結構，它包括二部份：原始記錄表(value)，詞彙/關

lucene框架全文檢索搜尋引擎方案

搜尋引擎技術方案搜尋引擎方案功能需求背景： ----有搜尋引擎需求功能需求提高查詢效率，關鍵詞全文檢索。不需要訪問多次資料庫，只能一次資料庫查詢。準確關鍵詞全文檢索。由於查詢功能效

Lucene實現全文檢索

1.配置開發壞境 1.1.下載Lucene(http://lucene.apache.org/ ) jdk要求 1.8 以上 1.2.匯入jar包下載完之後解壓裡面有所需Jar包 2. 編寫入門案列 2.1建立索引 2.2 查詢索引 2.3 中文分析

使用Lucene進行全文檢索(二)---得到有效的內容(轉載)

在使用lucene對相關內容進行索引時,會遇到各種格式的內容,例如html,pdf,word等等,那麼我們如何從這麼文件中得到我們需要的內容哪?例如html的內容,一般我們不需要對html標籤建立索引,因為那不是我們需要搜尋的內容.這個時候,我們就需要從html內容中解析

Lucene之全文檢索的流程

一、索引和搜尋流程圖 1、綠色表示索引過程，對要搜尋的原始內容進行索引構建一個索引庫，索引過程包括：確定原始內容即要搜尋的內容-----採集文件-----建立文件-----分析文件-----索引文件 2、紅色表示搜尋過程，從索引庫中搜索內容，搜尋過程包括：使用者通過搜尋介面---

Lucene之全文檢索

一、資料庫搜尋資料庫中的搜尋很容易實現，通常都是使用sql語句進行查詢，而且能很快的得到查詢結果。為什麼資料庫搜尋很容易？因為資料庫中的資料儲存是有規律的，有行有列而且資料格式、資料長度都是固定的。二、資料分類我們生活中的資料總體分為兩種：結構化資料和非結構化資料。結構

SSM整合Lucene實現全文檢索

1.Lucene概述Lucene是一款使用Java語言編寫的全文檢索框架Lucene是簡單而功能強大的基於Java的搜尋庫。它可以用於任何應用程式來搜尋功能。 Lucene是開源專案。它是可擴充套件的，高效能的庫用於索引和搜尋幾乎任何型別的文字。 Lucene庫提供了所需的任

Lucene開源全文檢索引擎快速入門

Lucene是一個用Java開發的開源全文檢索引擎，官網是：http://lucene.apache.org/ ，Lucene不是一個完整的全文索引應用（與之對應的是solr），而是是一個用Java寫的全文索引引擎工具包，它可以方便的嵌入到各種應用中實現針對應用的全文索引/檢索功能，更多

oracle的dense_rank函式，實現分組後組內排序，取最值一組資料

1.按VESSEL_CD, SYEAR, SMonth進行分組，組內資料按SENDDATE排序。 select VESSEL_CD, SYEAR, SMonth, to_char(SENDDATE, 'yyyy-mm-dd hh24

【Lucene】Apache Lucene全文檢索引擎架構之搜尋功能

　　上一節主要總結了一下Lucene是如何構建索引的，這一節簡單總結一下Lucene中的搜尋功能。主要分為幾個部分，對特定項的搜尋；查詢表示式QueryParser的使用；指定數字範圍內搜尋；指定字串開

SpringCloud學習筆記024---SpringBoot整合Lucene實現全文檢索_分詞_索引_更新_刪除文件_詞條搜尋_多條件查詢

先看程式碼實現,下面有lucene介紹: 測試用例 Github 程式碼程式碼我已放到 Github ，匯入spring-boot-lucene-demo 專案新增依賴  <dependency>

靜態變數的初始化，靜態變數在類內定義，在類外進行初始化。

靜態變數的初始化，只能在類外進行，靜態變數在類外初始化要加上::,同時不能加上static 關鍵了。為什麼不在類內進行初始化，因為靜態變數是公共的，不依賴與每個物件，所以它是獨立的，所以靜態變數

探索Lucene.Net全文檢索

在CSDN,部落格園找了一番Lucene.Net相關資料後，最後發現還是沒有自己想要的，畢竟lucene.net版本一直在變，這裡我用的是Lucene.Net 3.0的版本，demo是在http://www.dotlucene.net/ 網站裡面找到的。方法很完善，API也

solr：基於lucene的全文檢索解決方案

採用Lucene搜尋庫為核心，提供全文索引和搜尋開源企業平臺，提供REST的HTTP/XML和JSON的API，如果你是Solr新手，那麼就和我一起來入門吧！本教程以solr4.8作為測試環境，jdk版本需要1.7及以上版本。準備本文假設你對J

使用Lucene進行全文檢索---進行搜尋

無論是建立索引還是分析內容,都是為了使用者的搜尋服務. 在Lucene中,如果需要使用搜索,需要使用Searcher類,這是一個抽象類,它有2個子類:IndexSearcher和MultiSearcher. IndexSearcher是對一個索引進行搜尋,如果你需

javaEE Lucene，全文檢索，站內搜尋，入門程式。索引庫的新增

Test.java（入門程式 測試類）：

相關推薦

Test.java（入門程式測試類）：