Lucene全文檢索--實戰篇

阿新 • • 發佈：2019-01-10

一、配置開發環境

版本：lucene4.10.3

Jdk要求：1.7以上

IDE：Eclipse

jar包：

Lucene包：

lucene-core-4.10.3.jar

lucene-analyzers-common-4.10.3.jar

lucene-queryparser-4.10.3.jar

其它：

commons-io-2.4.jar

junit-4.9.jar

二、建立索引庫

第一步：建立一個java工程，並匯入jar包。

第二步：建立一個indexwriter物件。

指定索引庫的存放位置Directory物件
指定一個分析器，對文件內容進行分析。

第二步：建立document物件。

第三步：建立field物件，將field新增到document物件中。

第四步：使用indexwriter物件將document物件寫入索引庫，此過程進行索引建立。並將索引和document物件寫入索引庫。

第五步：關閉IndexWriter物件。

//建立索引
	@Test
	public void createIndex() throws Exception {
		
		//指定索引庫存放的路徑
		Directory directory = FSDirectory.open(new File("D:\\temp\\0108\\index"));
		
		//建立一個標準分析器（分析器有很多種）
		Analyzer analyzer = new StandardAnalyzer();

		//建立indexwriterCofig物件
		//第一個引數： Lucene的版本資訊，可以選擇對應的lucene版本也可以使用LATEST
		//第二根引數：分析器物件
		IndexWriterConfig config = new IndexWriterConfig(Version.LATEST, analyzer);

		//建立indexwriter物件
		IndexWriter indexWriter = new IndexWriter(directory, config);

		//原始文件的路徑
		File dir = new File("D:\\04.lucene\\01.參考資料\\searchsource");

		for (File f : dir.listFiles()) {
			//檔名
			String fileName = f.getName();
			//檔案內容
			String fileContent = FileUtils.readFileToString(f);
			//檔案路徑
			String filePath = f.getPath();
			//檔案的大小
			long fileSize  = FileUtils.sizeOf(f);

			//建立檔名域
			//第一個引數：域的名稱
			//第二個引數：域的內容
			//第三個引數：是否儲存
			Field fileNameField = new TextField("filename", fileName, Store.YES);
			//檔案內容域
			Field fileContentField = new TextField("content", fileContent, Store.YES);
			//檔案路徑域（不分析、不索引、只儲存）
			Field filePathField = new StoredField("path", filePath);
			//檔案大小域
			Field fileSizeField = new LongField("size", fileSize, Store.YES);
			
			//建立document物件
			Document document = new Document();
			document.add(fileNameField);
			document.add(fileContentField);
			document.add(filePathField);
			document.add(fileSizeField);
			//建立索引，並寫入索引庫
			indexWriter.addDocument(document);
		}
		//關閉indexwriter
		indexWriter.close();
	}

【注意】Field域的屬性

三、查詢索引庫

生成的索引檔案，可以使用Luke進行檢視！使用很簡單，這裡面就不做介紹了！

四、查詢索引

第一步：建立一個Directory物件，也就是索引庫存放的位置。

第二步：建立一個indexReader物件，需要指定Directory物件。

第三步：建立一個indexsearcher物件，需要指定IndexReader物件

第四步：建立一個TermQuery物件，指定查詢的域和查詢的關鍵詞。

第五步：執行查詢。

第六步：返回查詢結果。遍歷查詢結果並輸出。

第七步：關閉IndexReader物件

//查詢索引庫
	@Test
	public void searchIndex() throws Exception {

		//指定索引庫存放的路徑
		Directory directory = FSDirectory.open(new File("D:\\temp\\0108\\index"));

		//建立indexReader物件
		IndexReader indexReader = DirectoryReader.open(directory);

		//建立indexsearcher物件
		IndexSearcher indexSearcher = new IndexSearcher(indexReader);

		//建立查詢
		Query query = new TermQuery(new Term("filename", "apache"));

		//執行查詢
		//第一個引數是查詢物件，第二個引數是查詢結果返回的最大值
		TopDocs topDocs = indexSearcher.search(query, 10);

		//查詢結果的總條數
		System.out.println("查詢結果的總條數："+ topDocs.totalHits);

		//遍歷查詢結果
		//topDocs.scoreDocs儲存了document物件的id
		for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
			//scoreDoc.doc屬性就是document物件的id
			//根據document的id找到document物件
			Document document = indexSearcher.doc(scoreDoc.doc);
			System.out.println(document.get("filename"));
			//System.out.println(document.get("content"));
			System.out.println(document.get("path"));
			System.out.println(document.get("size"));
		}
		//關閉indexreader物件
		indexReader.close();
	}

【注意】

IndexSearcher搜尋方法

TopDocs

該部分介紹的查詢比較簡單，後面會介紹複雜查詢！

五、索引庫刪除

//刪除全部索引
	@Test
	public void deleteAllIndex() throws Exception {
        //getIndexWriter 詳見上文
		IndexWriter indexWriter = getIndexWriter();
		//刪除全部索引
		indexWriter.deleteAll();
		//關閉indexwriter
		indexWriter.close();
	}

//根據查詢條件刪除索引
	@Test
	public void deleteIndexByQuery() throws Exception {
		IndexWriter indexWriter = getIndexWriter();
		//建立一個查詢條件
		Query query = new TermQuery(new Term("filename", "apache"));
		//根據查詢條件刪除
		indexWriter.deleteDocuments(query);
		//關閉indexwriter
		indexWriter.close();
	}

六、索引庫的修改

//修改索引庫
	@Test
	public void updateIndex() throws Exception {

		IndexWriter indexWriter = getIndexWriter();

		//建立一個Document物件
		Document document = new Document();

		//向document物件中新增域。
		document.add(new TextField("filename", "要更新的文件", Store.YES));
		document.add(new TextField("content", "2013年11月18日 - Lucene 簡介", Store.YES));

		indexWriter.updateDocument(new Term("content", "java"), document);

		//關閉indexWriter
		indexWriter.close();
	}

Lucene全文檢索--實戰篇

一、配置開發環境版本：lucene4.10.3 Jdk要求：1.7以上 IDE：Eclipse jar包： Lucene包： lucene-core-4.10.3.jar lucene-analyzers-

Lucene全文檢索--理論篇

【案例】實現一個檔案的搜尋功能，通過關鍵字搜尋檔案，凡是檔名或檔案內容包括關鍵字的檔案都需要找出來。還可以根據中文詞語進行查詢，並且需要支援多個條件查詢。本案例中的原始內容就是磁碟上的檔案，如下圖： 1. 全文檢索(Full-text Search) &n

48.lasticsearch全文檢索實戰小結——覆盤我帶的第二個專案(Elasticsearch實戰篇)

一、專案概述這是一個被我稱之為“沒有槍、沒有炮，硬著頭皮自己造”的專案。專案是和其它公司合作的三個核心模組開發。使用ES的目的是： 1）、採集資料、網站資料清洗後存入ES； 2）、對外提供精確檢索、萬用字元檢索、模糊檢索、分詞檢索、全文檢索介面等二次封裝介面。二、專案架構

《從Lucene到Elasticsearch：全文檢索實戰》學習筆記一

img 要求用戶查詢 tex sea 系統 Lucene ext 早期今天，我主要給大家講一下信息檢索概念。 ? ? ? ?信息檢索： ? ? ? ?互聯網時代的飛速發展使人們進入了信息爆炸時代，據統計全球的互聯網用戶已達到30億，在各個網站及移動app在每個分鐘產生

《從Lucene到Elasticsearch：全文檢索實戰》學習筆記二

天我給大家講講分詞演算法分詞演算法概述：詞是語義的最小單位。分詞對搜尋引擎的作用很大，可以促進搜尋引擎程式自動識別語句的含義，可以提高搜尋結果的匹配度，分析的質量也將直接影響了搜尋結果的精確度。分詞存在於文字索引的建立過程和使用者提交檢索過程。利用相同的分詞器把短

《從Lucene到Elasticsearch：全文檢索實戰》學習筆記三

數據庫核心但是 .net 實戰 cse 內容 acl elastics 今天我給大家講講倒排索引。索引是構成搜索引擎的核心技術之一，它在日常生活中是非常常見的，比如我看一本書的時候，我首先會看書的目錄，通過目錄可以快速定位到具體章節的頁碼，加快對內容的查詢

《從Lucene到Elasticsearch：全文檢索實戰》學習筆記四

思維方式 ear 作者邏輯優先原創 blog article 開源今天我給大家講講布爾檢索模型基本概念布爾檢索模型：檢索模型是判斷文檔內容與用戶相關性的核心技術，以大規模網頁搜索為例，在海量網頁中與用戶查詢關鍵詞相關的網頁可能會有成千上萬個，甚至耕

《從Lucene到Elasticsearch：全文檢索實戰》學習筆記五

今天我給大家講講tf-idf權重計算 tf-idf權重計算： tf-idf(中文詞頻-逆文件概率)是表示計算詞項對於一個文件集或語料庫中的一份檔案的重要程度。詞項的重要性隨著它在文件中出現的次數成正比，會隨著它在文件集中出現的頻率成反比。如果一個詞項在

【Lucene】Apache Lucene全文檢索引擎架構之入門實戰

　　Lucene是一套用於全文檢索和搜尋的開源程式庫，由Apache軟體基金會支援和提供。Lucene提供了一個簡單卻強大的應用程式介面，能夠做全文索引和搜尋。在Java開發環境裡Lucene是一個成熟的免費開源工具。就其本身而言，Lucene是當前以

Lucene全文檢索引擎

getname 通過 nal dem 檢索數據庫 project cep 關閉 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSch

Lucene 全文檢索入門

sdi 執行 option getter itl .get png 廣泛 fig 博客地址：http://www.moonxy.com 一、前言 Lucene 是 apache 軟件基金會的一個子項目，由 Doug Cutting 開發，是一個開放源代碼的全文檢索引擎工具包

lnmp+coreseek實現站內全文檢索(安裝篇)

lec into .... 第一次 undefine 庫類 rwx rtm ocs 軟件安裝包安裝環境系統環境 centos7.2 1核2G 軟件環境 coreseek-3.2.14 lnmp1.5 安裝mmseg 更新依賴包和安裝編譯環境 y

Spring Boot企業級開發前後端分離博客系統+Thymeleaf實戰+Jpa數據持久化實戰+全文檢索實戰+架構設計與分層+API設計

聲明 thymeleaf 項目 sys eat 設計 article serve tis 前端項目名為wh-web後端項目名為wh-server項目展示地址為我的github pages（https://smallsnail-wh.github.io）用戶名：admin，密

Lucene全文檢索之倒排索引實現原理、API解析【2018.11】

》官網 http://lucene.apache.org/ 下載地址：https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/java/7.5.0/ 》 Lucene的全文檢索是指什麼：程式掃描文件

Lucene全文檢索框架

Lucene全文檢索框架 1、什麼時Lucene？是一個全文搜尋框架，而不是應用產品，他只是一種工具讓你能實現某些產品，並不像www.baidu.com拿來就能用是apache組織的一個用java實現的全文搜尋引擎的開源專案 2、Luncen的工作方式？提供的服務實際包含兩部分：一入一

Lucene全文檢索學習

花了一段時間學習lucene今天有時間把所學的寫下來，網上有很多文章但大部分都是2.X和3.X版本的（當前最新版本4.9）,希望這篇文章對自己和初學者有所幫助。學習目錄（1）什麼是lucene （2）lucene常用類詳解（3）lucene簡單例項（4）luce

Lucene全文檢索隨筆

一，什麼是全文檢索全文檢索是計算機程式通過掃描文章中的每一個詞，對每一個詞建立一個索引，指明該詞在文章中出現的次數和位置。當用戶查詢時根據建立的索引查詢，類似於通過字典的檢索字表查字的過程。全文檢索（Full-Text Retrieval）以文字作為檢索物件，找出含有指定詞彙的文字。全面、準確和快速是

Lucene全文檢索入門使用

一、什麼是全文檢索全文檢索是計算機程式通過掃描文章中的每一個詞，對每一個詞建立一個索引，指明該詞在文章中出現的次數和位置。當用戶查詢時根據建立的索引查詢，類似於通過字典的檢索字表查字的過程全文檢索（Full-Text Retrieval）以文字作為檢索物件，找出含有指定詞彙的文字。全面、準確和快速是

Lucene&全文檢索

目錄結構: 1.全文檢索 2.Lucene入門 3.Lucene進階全文檢索一, 生活中的搜尋: 1.Windows系統中的有搜尋功能：開啟“我的電腦”，按“F3”就可以使用查詢的功能，查詢指定的檔案或資料夾。搜尋的範圍是整個電腦中的檔案資源。 2.Eclips

Apache Lucene 全文檢索詳解及開發示例

講解之前，先來分享一些資料　　首先呢，學習任何一門新的亦或是舊的開源技術，百度其中一二是最簡單的辦法，先了解其中的大概，思想等等。這裡就貢獻一個講解很到位的ppt。已經被我轉成了PDF，便於蒐藏。　　其次，關於第一次程式設計初探，建議還是檢視官方資料。百度到的資料

Lucene全文檢索--實戰篇

相關推薦