lucene入門使用

阿新 • • 發佈：2019-01-13

簡介：https://baike.baidu.com/item/Lucene/6753302?fr=aladdin

擴充套件停用詞和新詞：https://blog.csdn.net/u010357298/article/details/80776902

目錄結構：（跟著程式碼練習一遍，效果更好）摘要，排序和高亮 lucene4以後有一定改變

直接上程式碼程式碼:

一：建立javabean

/**建立javabean*/
package lucene;

import com.alibaba.fastjson.JSON;

public class User {
	private String id;
	private String userName;
	private String sal;

	public User() {

	}

	public User(String id, String userName, String sal) {
		this.id = id;
		this.userName = userName;
		this.sal = sal;
	}

	public String getId() {
		return id;
	}

	public void setId(String id) {
		this.id = id;
	}

	public String getUserName() {
		return userName;
	}

	public void setUserName(String userName) {
		this.userName = userName;
	}

	public String getSal() {
		return sal;
	}

	public void setSal(String sal) {
		this.sal = sal;
	}

	// @Override
	// public String toString() {
	// return "User[id='" + id + "',userName='" + userName + "',sal='" + sal
	// + "']";
	// }

	/** 序列化 */
	@Override
	public String toString() {
		// TODO Auto-generated method stub
		return JSON.toJSONString(this);
	}
}

二：建立索引庫並插入資料

/**建立索引庫並插入資料 */
package lucene;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;

public class AddIndex {

	public void createIndexDB(String id, String userName, String sal)
			throws Exception {

		// 把資料填充到JavaBean物件中
		User user = new User(id, userName, sal);

		// 建立Document物件【匯入的是Lucene包下的Document物件】
		Document document = new Document();

		// 將JavaBean物件所有的屬性值，均放到Document物件中去，屬性名可以和JavaBean相同或不同

		/**
		 * 向Document物件加入一個欄位 引數一：欄位的關鍵字 引數二：字元的值 引數三：是否要儲存到原始記錄表中 YES表示是 NO表示否
		 * 引數四：是否需要將儲存的資料拆分到詞彙表中 ANALYZED表示拆分 NOT_ANALYZED表示不拆分
		 *
		 * */
		document.add(new Field("id", user.getId(), Field.Store.YES,
				Field.Index.ANALYZED));
		document.add(new Field("userName", user.getUserName(), Field.Store.YES,
				Field.Index.ANALYZED));
		document.add(new Field("sal", user.getSal(), Field.Store.YES,
				Field.Index.ANALYZED));

		// 建立IndexWriter物件
		// 目錄指定為E:/createIndexDB
		Directory directory = FSDirectory.open(new File("E:/createIndexDB"));

		// 使用標準的分詞演算法對原始記錄表進行拆分
		Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);

		// LIMITED預設是1W個
		IndexWriter.MaxFieldLength maxFieldLength = IndexWriter.MaxFieldLength.LIMITED;
		/**
		 * IndexWriter將我們的document物件寫到硬碟中
		 *
		 * 引數一：Directory d,寫到硬碟中的目錄路徑是什麼 引數二：Analyzer a,
		 * 以何種演算法來對document中的原始記錄表資料進行拆分成詞彙表 引數三：MaxFieldLength mfl 最多將文字拆分出多少個詞彙
		 *
		 * */
		IndexWriter indexWriter = new IndexWriter(directory, analyzer,
				maxFieldLength);

		// 將Document物件通過IndexWriter物件寫入索引庫中
		indexWriter.addDocument(document);

		// 關閉IndexWriter物件
		indexWriter.close();

	}

	public static void main(String[] args) {
		String id = "2";
		String userName = "李四";
		String sal = "運維工程師";
		AddIndex testIndex = new AddIndex();
		try {
			testIndex.createIndexDB(id, userName, sal);
			System.out.println("新增成功:" + id);
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
			System.out.println("createIndexDB error");
		}
		/** 讀取檔案內容，存入索引庫 */
		try {
			String classPath = System.getProperties().getProperty("user.dir");
			String sep = System.getProperties().getProperty("file.separator");
			String pathName = classPath + sep + "date" + sep + "testtitle.txt";
			File file = new File(pathName);
			InputStreamReader reader = new InputStreamReader(
					new FileInputStream(file), "gbk");
			BufferedReader br = new BufferedReader(reader);
			String stringLine;
			int count = 0;
			while ((stringLine = br.readLine()) != null) {
				count += 1;
				testIndex.createIndexDB(count + "", stringLine.substring(0, 3),
						stringLine);
				System.out.println(stringLine);
			}
			br.close();
			reader.close();
		} catch (Exception e) {
			// TODO: handle exception
			System.out.println("createndexDB error");
		}

	}
}

三：查詢

package lucene;

import java.io.File;
import java.net.URLDecoder;
import java.net.URLEncoder;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.junit.Test;

public class FindIndex {
	@Test
	public void findIndexDB() throws Exception {

		/**
		 * 引數一： IndexSearcher(Directory path)查詢以xxx目錄的索引庫
		 *
		 * */
		Directory directory = FSDirectory.open(new File("E:/createIndexDB"));
		// 建立IndexSearcher物件
		IndexSearcher indexSearcher = new IndexSearcher(directory);

		// 建立QueryParser物件
		/**
		 * 引數一： Version matchVersion 版本號【和上面是一樣的】 引數二：String f,【要查詢的欄位】
		 * 引數三：Analyzer a【使用的拆詞演算法】
		 * */
		Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
		QueryParser queryParser = new QueryParser(Version.LUCENE_30,
				"sal", analyzer);

		// 給出要查詢的關鍵字
		String keyWords = "中國";

		// 建立Query物件來封裝關鍵字
		Query query = queryParser.parse(keyWords);

		// 用IndexSearcher物件去索引庫中查詢符合條件的前100條記錄，不足100條記錄的以實際為準
		TopDocs topDocs = indexSearcher.search(query, 100);

		// 獲取符合條件的編號

		for (int i = 0; i < topDocs.scoreDocs.length; i++) {

			ScoreDoc scoreDoc = topDocs.scoreDocs[i];
			int no = scoreDoc.doc;
			// 用indexSearcher物件去索引庫中查詢編號對應的Document物件
			Document document = indexSearcher.doc(no);

			// 將Document物件中的所有屬性取出，再封裝回JavaBean物件中去
			String id = document.get("id");
			String userName = document.get("userName");
			String sal = document.get("sal");

			User user = new User(id, userName, sal);
			System.out.println(user);

		}
		indexSearcher.close();
	}
}

四：刪除

package lucene;

import java.io.File;
import java.io.IOException;
import java.io.Reader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.junit.Test;

public class TestIndex {
	@Test
	/**刪除索引庫*/
	public void TestIndexDel() throws IOException {
		// TODO Auto-generated constructor stub
		Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
		FSDirectory directory = FSDirectory.open(new File("E:/createIndexDB"));
		// IndexWriterConfig
		IndexWriter.MaxFieldLength maxFieldLength = IndexWriter.MaxFieldLength.LIMITED;
		IndexWriter indexWriter = new IndexWriter(directory, analyzer,
				maxFieldLength);
		indexWriter.deleteAll();
		System.out.println("good--已刪除索引庫所有檔案");
		indexWriter.deleteDocuments(new Term("userName", "李四"));
		indexWriter.commit();
		indexWriter.close();
	}
}

五，優化

// 多條件搜尋--（結果會排序）
		QueryParser queryParser1 = new MultiFieldQueryParser(
				LuceneUtils.getVersion(), new String[] { "userName", "sal" },
				LuceneUtils.getAnalyzer());

下面程式碼把lucene封裝成工具包（轉載）

package lucene;

import org.apache.commons.beanutils.BeanUtils;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.junit.Test;

import java.io.File;
import java.lang.reflect.Field;
import java.lang.reflect.Method;

/**
 * Created 0
 */

/**
 * 使用單例事例模式
 * */
public class LuceneUtils {
	private static Directory directory;
	private static Analyzer analyzer;
	private static IndexWriter.MaxFieldLength maxFieldLength;

	private LuceneUtils() {
	}

	static {
		try {
			directory = FSDirectory.open(new File("E:/createIndexDB"));
			analyzer = new StandardAnalyzer(Version.LUCENE_30);
			maxFieldLength = IndexWriter.MaxFieldLength.LIMITED;
		} catch (Exception e) {
			e.printStackTrace();

		}
	}

	public static Directory getDirectory() {
		return directory;
	}

	public static Analyzer getAnalyzer() {
		return analyzer;
	}

	public static IndexWriter.MaxFieldLength getMaxFieldLength() {
		return maxFieldLength;
	}

	/**
	 * @param object
	 *            傳入的JavaBean型別
	 * @return 返回Document物件
	 */
	public static Document javaBean2Document(Object object) {
		try {
			Document document = new Document();
			// 得到JavaBean的位元組碼檔案物件
			Class<?> aClass = object.getClass();

			// 通過位元組碼檔案物件得到對應的屬性【全部的屬性，不能僅僅呼叫getFields()】
			Field[] fields = aClass.getDeclaredFields();

			// 得到每個屬性的名字
			for (Field field : fields) {
				String name = field.getName();
				// 得到屬性的值【也就是呼叫getter方法獲取對應的值】
				String method = "get" + name.substring(0, 1).toUpperCase()
						+ name.substring(1);
				// 得到對應的值【就是得到具體的方法，然後呼叫就行了。因為是get方法，沒有引數】
				Method aClassMethod = aClass.getDeclaredMethod(method, null);
				String value = aClassMethod.invoke(object).toString();
				System.out.println(value);

				// 把資料封裝到Document物件中。
				document.add(new org.apache.lucene.document.Field(name, value,
						org.apache.lucene.document.Field.Store.YES,
						org.apache.lucene.document.Field.Index.ANALYZED));
			}
			return document;
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}

	/**
	 * @param aClass
	 *            要解析的物件型別，要使用者傳入進來
	 * @param document
	 *            將Document物件傳入進來
	 * @return 返回一個JavaBean
	 */
	public static Object Document2JavaBean(Document document, Class<?> aClass) {
		try {
			// 建立該JavaBean物件
			Object obj = aClass.newInstance();
			// 得到該JavaBean所有的成員變數
			Field[] fields = aClass.getDeclaredFields();
			for (Field field : fields) {

				// 設定允許暴力訪問
				field.setAccessible(true);
				String name = field.getName();
				String value = document.get(name);
				// 使用BeanUtils把資料封裝到Bean中
				BeanUtils.setProperty(obj, name, value);
			}
			return obj;
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}

	@Test
	public void test() {
		User user = new User();
		LuceneUtils.javaBean2Document(user);
	}

}

Lucene入門學習

測試 oda 上下可選有意義 ioe director exe directory 參考博客： http://blog.csdn.net/ayi_5788/article/category/6348409 分頁： http://blog.csdn.net/hu94816

Lucene入門-如何編寫Lucene程序

har creat ont parse ram open pen rec cor Lucene版本：7.1使用Lucene的關鍵點創建文檔(Document)，添加文件(Field)；把文檔加入IndexWriter；使用QueryParser.parse()構建查詢內容；

Lucene入門-安裝和運行Demo程序

height alt src cor mon https docs 必備 hfile Lucene是什麽 Lucene是一款高性能、可擴展的信息檢索工具庫。— Lucene In ActionLucene版本：7.1一、下載安裝包 https://lucene.apa

Lucene入門學習二

接上篇：增刪改查增加：這裡不做過多闡述。刪除：刪除全部，根據條件刪除修該：先刪除，後新增查詢（*）：查詢所有，精確查詢，根據數值範圍查詢，組合查詢，解析查詢。 1 package com.itheima.luncence; 2 3 import java.io.File;

Lucene 入門和簡單封裝

package com.whf.demo; import java.io.IOException; import java.util.concurrent.ExecutorService; import java.util.concurrent.locks.L

Lucene入門 - HelloWorld

前言： Lucene 是apache軟體基金會4 jakarta專案組的一個子專案，是一個開放原始碼的全文檢索引擎工具包，但它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎，部分文字分析引擎（英文與德文兩種西方語言）。Lucene的目

lucene入門使用

簡介：https://baike.baidu.com/item/Lucene/6753302?fr=aladdin 擴充套件停用詞和新詞：https://blog.csdn.net/u010357298/article/details/80776902 目錄結構：（跟著程式碼練習一遍，效

JAVAWEB開發之Lucene詳解——Lucene入門及使用場景、全文檢索、索引CRUD、優化索引庫、分詞器、高亮、相關度排序、各種查詢

Lucene入門應用場景 windows系統中的有搜尋功能：開啟“我的電腦”，按“F3”就可以使用查詢的功能，查詢指定的檔案或資料夾。搜尋的範圍是整個電腦中的檔案資源。 Eclipse中的幫助子系統：點選Help->Help Contents，可以查找出相關的幫助資

Lucene入門與介紹

當需要搜尋指定時間範圍內的結果時，可以： 1、用RangeQuery，設定範圍，但是RangeQuery的實現實際上是將時間範圍內的時間點展開，組成一個個BooleanClause加入到 BooleanQuery中查詢，因此時間範圍不可能設定太大，經測試，範圍超過一個月就會拋BooleanQuery.Too

lucene入門及安裝配置

lucene是一個開源的、apache基金會支援的一個小型專案，它可以支援全文索引，在搜尋引擎中有非常廣泛的應用，它也被稱為倒排索引。我們可以利用它來進行對文字中所有文字的分類和統計相應的詞頻等操作。

Lucene 全文檢索入門

sdi 執行 option getter itl .get png 廣泛 fig 博客地址：http://www.moonxy.com 一、前言 Lucene 是 apache 軟件基金會的一個子項目，由 Doug Cutting 開發，是一個開放源代碼的全文檢索引擎工具包

Lucene介紹及簡單入門案例（集成ik分詞器）

chinese depend 創建索引圖片 latest frame numeric id字段 div 介紹　　　　Lucene是apache軟件基金會4 jakarta項目組的一個子項目，是一個開放源代碼的全文檢索引擎工具包，但它不是一個完整的全文檢索引擎，而是一個

lucene的基礎入門

一建立maven專案 lucene_1 引入依賴: <dependencies> <dependency> <groupId>mysql</groupId> <artifactId

【備忘】Lucene從入門到專案中運用視訊

01_lucenc簡介和建立索引初步.avi 02_lucene簡介和搜尋初步.avi 03_lucene索引_建立_域選項.avi 04_lucene索引_的刪除和更新.avi 05_lucene索引_加權操作和Luke的簡單演示.avi 06_對日期和數字進行索引.av

javaEE Lucene，全文檢索，站內搜尋，入門程式。索引庫的新增

注意：搜尋使用的分析器(分詞器)要和建立索引時使用的分析器一致。 Field類(域物件)： Test.java（入門程式測試類）： package com.xxx.lucene; import static org.junit.Assert.*; im

：Hadoop、NoSQL、分散式、lucene、solr、nutch kafka入門：簡介、使用場景、設計原理、主要配置及叢集搭

需要考慮的影響效能點很多,除磁碟IO之外,我們還需要考慮網路IO,這直接關係到kafka的吞吐量問題.kafka並沒有提供太多高超的技巧;對於producer端,可以將訊息buffer起來,當訊息的條數達到一定閥值時,批量傳送給broker;對於consumer端也是一樣,批量fetch多條訊息.不

lucene的實戰入門

最近在寫個人部落格專案.有個需求.就是要求在前端頁面上有一個搜尋框,使用者可以根據這個搜尋框對所有部落格進行全文檢索,包括標題和正文,然後根據搜尋匹配度進行排序展示出來,並且要有高亮顯示,類似如下效果: 全文檢索的這個功能可以採用lucene這個框架實現. 具體luc

Lucene使用入門指南（一）

Lucene的安裝與配置的詳細過程第一步：下載安裝JDK 在安裝lucene之前需要首先安裝jdk，因為lucene是在jdk的環境下執行的。最好下載jdk1.7以上的版本。這裡我用的是jdk1.7.0_51。 1.首先從官網下載jdk1.7.0_51(下載之前先

Lucene全文檢索入門使用

一、什麼是全文檢索全文檢索是計算機程式通過掃描文章中的每一個詞，對每一個詞建立一個索引，指明該詞在文章中出現的次數和位置。當用戶查詢時根據建立的索引查詢，類似於通過字典的檢索字表查字的過程全文檢索（Full-Text Retrieval）以文字作為檢索物件，找出含有指定詞彙的文字。全面、準確和快速是

Lucene開源全文檢索引擎快速入門

Lucene是一個用Java開發的開源全文檢索引擎，官網是：http://lucene.apache.org/ ，Lucene不是一個完整的全文索引應用（與之對應的是solr），而是是一個用Java寫的全文索引引擎工具包，它可以方便的嵌入到各種應用中實現針對應用的全文索引/檢索功能，更多

lucene入門使用

相關推薦