Lucene的基本概念----轉載yufenfei的文章

阿新 • • 發佈：2018-02-22

人員功能 except delet color exce writer oid 數據結構

Lucene的基本概念

Lucene是什麽？

Lucene是一款高性能、可擴展的信息檢索工具庫。信息檢索是指文檔搜索、文檔內信息搜索或者文檔相關的元數據搜索等操作。

信息檢索流程如下：

1、將即將檢索的資源集合放到本地，並使用某種特定的結構存儲，稱為索引，這個索引的集合稱為索引庫。由於索引庫的結構按照專門為快速查詢設計的，所以查詢的速度非常的快；

2、搜索操作時都是在本地的索引庫中進行查找；

所以對於全文檢索功能的開發，要做兩方面：索引庫管理（維護索引庫中的數據）、在索引庫中進行搜索。而Lucene就是操作索引庫的工具；

索引庫是什麽樣子？

索引庫是一個目錄，裏面是一些二級制文件，就如同數據庫，所有的數據也是以文件的形式存放在文件系統中的。我們不能直接操作這些二級制文件，而是使用Lucene提供的API完成相應的操作，就像數據庫使用SQL語句一樣。

對索引庫的操作可以分為兩種：管理與查詢。

1、管理索引庫使用的IndexWriter；

2、從索引庫中查詢使用IndexSearcher。

Lucene的數據結構為 Document與Field。

Document代表是一條數據，Field代表數據中的一個屬性。一個Document中有多個Field，Field的值為String型，因為Lucene只處理文本；

我們只需要把我們的程序中的對象轉換為Doucemnt，就可以交給Lucene管理了，搜索的結果中的數據列表也是Document的集合；

OK，我們來做一個實例，還原一下整個流程

1、創建一個用戶類，用於實例化用戶數據

Java代碼

public class User {
private Long id;
private String name;
private int age;
private String sex;
private Date birthday;

public User(Long id, String name, int age, String sex, Date birthday) {
super();
this.id = id;
this.name = name;
this.age = age;
this.sex = sex;
this.birthday = birthday;
}
//get/set方法，這裏省略
}

public class User {

	private Long id;
	private String name;
	private int age;
	private String sex;
	private Date birthday;
	public User(Long id, String name, int age, String sex, Date birthday) {
		super();
		this.id = id;
		this.name = name;
		this.age = age;
		this.sex = sex;
		this.birthday = birthday;
	}
   //get/set方法，這裏省略
}

2、生成即將檢索的資源數據

Java代碼

public class DataUtil {
/**
* 檢索資源數據的準備；
* 這裏的數據可以來源數據庫、文件系統等
* @return
*/
public static List<User> getUsers(){
List<User> list =new ArrayList<User>();
User user =new User(1L,"張三1",20,"man",new Date());
list.add(user);
user =new User(2L,"張三2",20,"man",new Date());
list.add(user);
user =new User(3L,"張三3",20,"woman",new Date());
list.add(user);
user =new User(4L,"張三4",20,"man",new Date());
list.add(user);
user =new User(5L,"張三5",20,"man",new Date());
list.add(user);
user =new User(6L,"張三6",20,"woman",new Date());
list.add(user);
return list;
}
}

public class DataUtil {
	/**
	 * 檢索資源數據的準備；
	 *   這裏的數據可以來源數據庫、文件系統等
	 * @return
	 */
	public static List<User> getUsers(){
		List<User> list =new ArrayList<User>();
		User user =new User(1L,"張三1",20,"man",new Date());
		list.add(user);
		user =new User(2L,"張三2",20,"man",new Date());
		list.add(user);
		user =new User(3L,"張三3",20,"woman",new Date());
		list.add(user);
		user =new User(4L,"張三4",20,"man",new Date());
		list.add(user);
		user =new User(5L,"張三5",20,"man",new Date());
		list.add(user);
		user =new User(6L,"張三6",20,"woman",new Date());
		list.add(user);
		return list;
	}
}

3、Lucene創建索引庫及查詢

Java代碼

public class IndexWriterDemo {
/**
* 將即將檢索的資源寫入索引庫
* @param writer
* @throws Exception
*/
public void buildDocs(IndexWriter writer)throws Exception {
writer.deleteAll();//清空索引庫裏已存在的文檔（document）
List<User> list = DataUtil.getUsers();//得到數據資源
System.out.println("buildDocs()->總人數為 :"+list.size());
for(User user :list){
Document doc = new Document();//創建索引庫的文檔
doc.add(new Field("id",String.valueOf(user.getId()),Store.YES,Index.NO));
doc.add(new Field("name",user.getName(),Store.YES,Index.ANALYZED));
doc.add(new Field("age",String.valueOf(user.getAge()),Store.YES,Index.ANALYZED));
doc.add(new Field("sex",user.getSex(),Store.YES,Index.ANALYZED));
doc.add(new Field("birthday",String.valueOf(user.getBirthday()),Store.YES,Index.ANALYZED));
writer.addDocument(doc);//將文檔寫入索引庫
}
int count =writer.numDocs();
writer.forceMerge(100);//合並索引庫文件
writer.close();
System.out.println("buildDocs()->存入索引庫的數量："+count);
}
/**
* 從索引庫中搜索你要查詢的數據
* @param searcher
* @throws IOException
*/
public void searcherDocs(IndexSearcher searcher) throws IOException{
Term term =new Term("sex", "man");//查詢條件，意思是我要查找性別為“man”的人
TermQuery query =new TermQuery(term);
TopDocs docs =searcher.search(query, 100);//查找
System.out.println("searcherDoc()->男生人數："+docs.totalHits);
for(ScoreDoc doc:docs.scoreDocs){//獲取查找的文檔的屬性數據
int docID=doc.doc;
Document document =searcher.doc(docID);
String str="ID:"+document.get("id")+",姓名："+document.get("name")+"，性別："+document.get("sex");
System.out.println("人員信息:"+str);
}
}
}

public class IndexWriterDemo {
	/**
	 * 將即將檢索的資源寫入索引庫
	 * @param writer
	 * @throws Exception
	 */
	public void buildDocs(IndexWriter writer)throws Exception {
		writer.deleteAll();//清空索引庫裏已存在的文檔（document）
		List<User> list = DataUtil.getUsers();//得到數據資源
		System.out.println("buildDocs()->總人數為 :"+list.size());
		for(User user :list){
			Document doc = new Document();//創建索引庫的文檔
			doc.add(new Field("id",String.valueOf(user.getId()),Store.YES,Index.NO));
			doc.add(new Field("name",user.getName(),Store.YES,Index.ANALYZED));
			doc.add(new Field("age",String.valueOf(user.getAge()),Store.YES,Index.ANALYZED));
			doc.add(new Field("sex",user.getSex(),Store.YES,Index.ANALYZED));
			doc.add(new Field("birthday",String.valueOf(user.getBirthday()),Store.YES,Index.ANALYZED));
			writer.addDocument(doc);//將文檔寫入索引庫
		}
		int count =writer.numDocs();
		writer.forceMerge(100);//合並索引庫文件
		writer.close();
		System.out.println("buildDocs()->存入索引庫的數量："+count);
	}

	/**
	 * 從索引庫中搜索你要查詢的數據
	 * @param searcher
	 * @throws IOException
	 */
	public void searcherDocs(IndexSearcher searcher) throws IOException{
		Term term =new Term("sex", "man");//查詢條件，意思是我要查找性別為“man”的人
		TermQuery query =new TermQuery(term);
		TopDocs docs =searcher.search(query, 100);//查找
		System.out.println("searcherDoc()->男生人數："+docs.totalHits);
		for(ScoreDoc doc:docs.scoreDocs){//獲取查找的文檔的屬性數據
			int docID=doc.doc;
			Document document =searcher.doc(docID);
			String str="ID:"+document.get("id")+",姓名："+document.get("name")+"，性別："+document.get("sex");
			System.out.println("人員信息:"+str);
		}
	}
  }

4、測試

Java代碼

public class TestIndexWriterRAMDirectory {
private IndexWriter writer=null;
private Directory directory=null;
private IndexReader reader = null;
private IndexSearcher searcher=null;
private IndexWriterDemo demo =new IndexWriterDemo();
@Before
public void setUp() throws Exception {
directory = new RAMDirectory();
IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_36,new SimpleAnalyzer(Version.LUCENE_36));
writer = new IndexWriter(directory,config);
}
@Test
public void testAddDoc()throws Exception {
/**生成索引庫*/
demo.buildDocs(writer);
/**查詢數據*/
reader = IndexReader.open(directory);
searcher =new IndexSearcher(reader);
demo.searcherDocs(searcher);
}
}

public class TestIndexWriterRAMDirectory {
	private IndexWriter writer=null;
	private Directory directory=null;
	private IndexReader reader = null;
	private IndexSearcher searcher=null;
	private IndexWriterDemo demo =new IndexWriterDemo();
	
	@Before
	public void setUp() throws Exception {
		directory = new RAMDirectory();
		IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_36,new SimpleAnalyzer(Version.LUCENE_36));
		writer = new IndexWriter(directory,config);
	}

	@Test
	public void testAddDoc()throws Exception {
		/**生成索引庫*/
		demo.buildDocs(writer);
		
		/**查詢數據*/
		reader = IndexReader.open(directory);
		searcher =new IndexSearcher(reader);
		demo.searcherDocs(searcher);
	}
}

測試結果

Java代碼

buildDocs()->總人數為 :6
buildDocs()->存入索引庫的數量：6
searcherDoc()->男生人數：4
人員信息:ID:1,姓名：張三1，性別：man
人員信息:ID:2,姓名：張三2，性別：man
人員信息:ID:4,姓名：張三4，性別：man
人員信息:ID:5,姓名：張三5，性別：man

buildDocs()->總人數為 :6
buildDocs()->存入索引庫的數量：6
searcherDoc()->男生人數：4
人員信息:ID:1,姓名：張三1，性別：man
人員信息:ID:2,姓名：張三2，性別：man
人員信息:ID:4,姓名：張三4，性別：man
人員信息:ID:5,姓名：張三5，性別：man

OK，代碼完畢

實例的Lucene版本為：lucene-3.6.1

在這再次說下Lucene檢索的整個流程（請參考demo的代碼）

1、建立索引的執行過程

在建立索引時，先要把文檔存到索引庫中，還要更新詞匯表。

操作步驟如下：

（1）、把數據對象轉換成相應的Document，其中的屬性轉為Field；

（2）、調用工具IndexWriter的addDocument(doc)，把Document添加到索引庫中；

（3）、Lucene做的操作：

把文檔存到索引庫中，並自動指定一個內部編號，用來唯一標識這個條數據；內部編號類似與這條數據的地址，在索引庫內部的數據進行調整後，這個編號就可能會改變，同時詞匯表中的引用的編號也會做相應的改變，以保證正確。

更新詞匯表。把文本中的詞找出來放到詞匯表中，簡歷與文檔的對應關系。要把那些詞放到詞匯表中呢？這就用到一個叫Analyzer（分詞器）的工具。他的作用是把一段文本中的詞按照規則取出所包含的所有詞。對應的是Analyzer類，這是一個抽象類，切分詞的具體規則是由其子類實現。

在把對象的屬性轉化為 Field時，相關代碼為：

doc.add(new Field(“title”,article.getTitle(), Store.YES, Index.Analyzed))

其中第三個參數的意思為

Store.NO 不存儲屬性的值；

Store.YES 存儲屬性的值

第四個參數

Index.NO 不建立索引

Index.ANALYZED 分詞後建立索引

Index.NOT_ANALYZED 不分詞，把整個內容作為一個詞建立索引

Store是影響搜索出的結構是否有指定屬性的原始內容。

Index是影響是否可以從這個屬性中查詢，或者是查詢時可以查其中的某些詞，還是要把整個內容作為一個詞進行查詢。

2、從索引庫中搜索的執行過程（QueryParse、TopDocs、ScoreDoc）

在進行搜索時，先在詞匯表中查找，得到符合條件的文檔編號列表。再根據文檔編號真正的取數據（Document）

操作步驟如下：

（1）、把要查詢字符串轉為Query對象。這就像在Hiberante總是用HQL查詢時，也要先調用Session.createQuery(hql)轉成Hibernate的Query對象一樣。把查詢字符串轉換成Query是使用QueryParser，或者使用MultiFieldQueryParser。查詢字符串也要先經過Analyzer（分詞器）。要求檢索時使用Analyzer要與監理索引使用的Analzyer要一致，否則可能搜索不出正確的結果。

（2）、調用IndexSearcher.search()，進行查詢，得到結果。此方法返回未TopDocs，是包含結果的多個信息的一個對象。其中有totalHits代表記錄數，ScoreDoc的數組。ScoreDoc是代表一個結果的相關度得分與文檔編號等信息的對象。

（3）、取出要用到的數據列表。調用IndexSearcher.doc(scoreDoc.doc)以取出指定編號對應的Document數據，在分頁時要用到：一次只取一頁的數據。

lucene.rar

Lucene的基本概念----轉載yufenfei的文章

人員功能 except delet color exce writer oid 數據結構 Lucene的基本概念 Lucene是什麽？ Lucene是一款高性能、可擴展的信息檢索工具庫。信息檢索是指文檔搜索、文檔內信息搜索或者文檔相關的元數據搜索等操作。

Lucene的基本概念----轉載yufenfei的文章

Lucene的基本概念----轉載yufenfei的文章

機器學習基本概念總結（轉載）

DNS基本概念及操作詳解----------------轉載

[轉載]Matlab與Fortran的互動--基本概念

Python：這有可能是最詳細的PIL庫基本概念文章了

ECMAScript基本概念

ActiveMq的基本概念

【Spark深入學習-11】Spark基本概念和運行模式

MySQL基本概念以及簡單操作

一、網絡的基本概念

Oracle RAC基本概念

Linux 02 Linux基本概念及操作

3.6 Lucene基本檢索+關鍵詞高亮+分頁

C#多線程之旅(1)——介紹和基本概念

面向對象的一些重要的基本概念

Python簡明教程：基本概念

Elasticsearch基本概念及核心配置文件詳解

Git學習系列-Git基本概念

Wiresahrk基本概念

JavaScript初學基本概念和語法

Lucene的基本概念----轉載yufenfei的文章

相關推薦