Lucene 4.4.0中常用的幾個分詞器

阿新 • • 發佈：2019-02-15

一、WhitespaceAnalyzer

以空格作為切詞標準，不對語彙單元進行其他規範化處理。很明顯這個實用英文，單詞之間用空格。

package bond.lucene.analyzer;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.core.WhitespaceAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.Version;

public class WhitespaceAnalyzerTest {

	public static void main(String[] args) {
		try {
			// 要處理的文字
			// "lucene分析器使用分詞器和過濾器構成一個“管道”，文字在流經這個管道後成為可以進入索引的最小單位，因此，一個標準的分析器有兩個部分組成，一個是分詞器tokenizer,它用於將文字按照規則切分為一個個可以進入索引的最小單位。另外一個是TokenFilter，它主要作用是對切出來的詞進行進一步的處理（如去掉敏感詞、英文大小寫轉換、單複數處理）等。lucene中的Tokenstram方法首先建立一個tokenizer物件處理Reader物件中的流式文字，然後利用TokenFilter對輸出流進行過濾處理";
			String text = "The Lucene PMC is pleased to announce the release of the Apache Solr Reference Guide for Solr 4.4.";

			// 空格分詞器(以空格作為切詞標準，不對語彙單元進行其他規範化處理)
			WhitespaceAnalyzer wsa = new WhitespaceAnalyzer(Version.LUCENE_44);

			TokenStream ts = wsa.tokenStream("field", text);
			CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);

			ts.reset();
			while (ts.incrementToken()) {
				System.out.println(ch.toString());
			}
			ts.end();
			ts.close();
		} catch (Exception ex) {
			ex.printStackTrace();
		}

	}
}

二、SimpleAnalyzer

以非字母符來分割文字資訊，並將語彙單元統一為小寫形式，並去掉數字型別的字元。很明顯不適用於中文環境。

package bond.lucene.analyzer;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.core.SimpleAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.Version;

public class SimpleAnalyzerTest {

	public static void main(String[] args) {
		try {
			// 要處理的文字
			// "lucene分析器使用分詞器和過濾器構成一個“管道”，文字在流經這個管道後成為可以進入索引的最小單位，因此，一個標準的分析器有兩個部分組成，一個是分詞器tokenizer,它用於將文字按照規則切分為一個個可以進入索引的最小單位。另外一個是TokenFilter，它主要作用是對切出來的詞進行進一步的處理（如去掉敏感詞、英文大小寫轉換、單複數處理）等。lucene中的Tokenstram方法首先建立一個tokenizer物件處理Reader物件中的流式文字，然後利用TokenFilter對輸出流進行過濾處理";
			String text = "The Lucene PMC is pleased to announce the release of the Apache Solr Reference Guide for Solr 4.4.";

			// 簡單分詞器(以非字母符來分割文字資訊，並將語彙單元統一為小寫形式，並去掉數字型別的字元)
			SimpleAnalyzer sa = new SimpleAnalyzer(Version.LUCENE_44);

			TokenStream ts = sa.tokenStream("field", text);
			CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);

			ts.reset();
			while (ts.incrementToken()) {
				System.out.println(ch.toString());
			}
			ts.end();
			ts.close();
		} catch (Exception ex) {
			ex.printStackTrace();
		}
	}

}

三、StopAnalyzer

停頓詞分析器會去除一些常有a,the,an等等，也可以自定義禁用詞，不適用於中文環境

package bond.lucene.analyzer;

import java.util.Iterator;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.core.StopAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.util.CharArraySet;
import org.apache.lucene.util.Version;

public class StopAnalyzerTest {

	public static void main(String[] args) {
		try {
			// 要處理的文字
			// "lucene分析器使用分詞器和過濾器構成一個“管道”，文字在流經這個管道後成為可以進入索引的最小單位，因此，一個標準的分析器有兩個部分組成，一個是分詞器tokenizer,它用於將文字按照規則切分為一個個可以進入索引的最小單位。另外一個是TokenFilter，它主要作用是對切出來的詞進行進一步的處理（如去掉敏感詞、英文大小寫轉換、單複數處理）等。lucene中的Tokenstram方法首先建立一個tokenizer物件處理Reader物件中的流式文字，然後利用TokenFilter對輸出流進行過濾處理";
			String text = "The Lucene PMC is pleased to announce the release of the Apache Solr Reference Guide for Solr 4.4.";

			// 自定義停用詞
			String[] self_stop_words = { "分析", "release", "Apache" };
			CharArraySet cas = new CharArraySet(Version.LUCENE_44, 0, true);
			for (int i = 0; i < self_stop_words.length; i++) {
				cas.add(self_stop_words[i]);
			}

			// 加入系統預設停用詞
			Iterator<Object> itor = StopAnalyzer.ENGLISH_STOP_WORDS_SET.iterator();
			while (itor.hasNext()) {
				cas.add(itor.next());
			}

			// 停用詞分詞器(去除一些常有a,the,an等等，也可以自定義禁用詞)
			StopAnalyzer sa = new StopAnalyzer(Version.LUCENE_44, cas);

			TokenStream ts = sa.tokenStream("field", text);
			CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);

			ts.reset();
			while (ts.incrementToken()) {
				System.out.println(ch.toString());
			}
			ts.end();
			ts.close();
		} catch (Exception ex) {
			ex.printStackTrace();
		}
	}
}

四、StandardAnalyzer

標準分析器是Lucene內建的分析器,會將語彙單元轉成小寫形式，並去除停用詞及標點符號，很明顯也是不適合於中文環境

package bond.lucene.analyzer;

import java.util.Iterator;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.util.CharArraySet;
import org.apache.lucene.util.Version;

public class StandardAnalyzerTest {

	public static void main(String[] args) {
		try {
			// 要處理的文字
			// "lucene分析器使用分詞器和過濾器構成一個“管道”，文字在流經這個管道後成為可以進入索引的最小單位，因此，一個標準的分析器有兩個部分組成，一個是分詞器tokenizer,它用於將文字按照規則切分為一個個可以進入索引的最小單位。另外一個是TokenFilter，它主要作用是對切出來的詞進行進一步的處理（如去掉敏感詞、英文大小寫轉換、單複數處理）等。lucene中的Tokenstram方法首先建立一個tokenizer物件處理Reader物件中的流式文字，然後利用TokenFilter對輸出流進行過濾處理";
			String text = "The Lucene PMC is pleased to announce the release of the Apache Solr Reference Guide for Solr 4.4.";

			// 自定義停用詞
			String[] self_stop_words = { "Lucene", "release", "Apache" };
			CharArraySet cas = new CharArraySet(Version.LUCENE_44, 0, true);
			for (int i = 0; i < self_stop_words.length; i++) {
				cas.add(self_stop_words[i]);
			}

			// 加入系統預設停用詞
			Iterator<Object> itor = StandardAnalyzer.STOP_WORDS_SET.iterator();
			while (itor.hasNext()) {
				cas.add(itor.next());
			}

			// 標準分詞器(Lucene內建的標準分析器,會將語彙單元轉成小寫形式，並去除停用詞及標點符號)
			StandardAnalyzer sa = new StandardAnalyzer(Version.LUCENE_44, cas);

			TokenStream ts = sa.tokenStream("field", text);
			CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);

			ts.reset();
			while (ts.incrementToken()) {
				System.out.println(ch.toString());
			}
			ts.end();
			ts.close();
		} catch (Exception ex) {
			ex.printStackTrace();
		}
	}

}

五、CJKAnalyzer

中日韓分析器，能對中，日，韓語言進行分析的分詞器，但是對中文支援效果一般，一般不用

package bond.lucene.analyzer;

import java.util.Iterator;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.util.CharArraySet;
import org.apache.lucene.util.Version;

public class CJKAnalyzerTest {

	public static void main(String[] args) {
		try {
			// 要處理的文字

			// "The Lucene PMC is pleased to announce the release of the Apache Solr Reference Guide for Solr 4.4.";
			String text = "lucene分析器使用分詞器和過濾器構成一個“管道”，文字在流經這個管道後成為可以進入索引的最小單位，因此，一個標準的分析器有兩個部分組成，一個是分詞器tokenizer,它用於將文字按照規則切分為一個個可以進入索引的最小單位。另外一個是TokenFilter，它主要作用是對切出來的詞進行進一步的處理（如去掉敏感詞、英文大小寫轉換、單複數處理）等。lucene中的Tokenstram方法首先建立一個tokenizer物件處理Reader物件中的流式文字，然後利用TokenFilter對輸出流進行過濾處理";

			// 自定義停用詞
			String[] self_stop_words = { "使用", "一個", "管道" };
			CharArraySet cas = new CharArraySet(Version.LUCENE_44, 0, true);
			for (int i = 0; i < self_stop_words.length; i++) {
				cas.add(self_stop_words[i]);
			}

			// 加入系統預設停用詞
			Iterator<Object> itor = CJKAnalyzer.getDefaultStopSet().iterator();
			while (itor.hasNext()) {
				cas.add(itor.next());
			}

			// CJK分詞器(C:China;J:Japan;K:Korea;能對中，日，韓語言進行分析的分詞器，對中文支援效果一般,基本不用於中文分詞)
			CJKAnalyzer sa = new CJKAnalyzer(Version.LUCENE_44, cas);

			TokenStream ts = sa.tokenStream("field", text);
			CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);

			ts.reset();
			while (ts.incrementToken()) {
				System.out.println(ch.toString());
			}
			ts.end();
			ts.close();
		} catch (Exception ex) {
			ex.printStackTrace();
		}
	}

}

六、SmartChineseAnalyzer

對中文支援稍好，但擴充套件性差，擴充套件詞庫，禁用詞庫和同義詞庫等不好處理

package bond.lucene.analyzer;

import java.util.Iterator;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.util.CharArraySet;
import org.apache.lucene.util.Version;

public class SmartChineseAnalyzerTest {

	public static void main(String[] args) {
		try {
			// 要處理的文字
			String text = "lucene分析器使用分詞器和過濾器構成一個“管道”，文字在流經這個管道後成為可以進入索引的最小單位，因此，一個標準的分析器有兩個部分組成，一個是分詞器tokenizer,它用於將文字按照規則切分為一個個可以進入索引的最小單位。另外一個是TokenFilter，它主要作用是對切出來的詞進行進一步的處理（如去掉敏感詞、英文大小寫轉換、單複數處理）等。lucene中的Tokenstram方法首先建立一個tokenizer物件處理Reader物件中的流式文字，然後利用TokenFilter對輸出流進行過濾處理";

			// 自定義停用詞
			String[] self_stop_words = { "的", "了", "呢", "，", "0", "：", ",", "是", "流" };
			CharArraySet cas = new CharArraySet(Version.LUCENE_44, 0, true);
			for (int i = 0; i < self_stop_words.length; i++) {
				cas.add(self_stop_words[i]);
			}

			// 加入系統預設停用詞
			Iterator<Object> itor = SmartChineseAnalyzer.getDefaultStopSet().iterator();
			while (itor.hasNext()) {
				cas.add(itor.next());
			}

			// 中英文混合分詞器(其他幾個分詞器對中文的分析都不行)
			SmartChineseAnalyzer sca = new SmartChineseAnalyzer(Version.LUCENE_44, cas);

			TokenStream ts = sca.tokenStream("field", text);
			CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);

			ts.reset();
			while (ts.incrementToken()) {
				System.out.println(ch.toString());
			}
			ts.end();
			ts.close();
		} catch (Exception ex) {
			ex.printStackTrace();
		}
	}

}

針對中文的分詞處理，整體來說，Lucene的處理不是很好的，我同學推薦了一個分詞效果好，擴充套件起來也很方便的開源庫

http://nlp.stanford.edu/software/segmenter.shtml

現在還沒有研究，運行了一個demo，發現分詞效果很好

Lucene 4.4.0中常用的幾個分詞器

一、WhitespaceAnalyzer 以空格作為切詞標準，不對語彙單元進行其他規範化處理。很明顯這個實用英文，單詞之間用空格。 package bond.lucene.analyzer; import org.apache.lucene.analysis.TokenS

stl的中常用幾個容器的介紹與特點。

<1>vector容器 vector容器是一個動態陣列的結構，在記憶體中有一個指標指向一塊連續的記憶體。類似陣列結構一樣。它的特點支援隨機訪問資料，因為其在記憶體中的單元是連續。如此之外，還可以vector的大小是可以自動增長的。當向一個vector中繼續

Solr6.6.0添加IK中文分詞器

其中開發其余下載鏈接 classes 項目實現 .com 擴展 IK分詞器就是一款中國人開發的，擴展性很好的中文分詞器，它支持擴展詞庫，可以自己定制分詞項，這對中文分詞無疑是友好的。 jar包下載鏈接：http://pan.baidu.com/s/1o85I15o

Lucene.net(4.8.0) 學習問題記錄五: JIEba分詞和Lucene的結合，以及對分詞器的思考

+= d+ ext eth reac chart rdl ret start 前言：目前自己在做使用Lucene.net和PanGu分詞實現全文檢索的工作，不過自己是把別人做好的項目進行遷移。因為項目整體要遷移到ASP.NET Core 2.0版本,而Lucene使用的版本

日常開發中的幾個常用跨域處理方式

geo htm 網站 options https ss代理 write npm 服務端設置express代理請求在基於vue-cli的項目中，在開發環境配置(config/dev.env.js)中設置代理，能夠將所有/apidomain開頭的請求都通過npm run d

《OpenCV3程式設計入門》——4.2 OpenCV中常用資料結構和函式（Point、Scalar、Size、Rect、cvtColor）

目錄 1、點的表示：Point類 2、顏色的表示：Scalar類 3、尺寸的表示：Size類 4、矩形的表示：Rect類 5、顏色空間轉換：cvtColor()函式 1、點的表示：Point類 Point類資料結構表示了二維座標系下的點，即由影象座標x和y指定的2D點

Mysql6.0連線中的幾個問題

在最近做一些java web整合時，因為我在maven官網查詢的資源，使用的最新版，6.0.3,發現Mysql連線中的幾個問題，總結如下： 1、Loading class `com.mysql.jdbc.Driver'.This isdeprecated.

C中的幾個常用演算法

/*一般查詢法*/{ int i; if( size <= 0 ) return -1; for( i = 0; i < size; ++i ) if( date == array[i] ) return i; return -1;} void s

java中的幾個常用流

FileOutputStream位元組輸出流以位元組為單位將資料寫入檔案 FileInputStream位元組輸入流以位元組為單位從檔案中讀取資料 BufferedOutputStream

vue.js2.0開發中的幾個技巧

最近用Vue.js開發了幾個專案，Vue的雙向資料繫結和元件化讓我耳目一新，減少了很多底層重複的工作，和基於jQuey的前端開發不起來，基於Vue的開發給我一種酣暢淋漓的感覺。

C++ string中的幾個小陷阱，你掉進過嗎？

stl 試題賦值 clu ror ati world mod iostream C++開發的項目難免會用到STL的string。使用管理都比char數組（指針）方便的多。但在得心應手的使用過程中也要警惕幾個小陷阱。避免我們項目出bug卻遲遲找不到原因。1. 結構體中的

elasticsearch中的幾個概念總結

查詢 article ase con 總結 diff 返回 cse nan 1、Geo spatial search : 地理空間搜索,可以在搜索查詢中指定的某一距離內查找所要的內容。也可以返回以當前為圓心，逐漸添加圓的半徑。直到找到所匹配到的內容。

python筆記10-切片（從list或字符串中取幾個元素）

-1 下標功能切片 name 字符 list python 筆記 name1 = ‘zcl,pyzyz‘names = [‘zcl‘,‘py‘,‘zyz‘]#切片的意思就是從list裏面或者字符串裏面取幾個元素#切片操作對字符串也是完全適用的# print(names[

SQLServer2PostgreSQL遷移過程中的幾個問題

post content enter 文件中一 postgres 能夠 lac ftw 1、PostgreSQL 跨平臺遷移工具Migration Toolkit的使用指南：http://www.enterprisedb.com/docs/en/8.4/mtkguide/

【轉載】Spark學習——spark中的幾個概念的理解及參數配置

program submit man 聯眾 tail 進行 orb 數據源 work 首先是一張Spark的部署圖：節點類型有： 1. master 節點：常駐master進程，負責管理全部worker節點。2. worker 節點：常駐worker進程，負責管理

數據庫基礎查詢語句中的幾個細節

語句 nvl 備註 nav 數據庫數據庫基礎細節字符串 rom 運算　　select 姓名列，工資列，工資列*12 from 表名　　計算年薪字符串拼接　　irst_name||‘是‘||start_date||‘入職的,工資是‘||salary||‘,職位是

mybatis中的幾個註意的地方

suffix tle ive lis trim student clu 後綴 name 1、首先定義一個sql標簽，一定要定義唯一id<sql id="Base_Column_List" >name,age</sql>2、然後通過id引用<se

Servlet中的幾個重要的對象（轉）

localhost http ttr 屬性 webapps source 指定路徑開始 orm 　講解四大類，ServletConfig對象，ServletContext對象、request對象，response對象 ServletConfig對象　　　　　　　　獲取途

php學習筆記-PHP中的幾個取整函數

4.5 一個個數等於之間 gpo 容易學習函數 floor是向下取整，比如4.5，它是在4和5之間的一個數，那麽結果就是4。 ceil是向上取整，比如3.7，它是在3和4之間的一個數，那麽結果就是4。 round是對一個數四舍五入，小數部分如果小於5則直接舍去，如

js運算中的幾個註意點

bsp nan 繼續操作邏輯或 style log class 判斷 1.除了字符串參與的加法外，非Number類型的值進行運算時，會將這些值轉換為Number然後再運算 var res = true + 100;console.log(res); // =101va

Lucene 4.4.0中常用的幾個分詞器

相關推薦