幾種常見的中文分詞包的分析與比較

阿新 • • 發佈：2019-01-01

1：中文分詞簡介

2：Lucence的中文分詞

3：庖丁分詞簡介

4：IK中文分詞簡介

一：中文分詞簡介

1：分詞演算法分類

-----基於字串匹配的中文分詞方法

eg：句子：我來自瀋陽航空航天大學

詞典：瀋陽航空航天大學瀋陽航空航天大學

匹配欄位：

匹配結果：

選取詞典中最長欄位作為分詞起始的最長步伐，可知最長為8

首先在句子中以“我”為起點，數八個字“我來自瀋陽航空航”在詞典中沒有匹配到，然後步長減一，為7

然後數七個字“我來自瀋陽航空”同樣在字典中沒有匹配到，步長減一，為6

........

步長為1時依然沒有匹配到，但是是單音節詞了，所以存放在匹配結果中

以此執行，下一次從“是”開始......

所以最終的匹配結果是：我來自瀋陽航空航天大學瀋陽航空航天大學

------基於理解的分詞方法

類似於人工智慧分詞了，能夠自動識別詞語的意思，進行分詞

------基於統計的分詞方法

2：兩大難題

----歧義識別

----新詞識別

3：應用

----搜尋引擎

----自然語言處理

二：Lucence的中文分詞

1：基於字串匹配的分詞

----paoding

----mmseg4j：MMseg演算法

----IK：正向迭代最細粒度劃分演算法

2：基於統計的分詞

----imdict：採用隱馬爾可夫模型

三：庖丁分詞簡介

極具有高效性和可擴充套件性，採用完全的面向物件設計，構思先進

優點：

自定義詞庫，通過修改paoding-analysis.jar中的paoding-dic-home.properties檔案中的“paoding.dic.home=dic”定義自己的詞庫

能夠對未知的詞彙進行合理的分析，分詞效率高

部署：

1. 配置dic檔案：

修改paoding-analysis.jar中的paoding-dic-home.properties檔案，將“#paoding.dic.home=dic”的註釋去掉，並配置成自己dic檔案的本地存放路徑。eg：/home/hadoop/work/paoding-analysis-2.0.4-beta/dic

2. 把Jar包匯入到專案中：

將paoding-analysis.jar、commons-logging.jar、lucene-analyzers-2.2.0.jar和lucene-core-2.2.0.jar四個包匯入到專案中，這時就可以在程式碼片段中使用庖丁解牛工具提供的中文分詞技術

3：程式碼例項

package tokens;

import java.io.IOException;
import java.io.StringReader;

import net.paoding.analysis.analyzer.PaodingAnalyzer;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;

public class tokens {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		String text = "本思想就是在分詞的同時進行句法、語義分析, 利用句法資訊和語義資訊來進行詞性標註, 以解決分詞歧義現象。因為現有的語法知識、句法規則十分籠統、複雜, 基於語法和規則的分詞法所能達到的精確度遠遠還不能令人滿意, 目前這種分詞系統還處在試驗階段。";
		//定義一個解析器
		Analyzer analyzer = new PaodingAnalyzer();
		
		//得到token序列的輸出流
		TokenStream tokens = analyzer.tokenStream(text, new StringReader(text));
		try{
			Token t;
			while((t=tokens.next() ) !=null){
				System.out.println(t);
                                //System.out.println(t.termText())  輸出單個詞
			}
		}catch(IOException e){
			e.printStackTrace();
		}
	}

}

4：分詞結果

四：IK中文分詞簡介

幾種常見的中文分詞包的分析與比較

1：中文分詞簡介 2：Lucence的中文分詞 3：庖丁分詞簡介 4：IK中文分詞簡介一：中文分詞簡介 1：分詞演算法分類 -----基於字串匹配的中文分詞方法 eg：句子：我來自瀋陽航空航天大學

幾種常見SQL分頁方式效率比較

har n) over mage 適用於 not blog toolbar 大數 1.創建測試環境，(插入100萬條數據大概耗時5分鐘)。 create database DBTestuse DBTest--創建測試表create table pagetest(id

幾種常見SQL分頁方式

第一種方法：效率最高 [sql] view plain copy SELECT TOP 頁大小 *

sphinx的安裝配置和中文分詞包coreseek

sphinx在此處下載： http://sphinxsearch.com/downloads/release/ 本次我下的是2.2.4版本自持中文分詞的包叫做coreseek，其實就是帶了中文分詞外掛的sphinx，在此處下載： http://www.coreseek.

【結巴分詞資料彙編】結巴中文分詞原始碼分析(2)

如下演算法實現分詞： 1. 基於字首詞典實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖 (DAG); 作者這個版本中使用字首字典實現了詞庫的儲存(即dict.txt檔案中的內容)，而棄用之前版本的trie樹儲存詞庫，想想也是，python中實現的trie樹是基於dict型

三叉搜尋樹（Ternary Search Trie）和中文分詞原理分析

三叉搜尋樹（Ternary Search Trie）三叉搜尋樹是二叉搜尋樹和數字搜尋樹的混合體。它有和數字搜尋樹差不多的速度但是隻需要和二叉搜尋樹一樣相對較少的記憶體空間。在一個三叉搜尋樹中，每一個節點包含一個字元，和數字搜尋樹不同，三叉搜尋樹只有三個指標：一個指向左邊

Python第三方庫jieba（結巴-中文分詞）入門與進階（官方文檔）

修改 demo 特點 pypi nlp CA 動態修改 tag 官方文檔 jieba “結巴”中文分詞：做最好的 Python 中文分詞組件。下載地址：https://github.com/fxsjy/jieba 特點支持三種分詞模式：精確模式，試圖將句子最精確地

05 識別毒酒——幾種演算法和編碼方式的分析和比較

說明問題識別毒酒方法1 視為一個有約束的最優化問題進行求解 1 模型的進一步討論 3方法2 使用編碼的方法 1 結論 2 具體方法 3一個瑕疵和改進的方法

中文分詞的演算法與實現（結巴分詞）

宣告：程式碼的執行環境為Python3。Python3與Python2在一些細節上會有所不同，希望廣大讀者注意。本部落格以程式碼為主，程式碼中會有詳細的註釋。相關文章將會發布在我的個人部落格專欄《Python自然語言處理》，歡迎大家關注。

幾種任務排程的 Java 實現方法與比較

簡介：綜觀目前的 Web 應用，多數應用都具備任務排程的功能。本文由淺入深介紹了幾種任務排程的 Java 實現方法，包括 Timer，Scheduler, Quartz 以及 JCron Tab，並對其優缺點進行比較，目的在於給需要開發任務排程的程式設計師提供

JS進階-閉包的幾種常見形式

++ 常見 spa chain () clas js進階 undefined alert 作用域鏈： //作用域鏈 var a = 1; function test() { var b =2; return a; }

AWR收集緩慢、掛起的幾種常見情況分析

oracle awr mmon/mmnl AWR（Automatic Workload Repository）作為對數據庫性能診斷的工具，采集與性能相關的統計數據，根據這些統計數據中的性能指標，以跟蹤潛在的問題。若因某些情況導致相關數據無法收集，就會對數據庫性能診斷大打折扣。以下列舉AWR收集緩

分庫分表的幾種常見玩法及如何解決跨庫查詢等問題

時間擔憂 idt web 分布 rpc sharding har 安全性在談論數據庫架構和數據庫優化的時候，我們經常會聽到“分庫分表”、“分片”、“Sharding”…這樣的關鍵詞。讓人感到高興的是，這些朋友所服務的公司業務量正在（或者即將面臨）高速增長，技術方面也面臨

常見的中文分詞方法

常見的中文分詞方法 1.基於規則的方法（字串匹配、機械分詞）定義:按照一定規則將待分析的漢字串與詞典中的詞條進行匹配，找到則切分，否則不予切分。按照匹配切分的方式，主要有正向最大匹配方法、逆向最大匹配方法和雙向最大匹配三種方法。

Hanlp等七種優秀的開源中文分詞庫推薦

中文分詞是中文文字處理的基礎步驟，也是中文人機自然語言互動的基礎模組。由於中文句子中沒有詞的界限，因此在進行中文自然語言處理時，通常需要先進行分詞。縱觀整個開源領域，陸陸續續做中文分詞的也有不少，不過目前仍在維護的且質量較高的並不多。下面整理了一些個人認為比較優秀的中文分

hanlp中文分詞、提取摘要關鍵字、語句分析、智慧推薦

hanlp資源： hanlp介紹：http://hanlp.linrunsoft.com/ hanlp下載：https://github.com/hankcs/HanLP hanlp(分詞)使用：https://blog.csdn.net/nima1994/article/details

解釋Java工程中幾種常見的包：PO，VO，DAO，BIZ,DTO,Service,ServiceImpl

一、PO:persistant object 持久物件,是與資料庫中的表相對映的java物件。最簡單的PO就是對應資料庫中某個表中的一條記錄，多個記錄可以用PO的集合。PO中應該不包含任何對資料庫的操作。二、VO:value object值物件。通常用於業務層之間的資料傳

NLP詞法分析（一）：中文分詞

##1.中文分詞介紹中文分詞相較於英文分詞要難許多，因為英文字身就是由單詞與空格組成的，而中文則是由獨立的字組成的，但同時語義卻是有詞來表達的。因此對於中文的分析與研究，首先應尋找合適的方法進行分詞。現有的中文分詞技術主要分為規則分詞，統計分詞與規則加統計相結

幾種常見的HTML分割線

一、基礎程式碼：1、<HR>2、<HR align=center width=300color=#987cb9 SIZE=1>align 線條位置（可選left、right、center）；width 線條長度；color 顏色；size 厚度二、特效（效果並不是孤立的，可相互組

詞法分析-中文分詞技術-正向最大匹配法與逆向最大匹配法

Long Time No See... 最近深受痛苦的折磨，這一年來所有的事跌宕起伏，如同一瞬，一個個打擊接踵而至，從年初的各種擦邊掛，到各種失敗，各種放棄，似乎沒有發生一個順心的事，不知道從什麼時候起戾氣變得越來越重，更無與人說。不管如何，“盡吾志也而不能至者，可以無悔矣，其孰能譏之乎？”……

幾種常見的中文分詞包的分析與比較

相關推薦