中文分詞中的戰鬥機

阿新 • • 發佈：2017-06-13

raw 自帶參考文獻英文概念手動實現大學 sco

英文分詞的第三方庫NLTK不錯，中文分詞工具也有很多(盤古分詞、Yaha分詞、Jieba分詞等)。但是從加載自定義字典、多線程、自動匹配新詞等方面來看。
大jieba確實是中文分詞中的戰鬥機。

請隨意觀看表演

安裝
分詞
自定義詞典
延遲加載
關鍵詞提取
詞性標註
詞語定位
內部算法

安裝

使用pip包傻瓜安裝：py -3 -m pip install jieba / pip install jiba（windows下推薦第一種，可以分別安裝python2和3對應jieba）
pypi下載地址

分詞

3種模式

精確模式：試圖將句子最精確地切開，適合文本分析
全模式：把句子中所有的可以成詞的詞語都掃描出來（速度快）

搜索引擎模式：在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜索引擎分詞

實現方式

精確模式：jieba.cut(sen)
全模式：jieba.cut(sen,cut_all=True)
搜索引擎模式：jieba.cut_for_search(sen)

import jieba
sen = "我愛深圳大學"
sen_list = jieba.cut(sen)
sen_list_all = jieba.cut(sen,cut_all=True)
sen_list_search = jieba.cut_for_search(sen)
for i in sen_list:
    print(i,end=" ")
print()
for i in sen_list_all:
    print(i,end=" ")
print()
for i in sen_list_search:
    print(i,end=" ")
print()

結果：附截圖
技術分享

自定義詞典

創建方式

後綴：txt
格式：詞語( 權重詞性 )
註意事項：
1. windows下txt不能用自帶的編輯器，否則會亂碼。可以用VSCODE，或者其他編輯器
2. 可以只有詞語
3. 在沒有權重的情況下，只有比默認詞典長的詞語才可以加載進去。附截圖

加載字典

jieba.load_userdict(txtFile)

調整字典

添加詞：jieba.add_word(word,freq=None,tag=None)

刪除詞：jieba.del_word(word)

import jieba
sen = "膠州市市長江大橋"
sen_list = jieba.cut(sen)
for i in sen_list:
    print(i,end=" ")
print()

膠州市 市 長江大橋

jieba.add_word(‘江大橋‘,freq=20000)
sen_list = jieba.cut(sen)
for i in sen_list:
    print(i,end=" ")
print()

結果附截圖
技術分享

改變主字典

占用內存較小的詞典文件
支持繁體分詞更好的詞典文件
加載方法：jieba.set_dictionary(‘data/dict.txt.big‘)

延遲加載

之前發現，詞典不是一次性加載的，說明它采用的是延遲加載。即：當遇到應用的時候才會加載。有點類似於python高級特性中的 yield （節省內存）

效果圖如下：
技術分享

手動加載的方法：jieba.initialize()

關鍵詞提取

jieba.analyse.extract_tags(sentence,topK=20):返回topK個TF/IDF權重最大的詞語

import jieba.analyse
sen_ana = jieba.analyse.extract_tags(sen,3)
for i in sen_ana:
    print(i)

江大橋
膠州市
市長

詞性標註

jieba.posseg.cut(sen):返回的每個叠代對象有兩個屬性-> word 詞語 + flag 詞性

import jieba.posseg
words = jieba.posseg.cut(sen)
for word in words:
    print(word.flag," ",word.word)

ns   膠州市
n   市長
x   江大橋

詞語定位

jieba.tokenize(sen,mode):mode可以設置為search，開啟搜索模式

index= jieba.tokenize(sen)
for i in index:
    print(i[0],"from",i[1],"to",i[2])

膠州市 from 0 to 3
市長 from 3 to 5
江大橋 from 5 to 8

內部算法

基於Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)
采用了動態規劃查找最大概率路徑, 找出基於詞頻的最大切分組合
對於未登錄詞，采用了基於漢字成詞能力的HMM模型，使用了Viterbi算法。

參考文獻

python中jieba分詞快速入門
使用Jieba工具中文分詞及文本聚類概念

中文分詞中的戰鬥機

raw 自帶參考文獻英文概念手動實現大學 sco 英文分詞的第三方庫NLTK不錯，中文分詞工具也有很多(盤古分詞、Yaha分詞、Jieba分詞等)。但是從加載自定義字典、多線程、自動匹配新詞等方面來看。大jieba確實是中文分詞中的戰鬥機。請隨意觀看表演

Hanlp在java中文分詞中的使用介紹

專案結構該專案中，.jar和data資料夾和.properties需要從官網/github下載，data資料夾下載專案配置修改hanlp.properties: 1 #/Test/src/hanlp.propertie

如何在Elasticsearch中安裝中文分詞器(IK+pinyin)

如果直接使用Elasticsearch的朋友在處理中文內容的搜尋時，肯定會遇到很尷尬的問題——中文詞語被分成了一個一個的漢字，當用Kibana作圖的時候，按照term來分組，結果一個漢字被分成了一組。這是因為使用了Elasticsearch中預設的標準分詞器，這個分詞器在處理中文的時候會把中文單詞切分成

python中使用jieba進行中文分詞

原始碼下載的地址：https://github.com/fxsjy/jieba演示地址：http://jiebademo.ap01.aws.af.cm/ 一 “結巴”中文分詞：做最好的 Python 中文分片語件。支援三種分詞模式：精確模式，試圖將句子最精確地切開，適

solr5.5版本中ik中文分詞配置

這裡我使用的是solr5.5進行匹配的分詞器首先需要先下載IKAnalyzer 分詞器下載地址: IK分詞器jar 將下載好的jar 放到 webapps\solr\WEB-INF\lib

Windows系統中Elasticsearch安裝中文分詞外掛elasticsearch-analysis-ik

前言系統：Windows10elasticsearch版本：5.6.6中文分詞版本：5.6.6（需要與elasticsearch版本匹配）maven版本：3.5.5安裝step1 官網下載合適的版本選擇合適的版本，並下載： step2 解壓到某個目錄下目錄結構如下：step3

Deep Learning 在中文分詞和詞性標註任務中的應用

開源軟體包 SENNA 和 word2vec 中都用到了詞向量（distributed word representation），當時我就在想，對於我們的中文，是不是也類似地有字向

中科院中文分詞在java中呼叫詳解（ICTCLAS2013版）

在中文分詞的時候，現在流行的有很多，下面主要介紹中科院中文分詞，現在中科院地址是http://ictclas.nlpir.org/ 首先也是開始呼叫這個介面，呼叫成功後覺得應該共享出來，讓更多人去使用。然後主要是介紹一下怎麼用使用漢語分詞系統怎麼去呼叫。必須先在上面那個網

Python：Python 中 jieba 庫的使用（中文分詞）

==================================================================一、說明： 1、支援三種分詞模式：精確模式，試圖將句子最精確地切開，適合文字分析全模式

elasticsearch搜尋中文分詞理解、類似SQL語句中的"LIKE”條件的模糊搜尋以及忽略大小寫搜尋

elasticsearch作為一款搜尋引擎，應用於資料庫無法承受前端的搜尋壓力時，採用其進行資料的搜尋。可以大併發架構設計中一種選擇，以下是elasticsearch搜尋引擎的部分規則，在實際應用中可以讓我們快速熟悉和幫助解決一些問題。01》不進行分詞的索引建立URL：es_

在PyCharm（Python整合開發環境）中安裝jieba中文分詞工具包

PyCharm IDE中，可以直接引入各種工具包。jieba中文分詞工具包安裝非常方便。 1、開啟Pycharm，點選左上角 >>File >>Settings。 2、在settings介面中點選Project :***（專案名稱） >

中文分詞在大量資料模糊查詢中的應用

最近在做建築行業相關的專案，遇到的一個應用場景是解析材料名稱。由於輸入的資料中材料名稱非常不規範，而且數量量又非常大，所以處理起來比較困難。名稱不規範的意思是，比如標準材料叫：“圓鋼”，材料中出現的名稱有：“鋼筋圓鋼”，“圓鋼HPB300”，“鋼筋圓鋼（≤Φ10）”等等

在C++中呼叫Jieba進行中文分詞

背景之前有個小專案用到了中文分詞，但當時使用的ICTCLAS需要每個月下載證書，很不方便。後來在網上找到了一個開源的python實現的中文分詞器Jieba，可以使用pip直接安裝本地。但之前的專案是c++實現的，所以需要考慮跨語言的呼叫問題。 Python

python 讀寫txt文件並用jieba庫進行中文分詞

mage 亂碼技術分享流行 ictclas 函數結果 class 配置 python用來批量處理一些數據的第一步吧。對於我這樣的的萌新。這是第一步。 #encoding=utf-8 file=‘test.txt‘ fn=open(file,"r") print f

.NET Core中文分詞組件jieba.NET Core

搜索引擎特點支持三種分詞模式：精確模式，試圖將句子最精確地切開，適合文本分析；全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義。具體來說，分詞過程不會借助於詞頻查找最大概率路徑，亦不會使用HMM；搜索引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜索引擎分詞。

PHP中文分詞擴展 SCWS

.com lin white 案例文件 down 運用包含 div 1、scws簡單介紹 SCWS 是 Simple Chinese Word Segmentation 的首字母縮寫（即：簡易中文分詞系統）。這是一套基於詞頻詞典的機械式中文分詞引擎，它能將一整段的

Centos下Sphinx中文分詞編譯安裝測試---CoreSeek

orm 創建索引 auxiliary aclocal memcache acl inux mage arch 要支持中文分詞，還需要下載Coreseek，可以去官方搜索下載，這裏我用的4.1 百度雲下載地址： https://pan.baidu.com/s/1sl

es5.4安裝head、ik中文分詞插件

es安裝maven打包工具wget http://mirror.bit.edu.cn/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz tar -xf apache-maven-3.3.9-bin.tar.gz mv apach

php+中文分詞scws+sphinx+mysql打造千萬級數據全文搜索

libc 海量 modules shell pub redis集群 register 處理 onf Sphinx是由俄羅斯人Andrew Aksyonoff開發的一個全文檢索引擎。意圖為其他應用提供高速、低空間占用、高結果相關度的全文搜索功能。Sphinx可以非常容易的與

11款開放中文分詞引擎大比拼

是否人的 tro 例子 googl 進行北大 art play 在逐漸步入DT（Data Technology）時代的今天，自然語義分析技術越發不可或缺。對於我們每天打交道的中文來說，並沒有類似英文空格的邊界標誌。而理解句子所包括的詞語，則是理解漢語語句的第一步。

中文分詞中的戰鬥機

安裝

分詞

3種模式

實現方式

自定義詞典

創建方式

加載字典

調整字典

改變主字典

延遲加載

關鍵詞提取

詞性標註

詞語定位

內部算法

參考文獻

相關推薦