python 結巴分詞(jieba)學習

阿新 • • 發佈：2019-01-14

原始碼下載的地址：https://github.com/fxsjy/jieba

演示地址：http://jiebademo.ap01.aws.af.cm/

特點

1，支援三種分詞模式：

    a,精確模式，試圖將句子最精確地切開，適合文字分析；
    b,全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；
    c,搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜尋引擎分詞。

2，支援繁體分詞

3，支援自定義詞典

安裝

1，Python 2.x 下的安裝

全自動安裝 ：easy_install jieba 或者 pip install jieba
半自動安裝

：先下載http://pypi.python.org/pypi/jieba/ ，解壓後執行python setup.py install
手動安裝 ：將jieba目錄放置於當前目錄或者site-packages目錄
通過import jieba 來引用

2，Python 3.x 下的安裝

目前master分支是隻支援Python2.x 的
Python3.x 版本的分支也已經基本可用： https://github.com/fxsjy/jieba/tree/jieba3k

git clone https://github.com/fxsjy/jieba.git
git checkout jieba3k
python setup.py install

演算法實現：

基於Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)
採用了動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合
對於未登入詞，採用了基於漢字成詞能力的HMM模型，使用了Viterbi演算法

功能

功能 1)：分詞

    jieba.cut方法接受兩個輸入引數: 1) 第一個引數為需要分詞的字串 2）cut_all引數用來控制是否採用全模式
    jieba.cut_for_search方法接受一個引數：需要分詞的字串,該方法適合用於搜尋引擎構建倒排索引的分詞，粒度比較細
    注意：待分詞的字串可以是gbk字串、utf-8字串或者unicode
    jieba.cut以及jieba.cut_for_search返回的結構都是一個可迭代的generator，可以使用for迴圈來獲得分詞後得到的每一個詞語(unicode)，也可以用list(jieba.cut(...))轉化為list
程式碼示例( 分詞 )

#encoding=utf-8
import jieba
seg_list = jieba.cut("我來到北京清華大學", cut_all=True)
print "Full Mode:", "/ ".join(seg_list)  # 全模式
seg_list = jieba.cut("我來到北京清華大學", cut_all=False)
print "Default Mode:", "/ ".join(seg_list)  # 精確模式
seg_list = jieba.cut("他來到了網易杭研大廈")  # 預設是精確模式
print ", ".join(seg_list)
seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所，後在日本京都大學深造")  # 搜尋引擎模式
print ", ".join(seg_list)

Output:
【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學
【精確模式】: 我/ 來到/ 北京/ 清華大學
【新詞識別】：他, 來到, 了, 網易, 杭研, 大廈 (此處，“杭研”並沒有在詞典中，但是也被Viterbi演算法識別出來了)
【搜尋引擎模式】：小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 後, 在, 日本, 京都, 大學, 日本京都大學, 深造

功能 2) ：新增自定義詞典

開發者可以指定自己自定義的詞典，以便包含jieba詞庫裡沒有的詞。雖然jieba有新詞識別能力，但是自行新增新詞可以保證更高的正確率
用法：

jieba.load_userdict(file_name) # file_name為自定義詞典的路徑

詞典格式和dict.txt一樣，一個詞佔一行；每一行分三部分，一部分為詞語，另一部分為詞頻，最後為詞性（可省略），用空格隔開
範例：

自定義詞典：

雲端計算 5
李小福 2 nr
創新辦 3 i
easy_install 3 eng
好用 300
韓玉賞鑑 3 nz

用法示例：

#encoding=utf-8
import sys
sys.path.append("../")
import jieba
jieba.load_userdict("userdict.txt")
import jieba.posseg as pseg

test_sent = "李小福是創新辦主任也是雲端計算方面的專家;"
test_sent += "例如我輸入一個帶“韓玉賞鑑”的標題，在自定義詞庫中也增加了此詞為N型別"
words = jieba.cut(test_sent)
for w in words:
print w

result = pseg.cut(test_sent)

for w in result:
print w.word, "/", w.flag, ", ",

print "\n========"

terms = jieba.cut('easy_install is great')
for t in terms:
    print t
print '-------------------------'
terms = jieba.cut('python 的正則表示式是好用的')
for t in terms:
    print t

之前：李小福 / 是 / 創新 / 辦 / 主任 / 也 / 是 / 雲 / 計算 / 方面 / 的 / 專家 /
載入自定義詞庫後：李小福 / 是 / 創新辦 / 主任 / 也 / 是 / 雲端計算 / 方面 / 的 / 專家 /

"通過使用者自定義詞典來增強歧義糾錯能力" --- https://github.com/fxsjy/jieba/issues/14

功能 3) ：關鍵詞提取

jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse

說明

setence為待提取的文字

topK為返回幾個TF/IDF權重最大的關鍵詞，預設值為20
程式碼示例（關鍵詞提取）

import sys
sys.path.append('../')

import jieba
import jieba.analyse
from optparse import OptionParser

USAGE = "usage: python extract_tags.py [file name] -k [top k]"

parser = OptionParser(USAGE)
parser.add_option("-k", dest="topK")
opt, args = parser.parse_args()

‘’‘
if len(args) < 1:
    print USAGE
    sys.exit(1)

file_name = args[0]
’‘’
file_name=u"D:XXX/xx/xx.txt"
if opt.topK is None:
    topK = 10
else:
    topK = int(opt.topK)

content = open(file_name, 'rb').read()

tags = jieba.analyse.extract_tags(content, topK=topK)

print ",".join(tags)

功能 4) : 詞性標註

標註句子分詞後每個詞的詞性，採用和ictclas相容的標記法
用法示例

>>> import jieba.posseg as pseg
>>> words = pseg.cut("我愛北京天安門")
>>> for w in words:
...    print w.word, w.flag
...
我 r
愛 v
北京 ns
天安門 ns

功能 5) : 並行分詞

原理：將目標文字按行分隔後，把各行文字分配到多個python程序並行分詞，然後歸併結果，從而獲得分詞速度的可觀提升
基於python自帶的multiprocessing模組，目前暫不支援windows
用法：

jieba.enable_parallel(4) # 開啟並行分詞模式，引數為並行程序數
jieba.disable_parallel() # 關閉並行分詞模式

例子：

import urllib2
import sys,time
import sys
sys.path.append("../../")
import jieba
jieba.enable_parallel(4)

url = sys.argv[1]
content = open(url,"rb").read()
t1 = time.time()
words = list(jieba.cut(content))

t2 = time.time()
tm_cost = t2-t1

log_f = open("1.log","wb")
for w in words:
print >> log_f, w.encode("utf-8"), "/" ,

print 'speed' , len(content)/tm_cost, " bytes/second"

實驗結果：在4核3.4GHz Linux機器上，對金庸全集進行精確分詞，獲得了1MB/s的速度，是單程序版的3.3倍。

其他詞典

佔用記憶體較小的詞典檔案 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small
支援繁體分詞更好的詞典檔案 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big
下載你所需要的詞典，然後覆蓋jieba/dict.txt 即可或者用jieba.set_dictionary('data/dict.txt.big')

模組初始化機制的改變:lazy load （從0.28版本開始）

jieba採用延遲載入，"import jieba"不會立即觸發詞典的載入，一旦有必要才開始載入詞典構建trie。如果你想手工初始jieba，也可以手動初始化。

import jieba
jieba.initialize()  # 手動初始化（可選）

在0.28之前的版本是不能指定主詞典的路徑的，有了延遲載入機制後，你可以改變主詞典的路徑:

jieba.set_dictionary('data/dict.txt.big')

例子：

#encoding=utf-8
import sys
sys.path.append("../")
import jieba

def cuttest(test_sent):
result = jieba.cut(test_sent)
print " ".join(result)

def testcase():
cuttest("這是一個伸手不見五指的黑夜。我叫孫悟空，我愛北京，我愛Python和C++。")
cuttest("我不喜歡日本和服。")
cuttest("雷猴迴歸人間。")
cuttest("工信處女幹事每月經過下屬科室都要親口交代24口交換機等技術性器件的安裝工作")
cuttest("我需要廉租房")
cuttest("永和服裝飾品有限公司")
cuttest("我愛北京天安門")
cuttest("abc")
cuttest("隱馬爾可夫")
cuttest("雷猴是個好網站")

if __name__ == "__main__":
testcase()
jieba.set_dictionary("foobar.txt")
print "================================"
testcase()

功能 6) : Tokenize：返回詞語在原文的起始位置

注意，輸入引數只接受unicode
預設模式

result = jieba.tokenize(u'永和服裝飾品有限公司')

for tk in result:

    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和                start: 0                end:2
word 服裝                start: 2                end:4
word 飾品                start: 4                end:6
word 有限公司            start: 6                end:10

搜尋模式

result = jieba.tokenize(u'永和服裝飾品有限公司',mode='search')

for tk in result:

    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和                start: 0                end:2
word 服裝                start: 2                end:4
word 飾品                start: 4                end:6
word 有限                start: 6                end:8
word 公司                start: 8                end:10
word 有限公司            start: 6                end:10

功能 7) : ChineseAnalyzer for Whoosh搜尋引擎引用： from jieba.analyse import ChineseAnalyzer 用法示例：https://github.com/fxsjy/jieba/blob/master/test/test_whoosh.py 其他詞典下載你所需要的詞典，然後覆蓋jieba/dict.txt 即可或者用jieba.set_dictionary('data/dict.txt.big') 模組初始化機制的改變:lazy load （從0.28版本開始） jieba採用延遲載入，"import jieba"不會立即觸發詞典的載入，一旦有必要才開始載入詞典構建trie。如果你想手工初始jieba，也可以手動初始化。 import jieba jieba.initialize() #手動初始化（可選）在0.28之前的版本是不能指定主詞典的路徑的，有了延遲載入機制後，你可以改變主詞典的路徑: jieba.set_dictionary('data/dict.txt.big') 例子： https://github.com/fxsjy/jieba/blob/master/test/test_change_dictpath.py 分詞速度 1）模型的資料是如何生成的？https://github.com/fxsjy/jieba/issues/7 2）這個庫的授權是? https://github.com/fxsjy/jieba/issues/2 更多問題請點選：https://github.com/fxsjy/jieba/issues?sort=updated&state=closed Change Log http://www.oschina.net/p/jieba/news#list http://www.oschina.net/p/jieba https://github.com/fxsjy/jieba

python 結巴分詞(jieba)學習

特點

1，支援三種分詞模式：

2，支援繁體分詞

3，支援自定義詞典

安裝

1，Python 2.x 下的安裝

2，Python 3.x 下的安裝

演算法實現：

功能

功能 1)：分詞

功能 2) ：新增自定義詞典

功能 3) ：關鍵詞提取

功能 4) : 詞性標註

功能 5) : 並行分詞

其他詞典

模組初始化機制的改變:lazy load （從0.28版本開始）

功能 6) : Tokenize：返回詞語在原文的起始位置

python 結巴分詞(jieba)學習

python 結巴分詞(jieba)詳解

python 結巴分詞學習

python中文分詞工具：結巴分詞jieba

Python 結巴分詞關鍵詞抽取分析

Python中文分詞 jieba

Python---結巴分詞介紹

python結巴分詞器的使用說明

Python 中文分詞 jieba（小白進）

python中文分詞jieba的高階應用

Python中文分詞 jieba 十五分鐘入門與進階

Python中文分詞--jieba的基本使用

python—結巴分詞的原理理解，Hmm中的轉移概率矩陣和混淆矩陣。

使用結巴分詞（jieba）對自然語言進行特徵預處理（Python、Java 實現）

python jieba分詞(結巴分詞)、提取詞，載入詞，修改詞頻，定義詞庫

中文分詞jieba python 學習

jieba（結巴）—— Python 中文分詞

python呼叫jieba(結巴)分詞加入自定義詞典和去停用詞功能

Python中結巴分詞使用手記

python中文分詞，使用結巴分詞對python進行分詞

python 結巴分詞(jieba)學習

特點

1，支援三種分詞模式：

2，支援繁體分詞

3，支援自定義詞典

安裝

1，Python 2.x 下的安裝

2，Python 3.x 下的安裝

演算法實現：

功能

功能 1)：分詞

功能 2) ：新增自定義詞典

功能 3) ：關鍵詞提取

功能 4) : 詞性標註

功能 5) : 並行分詞

其他詞典

模組初始化機制的改變:lazy load （從0.28版本開始）

功能 6) : Tokenize：返回詞語在原文的起始位置

相關推薦