jieba 結巴分詞常用說明

阿新 • • 發佈：2019-01-07

安裝

全自動：easy_install jieba 或者 pip install jieba 或者pip3 install jieba

手　動：jieba 目錄放置於當前目錄或者 site-packages 目錄

演算法

基於統計詞典，構造字首詞典；基於字首詞典對句子進行切分，得到所有切分可能；根據切分位置，構造一個有向無環圖(DAG)

基於DAG圖，採用動態規劃計算最大概率路徑(最有可能的分詞結果)，根據最大概率路徑分詞

對於未登入詞(詞庫中沒有的詞)，採用有漢字成詞能力的 HMM 模型進行切分

注： jieba中沒有使用trie樹作為字首詞典儲存的資料結構，用的是字首集合,如set([‘數’, ‘資料’, ‘資料結’, ‘資料結構’])

功能
1.分詞

　　三種分詞模式
　　　　A、精確模式：將句子精確切開，適合文字分析。預設是精確模式。
　　　　B、全模式：將句中所有可以成詞的詞語都掃描出來，適合用於搜尋引擎構建倒排索引的分詞，粒度比較細
　　　　C、搜尋引擎模式：在精確模式基礎上，對長詞再次切分，適合搜尋引擎
　　　　注：當指定jieba.cut_for_search或jieba.cut的引數HMM=True時，就有了新詞發現的能力。
# encoding=utf-8

import jieba


# 精確模式 


seg_list = jieba.cut("我去過清華大學和北京大學。")
print(unicode("精確模式: ","utf-8")+ "/ ".join(seg_list))


# 全模式

seg_list = jieba.cut("我去過清華大學和北京大學。", cut_all=True)
print(unicode("全模式: ","utf-8") + "/ ".join(seg_list))


# 搜尋引擎模式

seg_list = jieba.cut_for_search("我去過清華大學和北京大學。")
print(unicode("搜尋引擎模式: ","utf-8" 
) + "/ ".join(seg_list))


# 精確模式/全模式下-新詞發現 “杭研”沒有在詞典中，也被HMM模型 Viterbi演算法識別出來

seg_list = jieba.cut("他來到了網易杭研大廈",HMM=True)
print(unicode("精確模式/全模式-新詞發現: ","utf-8") + "/ ".join(seg_list))


# 搜尋引擎模式下-新詞發現 “杭研”沒有在詞典中，也被HMM模型 Viterbi演算法識別出來

seg_list = jieba.cut_for_search("他來到了網易杭研大廈",HMM=True)
print(unicode("搜尋引擎模式-新詞發現: ","utf-8") + "/ ".join(seg_list))


#print result：


#精確模式: 我/ 去過/ 清華大學/ 和/ 北京大學/ 。


#全模式: 我/ 去過/ 清華/ 清華大學/ 華大/ 大學/ 和/ 北京/ 北京大學/ 大學/ /


#搜尋引擎模式: 我/ 去過/ 清華/ 華大/ 大學/ 清華大學/ 和/ 北京/ 大學/ 北京大學/ 。


#精確模式/全模式-新詞發現: 他/ 來到/ 了/ 網易/ 杭研/ 大廈


#搜尋引擎模式-新詞發現: 他/ 來到/ 了/ 網易/ 杭研/ 大廈
2.新增自定義使用者詞典

　　jieba 有新詞發現能力，但新增使用者詞典可以保證更高的正確率。
　　無使用者詞典下中英文分詞示例
# encoding=utf-8

import jieba

data=[
   "世界經濟論壇也叫達沃斯論壇。",
   "The World Economic Forum is also called the Davos Forum."
    ]

for d in data:
   seg_list = jieba.cut(d)
   #詞與詞之間用","連線
   print(",".join(seg_list))


#無使用者詞典下中英文分詞結果

   # 世界, 經濟, 論壇, 也, 叫, 達沃斯, 論壇,。
   # The,, World,, Economic,, Forum,, is, , also,, called,, the,, >Davos,, Forum,.
　　預設格式使用者詞典下中英文分詞示例
　　　　預設詞典格式和 dict.txt(jieba包下) 一樣，一個詞佔一行；每一行分三部分：詞語、詞頻（可省略）、詞性（可省略），用空格隔開，順序不可顛倒。file_name 若為路徑或二進位制方式開啟的檔案，則檔案必須為 UTF-8 編碼。
　　　　把中文詞”世界經濟論壇”、”達沃斯論壇”；英文詞”World Economic Forum”、”Davos Forum”新增到專案目錄下”“dict/userdict”“中。示例如下…
 # encoding=utf-8
import jieba

"""
預設格式下的使用者詞典"dict/userdict：
世界經濟論壇 n
達沃斯論壇 n
World Economic Forum n
Davos Forum n

"""


# 載入使用者詞典

jieba.load_userdict("dict/userdict")

# 測試使用者詞典


data=[
   "世界經濟論壇也叫達沃斯論壇。",
   "The World Economic Forum is also called the Davos Forum."
    ]

for d in data:
   seg_list = jieba.cut(d)
   #詞與詞之間用","連線
   print(",".join(seg_list))


#預設格式使用者詞典下中英文分詞結果

   # 世界經濟論壇,也,叫,達沃斯論壇,。
   # The, ,World, ,Economic, ,Forum, ,is, ,also, ,called, ,the, ,Davos, >,Forum,.
　　　　可以看到jieba分詞在預設格式下，中文沒問題，英文專有名詞不太理想。不過，可以通過修改jieba包中的init.py檔案幾個正則來解決。詳情請見:jieba分詞支援關鍵詞帶空格和特殊字元
　　修改格式後用戶詞典下中英文分詞示例
　　　　根據上述連結修改後，測試中英文下根據使用者詞典分詞。
 # encoding=utf-8
import jieba

"""
修改格式後的使用者詞典"dict/userdict：用@@來間隔詞、詞頻、詞性
世界經濟論壇@@n
達沃斯論壇@@n
World Economic [email protected]@n
Davos [email protected]@n

"""


# 載入使用者詞典

jieba.load_userdict("dict/userdict")

# 測試使用者詞典


data=[
   "世界經濟論壇也叫達沃斯論壇。",
   "The World Economic Forum is also called the Davos Forum."
    ]

for d in data:
   seg_list = jieba.cut(d)
   #詞與詞之間用","連線
   print(",".join(seg_list))


#修改格式後中英文分詞結果

   # 世界經濟論壇,也,叫,達沃斯論壇,。
   # The, ,World Economic Forum, ,is, ,also, ,called, ,the, ,Davos >Forum,.
2.關鍵詞提取

　　基於 TF-IDF 演算法的關鍵詞抽取
　　　　jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’))
　　　　引數解釋：
　　　　　　(1)sentence ：待提取的文字；
　　　　　　(2)topK ：返回K個權重最大的關鍵詞
　　　　　　(3)withWeight ：是否返回權重
　　　　　　(4)allowPOS ：是否僅包括指定詞性的詞
 # encoding=utf-8

#關鍵詞提取

import jieba.analyse

kWords = jieba.analyse.extract_tags("此外，公司擬對全資子公司吉林歐亞置業>有限公司增資4.3億元，增資後，吉林歐亞置業註冊資本由7000萬元增加到5億元。>吉林歐亞置業主要經營範圍為房地產開發及百貨零售等業務。目前在建吉林歐亞城>市商業綜合體專案。2013年，實現營業收入0萬元，實現淨利潤-139.13萬元。", >topK=5,withWeight=True)
for word,weight in kWords:
   # print(word+":"+weight)
   print word,":",weight


#結果


# 歐亞 : 0.730014270029


# 吉林 : 0.659038184374


# 置業 : 0.488713452211


# 萬元 : 0.339272248186


# 增資 : 0.335824019852
　　　　注：關鍵詞提取所使用逆文頻（IDF）庫、停用詞庫可切換成自定路徑
　　基於 TextRank 演算法的關鍵詞抽取
　　　　jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’))
　　　　引數解釋：
　　　　　　(1)sentence ：待提取的文字；
　　　　　　(2)topK ：返回K個權重最大的關鍵詞
　　　　　　(3)withWeight ：是否返回權重
　　　　　　(4)allowPOS ：是否僅包括指定詞性的詞
　　　　TextRank基本思想：
　　　　　　(1)分詞
　　　　　　(2)找詞之間共現關係，構建圖
　　　　　　(3)計算圖中節點的PageRank

3.詞性標註
import jieba.posseg as pseg
words = pseg.cut("我愛北京天安門")
for word, flag in words:
print('%s %s' % (word, flag))

#詞性


#我 r


#愛 v


#北京 ns


#天安門 ns
4.並行分詞

　　原理：
　　　　文字按行分隔後，分配到多個 Python 程序並行分詞，最後歸併結果。
　　用法：
　　　　jieba.enable_parallel(4) # 開啟並行分詞模式，引數為並行程序數
　　　　jieba.disable_parallel() # 關閉並行分詞模式
　　效果：
　　　　在 4 核 3.4GHz Linux 機器上，對金庸全集進行精確分詞，獲得了 1MB/s 的速度，是單程序版的 3.3 倍。
　　注意：
　　　　並行分詞僅支援預設分詞器 jieba.dt 和 jieba.posseg.dt。目前暫不支援 Windows

5.返回詞語在原文的起止位置
import jieba
result = jieba.tokenize(u'永和服裝飾品有限公司')
for tk in result:
   print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

#結果


#word 永和       start: 0        end:2


#word 服裝       start: 2        end:4


#word 飾品       start: 4        end:6


#word 有限公司     start: 6        end:10


#word 不是       start: 10       end:12

jieba 結巴分詞常用說明

安裝全自動：easy_install jieba 或者 pip install jieba 或者pip3 install jieba 手　動：jieba 目錄放置於當前目錄或

jieba結巴分詞

返回 int 使用 error import arch 豆瓣但是定義 pip install jieba安裝jieba模塊如果網速比較慢，可以使用豆瓣的Python源：pip install -i https://pypi.douban.com/simple/ jieb

python呼叫jieba(結巴)分詞加入自定義詞典和去停用詞功能

#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #匯入jieba模組 import re jieba.load_userdict("newdict.t

python 結巴分詞(jieba)詳解

【轉自：https://www.cnblogs.com/jackchen-Net/p/8207009.html】 “結巴”中文分詞：做最好的 Python 中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation:

使用結巴分詞（jieba）對自然語言進行特徵預處理（Python、Java 實現）

一、前言之前使用基於 Python 語言的 Spark 進行機器學習，程式設計起來是十分簡單。 ① 但是演算法部署到雲伺服器上，是一個障礙。 ② 得藉助 Flask/Django 等 Python W

python jieba分詞(結巴分詞)、提取詞，載入詞，修改詞頻，定義詞庫

轉載請註明出處歡迎加入Python快速進階QQ群：867300100 “結巴”中文分詞：做最好的 Python 中文分片語件,分詞模組jieba，它是python比較好用的分詞模組, 支援中文簡體，繁體分詞，還支援自定義詞庫。 jieba的分詞，提取關鍵詞，

python 結巴分詞(jieba)學習

原始碼下載的地址：https://github.com/fxsjy/jieba 演示地址：http://jiebademo.ap01.aws.af.cm/ 特點 1，支援三種分詞模式： a,精確模式，試圖將句子最精確地切開，適合文字分析； b,全

python中文分詞工具：結巴分詞jieba

結巴分詞jieba特點支援三種分詞模式：精確模式，試圖將句子最精確地切開，適合文字分析；全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提

Python 結巴分詞關鍵詞抽取分析

等於範圍分類問題 urn post bre 依然信息檢索有意關鍵詞抽取就是從文本裏面把跟這篇文檔意義最相關的一些詞抽取出來。這個可以追溯到文獻檢索初期，當時還不支持全文搜索的時候，關鍵詞就可以作為搜索這篇論文的詞語。因此，目前依然可以在論文中看到關鍵詞這一項。

Python中結巴分詞使用手記

img 3年方法封裝 python token sys.path 裝飾 arp mage 結巴分詞方法封裝類 from __future__ import unicode_literals import sys sys.path.append("../")

python中文分詞，使用結巴分詞對python進行分詞

php 分詞在采集美女站時,需要對關鍵詞進行分詞,最終采用的是python的結巴分詞方法.中文分詞是中文文本處理的一個基礎性工作，結巴分詞利用進行中文分詞。其基本實現原理有三點：基於Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)采用了動態規劃查找最大概率

python安裝Jieba中文分詞組件並測試

圖片 class pypi setup.py bubuko for 中文 users mage python安裝Jieba中文分詞組件 1、下載http://pypi.python.org/pypi/jieba/ 2、解壓到解壓到python目錄下： 3、

記一次結巴分詞.net core 2.0版 nuget發布過程

core param inf 文件 pos 成功搜索 ros uri 最近用到分詞考慮很久，選用了結巴分詞，原因見博客Lucene.net(4.8.0) 學習問題記錄五: JIEba分詞和Lucene的結合，以及對分詞器的思考既然選好了，難就開始行動吧。查了.net

jieba/pyhanlp分詞簡單操作

jieba/pyhanlp分詞簡單操作 content = "現如今，機器學習和深度學習帶動人工智慧飛速的發展，並在圖片處理、語音識別領域取得巨大成功。" content = jieba.cut(content, cut_all=False) print('/'.joi

關於匯入結巴分詞的程式打包成exe無法正常執行的問題

問題描述現在有一個程式，裡面引用了結巴分詞的包，主要是用來計算詞頻的，在原始碼環境下執行沒有任何異常，但是打包成exe的檔案時，打包成功了，卻無法正常的執行，提示找不到idf.txt檔案的位置參考連結如果報dict.txt的錯誤，也可以看看

結巴分詞簡要理解

Python中分分詞工具很多，包括盤古分詞、Yaha分詞、Jieba分詞、清華THULAC等。它們的基本用法都大同小異，這裡先了解一下結巴分詞。一、安裝 pip install jieba 若使用PyCharm，從左上角的File–>Setting–>

學習筆記--中文分詞之結巴分詞(二)

結巴中文分詞簡介 1）支援三種分詞模式：精確模式：將句子最精確的分開，適合文字分析全模式：句子中所有可以成詞的詞語都掃描出來，速度快，不能解決歧義搜尋引擎模式：在精確的基礎上，對長詞再次切分，提高召回 2）支援繁體分詞 3）支援自定義詞典

中文分詞的演算法與實現（結巴分詞）

宣告：程式碼的執行環境為Python3。Python3與Python2在一些細節上會有所不同，希望廣大讀者注意。本部落格以程式碼為主，程式碼中會有詳細的註釋。相關文章將會發布在我的個人部落格專欄《Python自然語言處理》，歡迎大家關注。

結巴分詞+詞性標註（電子病歷資料）

結巴分詞+詞性標註方法一：只使用python中的jieba分詞以及詞性標註工具示例文字：加入自定義詞典程式碼 import jieba import jieba.posseg as pseg import re filename='seglist

使用python中的結巴分詞作詞雲圖，對微信功能點進行輔助分析

工作室任務：基於知乎評論，分析微信功能點，做一次分享會。一、原料和準備 1.從網上爬蟲的文件，儲存為txt文件，本例來源https://www.zhihu.com/question/23178234？from=groupmessage&isappinstalled

jieba 結巴分詞 常用說明

安裝

演算法

功能

1.分詞

2.新增自定義使用者詞典

2.關鍵詞提取

3.詞性標註

4.並行分詞

5.返回詞語在原文的起止位置

相關推薦

jieba 結巴分詞常用說明