【NLP】【一】中文分詞之jieba

阿新 • • 發佈：2018-11-25

宣告：本文參考jieba官方文件而成，官方連結：https://github.com/fxsjy/jieba

【一】jieba安裝

pip install jieba

【二】jieba簡介

簡介可見jieba官方說明：https://pypi.org/project/jieba/

總而言之，jieba用於中文分詞，支援的文字編碼格式為utf-8，支援的功能包括：中文分詞、關鍵字提取、詞性標註

整體功能如下圖：

【三】結巴使用之分詞

1. 使用精確模式

# -*- coding:utf-8 -*-
import jieba

sentence = "我愛北京天安門"

seg = jieba.cut(sentence=sentence)
print("/".join(seg))

結果如下：

我/愛/北京/天安門

2. 使用全模式

import jieba

sentence = "我愛北京天安門"

seg = jieba.cut(sentence=sentence,cut_all=True)
print("/".join(seg))

結果如下：

我/愛/北京/天安/天安門

3.使用搜索模式

# -*- coding:utf-8 -*-
import jieba

sentence = "我愛北京天安門"

seg = jieba.cut_for_search(sentence=sentence)
print("/".join(seg))

結果如下：

我/愛/北京/天安/天安門

關於三種模式的區別，可見官方描述：

4. 分詞介面詳解

4.1 cut介面，該介面接受三個引數，重點關注一下第一個引數：要求句子編譯格式為unicode編碼。所以，如果是GBK編碼，需要先轉換為utf-8介面的編碼格式。

cut(self, sentence, cut_all=False, HMM=True)
   - sentence: The str(unicode) to be segmented.
   - cut_all: Model type. True for full pattern, False for accurate pattern.
   - HMM: Whether to use the Hidden Markov Model.

當我們不知道文件的編碼格式時，可以採用如下程式碼：

import chardet
with open("xxx.txt",'rb') as f:
    data = f.read()
    print(chardet.detect(data))

輸出結果為：

{'confidence': 0.99, 'language': 'Chinese', 'encoding': 'GB2312'}

4.2 cut_for_search介面

cut_for_search(self, sentence, HMM=True)

4.3 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

print(jieba.lcut(sentence))
print(jieba.lcut_for_search(sentence))

結果如下：

['我', '愛', '北京', '天安門']
['我', '愛', '北京', '天安', '天安門']

【四】自定義詞典

1. 先看看jieba自帶的詞典長啥樣

jieba/dict.txt

T恤 4 n
A座 3 n
A股 3 n
A型 3 n
A輪 3 n

可以看出，jieba的詞典組成格式為：一行一個詞語，詞語詞頻詞性

據jieba官方介紹：

詞語、詞頻（可省略）、詞性（可省略），用空格隔開，順序不可顛倒

2. 自定一一個字典

我 4 n
北京 3 n
天安門

3. 使用自定義詞典

jieba.load_userdict(r"D:\jieba-0.39\my_dict.txt")
print(jieba.lcut(sentence))
print(jieba.lcut_for_search(sentence))

結果如下：

['我', '愛', '北京', '天安門']
['我', '愛', '北京', '天安', '天安門']

【五】調整詞典

jieba支援動態調整已經載入的詞典

有兩種方法

1. 將新詞加入詞典

2. 調整詞典中的某個詞的詞頻

使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程式中動態修改詞典。

使用 suggest_freq(segment, tune=True) 可調節單個詞語的詞頻，使其能（或不能）被分出來。

【六】關鍵詞提取

jieba分詞支援兩種關鍵詞提取演算法：TF-IDF、TextRank。這兩種演算法會在後面的文章結合jieba原始碼進行分析。這裡先看看如何使用。

1. 基於TF-IDF進行關鍵詞提取

print(','.join(jieba.analyse.extract_tags(sentence,topK=2)))

結果如下：

天安門,北京

1.1 介面詳解 extract_tags

extract_tags(self, sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False)

sentence 為待提取的文字
topK 為返回幾個 TF/IDF 權重最大的關鍵詞，預設值為 20
withWeight 為是否一併返回關鍵詞權重值，預設值為 False
allowPOS 僅包括指定詞性的詞，預設值為空，即不篩選

該介面用於基於TF-IDF提取關鍵詞，可用於篩選指定詞性的關鍵詞，返回值可以帶關鍵詞的權重，也可以不帶。

2. 依據TextRank演算法進行關鍵詞提取

print(','.join(jieba.analyse.textrank(sentence,topK=2)))

結果如下：

天安門,北京

2.1 介面詳解 textrank

textrank(self, sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'), withFlag=False):

- topK: return how many top keywords. `None` for all possible words.
- withWeight: if True, return a list of (word, weight);
			  if False, return a list of words.
- allowPOS: the allowed POS list eg. ['ns', 'n', 'vn', 'v'].
			if the POS of w is not in this list, it will be filtered.
- withFlag: if True, return a list of pair(word, weight) like posseg.cut
			if False, return a list of words

【七】詞性標註

words =jieba.posseg.cut(sentence)
for word, flag in words:
    print('%s %s' % (word, flag))

結果如下：

我 r
愛 v
北京 n
天安門 ns

總結：jieba提供的中文分詞、詞性標註、關鍵字提取等功能，使用簡單，安裝方便。其實現不僅有python版本，還有c++ java等版本，詳情可以jieba官方連結：https://github.com/fxsjy/jieba

【NLP】【一】中文分詞之jieba

宣告：本文參考jieba官方文件而成，官方連結：https://github.com/fxsjy/jieba 【一】jieba安裝 pip install jieba 【二】jieba簡介簡介可見jieba官方說明：https://pypi.org/project/jieba/

【轉】中文分詞之HMM模型詳解

實現含義 jieba 順序清晰 bsp 中國 matrix 統計關於HMM模型的介紹，網上的資料已經爛大街，但是大部分都是在背書背公式，本文在此針對HMM模型在中文分詞中的應用，講講實現原理。盡可能的撇開公式，撇開推導。結合實際開源代碼作為例子，爭取做到雅俗共賞，

Hadoop學習之自己動手做搜尋引擎【網路爬蟲+倒排索引+中文分詞】

一、使用技術 Http協議正則表示式佇列模式 Lucenne中文分詞 MapReduce 二、網路爬蟲專案目的通過制定url爬取介面原始碼，通過正則表示式匹配出其中所需的資源（這裡是爬取csdn部落格url及部落格名），將爬到的資源存

【Natural Language Processing】基於CRF++的中文分詞

一、任務簡介中文分詞是中文資訊處理領域中的最重要的任務，它對於智慧資訊處理技術具有重要的意義,當前的各種漢語分詞技術都可以取得不錯的結果。本任務做的是繁體中文分詞，將訓練語料的30%作為驗證集，70%作為訓練集，按通常的 P/R/F 三個指標進行評測，最

學習筆記--中文分詞之結巴分詞(二)

結巴中文分詞簡介 1）支援三種分詞模式：精確模式：將句子最精確的分開，適合文字分析全模式：句子中所有可以成詞的詞語都掃描出來，速度快，不能解決歧義搜尋引擎模式：在精確的基礎上，對長詞再次切分，提高召回 2）支援繁體分詞 3）支援自定義詞典

“結巴”中文分詞簡介 jieba

jieba“結巴”中文分詞：做最好的 Python 中文分片語件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word seg

自然語言處理--中文分詞之機械分詞

說到自然語言處理，對於中文首當其衝的就是分詞。和西方語言不同，中文句子中不像英語，每個單詞間有空格隔開，而是全部連在一起，詞間沒有明顯的界限。這就為我們的翻譯、檢索等等更高階的資訊處理帶來了不小的麻煩，怎樣將一句話中的關鍵詞提取出來，便成為了中文資訊處理首先要

中文分詞之正向最大匹配演算法

中文分詞目前可以分為“規則分詞”，“統計分詞”，“混合分詞（規則+統計）”這三個主要流派。這次介紹下基於規則的分詞，其是一種機械的分詞方法，主要通過維護詞典，在切分語句時，將語句的每個字串與詞表中的詞逐一進行匹配，找到則切分，否則不予切分。正向最大匹配演算法

中文分詞之HMM模型詳解

關於HMM模型的介紹，網上的資料已經爛大街，但是大部分都是在背書背公式，本文在此針對HMM模型在中文分詞中的應用，講講實現原理。儘可能的撇開公式，撇開推導。結合實際開原始碼作為例子，爭取做到雅俗共賞，童叟無欺。沒有公式，就沒有傷害。模型介紹第一次聽說HMM模型是從李

分詞：淺談中文分詞與jieba原始碼

一、前言1、什麼是中文分詞？中文文字，從形式上看是由漢字、標點符號等組成的一個字串。由字組成詞，再組成句子、文章等。那麼分詞，就是按照一定的規則把字串重新組合成詞序列的過程。2、為什麼要分詞？（1）在中文裡面，詞是最小的能夠獨立活動的有意義的語言成分（2）英文中單詞以空格作為

中文分詞之Java實現使用IK Analyzer實現

需要在專案中引入： IKAnalyzer.cfg.xml IKAnalyzer2012.jar lucene-core-3.6.0.jar stopword.dic 什麼都不用改示例程式碼如下(使用IK Analyzer): package com.ha

【NLP學習筆記】中文分詞

分詞通俗的講就是如何將一個句子劃分成詞語，大多數情況下不同的劃分方式會導致不同的語義。分詞方法分類自動分詞主要分為三個流派：規則分詞、統計分詞和混合分詞（規則+統計） 1、規則分詞通過維護一個詞典，在切分語句時，將語句的每個字串與表中的詞進行逐一匹配，找到

【python 走進NLP】利用jieba技術中文分詞並寫入txt

簡單介紹：近年來，隨著NLP自然語言處理技術的日益成熟，開源實現的分詞工具也越來越多，比如NLTK：其在英文分詞較為成熟，分詞效果較好，在處理中文分詞方面則顯得力不足；在處理中文分詞時，Jieba這一工具普遍為大家所接受，很多企業也都是利用這一工具來處理涉及中

【NLP】11大Java開源中文分詞器的使用方法和分詞效果對比

本文的目標有兩個： 1、學會使用11大Java開源中文分詞器 2、對比分析11大Java開源中文分詞器的分詞效果本文給出了11大Java開源中文分詞的使用方法以及分詞結果對比程式碼，至於效果哪個好，那要用的人結合自己的應用場景自己來判斷。 11大Java開源中文分詞器，不同的分詞器

《數學之美》讀書記錄【思維導圖記錄】：第四章，談談中文分詞

post IT .cn splay top style title mage blog 《數學之美》讀書記錄【思維導圖記錄】：第四章，談談中文分詞

【中文分詞系列】 8 更好的新詞發現演算法

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

【Python】中文分詞並過濾停用詞

中文分詞並過濾停用詞，python程式碼如下。 #coding=utf-8 import jieba input_path='../data/train_pos_100.txt' output_path='../data/train_pos_100_seg.txt' st

【Apache Solr系列】使用IKAnalyzer中文分詞以及自定義分詞字典

之前寫的Apache Solr只介紹了簡單的搭建以及匯入資料等功能，最近由於專案要求，新增索引分詞和搜尋分詞功能；分詞的專案有包括好幾個：smartcn、ictclas4j、IK、jeasy、庖丁、mmseg4j；以上幾種分詞器各有優缺點，根據不同場景可分可定製和不可定

【資料彙編】結巴中文分詞官方文件和原始碼分析系列文章

作者：白寧超 2016年11月23日16:49:36 摘要：結巴中文分詞的特點如下：支援三種分詞模式：（精確模式，試圖將句子最精確地切開，適合文字分析；全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合

【結巴分詞資料彙編】結巴中文分詞原始碼分析(2)

如下演算法實現分詞： 1. 基於字首詞典實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖 (DAG); 作者這個版本中使用字首字典實現了詞庫的儲存(即dict.txt檔案中的內容)，而棄用之前版本的trie樹儲存詞庫，想想也是，python中實現的trie樹是基於dict型

【NLP】【一】中文分詞之jieba

相關推薦