1. 程式人生 > 實用技巧 >Python jieba[結巴分詞]

Python jieba[結巴分詞]

1、簡要說明

結巴分詞支援三種分詞模式,支援繁體字,支援自定義詞典

2、三種分詞模式

全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義

精簡模式:把句子最精確的分開,不會新增多餘單詞,看起來就像是把句子分割一下

搜尋引擎模式:在精簡模式下,對長詞再度切分

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
    str1 = '我去北京天安門廣場跳舞'
    a = jieba.lcut(str1, cut_all=True)  # 全模式
    print('全模式:{}'
.format(a)) b = jieba.lcut(str1, cut_all=False) # 精簡模式 print('精簡模式:{}'.format(b)) c = jieba.lcut_for_search(str1) # 搜尋引擎模式 print('搜尋引擎模式:{}'.format(c))

執行

3、某個詞語不能被分開

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
    str1 = '桃花俠大戰菊花怪'
    b = jieba.lcut(str1, cut_all=False)  #
精簡模式 print('精簡模式:{}'.format(b)) # 如果不把桃花俠分開 jieba.add_word('桃花俠') d = jieba.lcut(str1) # 預設是精簡模式 print(d)

執行

4、 某個單詞必須被分開

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
    # HMM引數,預設為True
    '''HMM 模型,即隱馬爾可夫模型(Hidden Markov Model, HMM),是一種基於概率的統計分析模型,
    用來描述一個系統隱性狀態的轉移和隱性狀態的表現概率。
    在 jieba 中,對於未登入到詞庫的詞,使用了基於漢字成詞能力的 HMM 模型和 Viterbi 演算法,
    其大致原理是:
    採用四個隱含狀態,分別表示為單字成詞,片語的開頭,片語的中間,片語的結尾。
    通過標註好的分詞訓練集,可以得到 HMM 的各個引數,然後使用 Viterbi 演算法來解釋測試集,得到分詞結果。
    
''' str1 = '桃花俠大戰菊花怪' b = jieba.lcut(str1, cut_all=False, HMM=False) # 精簡模式,且不使用HMM模型 print('精簡模式:{}'.format(b)) # 分開大戰為大和戰 jieba.suggest_freq(('', ''), True) e = jieba.lcut(str1, HMM=False) # 不使用HMM模型 print('分開:{}'.format(e))

執行

參考連結

https://www.jianshu.com/p/883c2171cdb5

https://blog.csdn.net/FontThrone/article/details/72782499