Python jieba結巴分詞原理及用法解析

阿新 • • 發佈：2020-11-06

1、簡要說明

結巴分詞支援三種分詞模式，支援繁體字，支援自定義詞典

2、三種分詞模式

全模式：把句子中所有的可以成詞的詞語都掃描出來,速度非常快，但是不能解決歧義

精簡模式：把句子最精確的分開，不會新增多餘單詞，看起來就像是把句子分割一下

搜尋引擎模式：在精簡模式下，對長詞再度切分

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  str1 = '我去北京天安門廣場跳舞'
  a = jieba.lcut(str1,cut_all=True) # 全模式
  print('全模式:{}'.format(a))
  b = jieba.lcut(str1,cut_all=False) # 精簡模式
  print('精簡模式:{}'.format(b))
  c = jieba.lcut_for_search(str1) # 搜尋引擎模式
  print('搜尋引擎模式:{}'.format(c))

執行

Python jieba結巴分詞原理及用法解析

3、某個詞語不能被分開

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  str1 = '桃花俠大戰菊花怪'
  b = jieba.lcut(str1,cut_all=False) # 精簡模式
  print('精簡模式:{}'.format(b))
  # 如果不把桃花俠分開
  jieba.add_word('桃花俠')
  d = jieba.lcut(str1) # 預設是精簡模式
  print(d)

執行

Python jieba結巴分詞原理及用法解析

4、某個單詞必須被分開

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  # HMM引數，預設為True
  '''HMM 模型，即隱馬爾可夫模型（Hidden Markov Model,HMM），是一種基於概率的統計分析模型，
  用來描述一個系統隱性狀態的轉移和隱性狀態的表現概率。
  在 jieba 中，對於未登入到詞庫的詞，使用了基於漢字成詞能力的 HMM 模型和 Viterbi 演算法，
  其大致原理是：
  採用四個隱含狀態，分別表示為單字成詞，片語的開頭，片語的中間，片語的結尾。
  通過標註好的分詞訓練集，可以得到 HMM 的各個引數，然後使用 Viterbi 演算法來解釋測試集，得到分詞結果。
  '''
  str1 = '桃花俠大戰菊花怪'
  b = jieba.lcut(str1,cut_all=False,HMM=False) # 精簡模式，且不使用HMM模型
  print('精簡模式:{}'.format(b))
  # 分開大戰為大和戰
  jieba.suggest_freq(('大','戰'),True)
  e = jieba.lcut(str1,HMM=False) # 不使用HMM模型
  print('分開:{}'.format(e))

執行

Python jieba結巴分詞原理及用法解析

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python jieba結巴分詞原理及用法解析

1、簡要說明結巴分詞支援三種分詞模式，支援繁體字，支援自定義詞典 2、三種分詞模式

Python jieba[結巴分詞]

1、簡要說明結巴分詞支援三種分詞模式，支援繁體字，支援自定義詞典 2、三種分詞模式

Python jieba庫分詞模式例項用法

在中文分詞中，jiebe庫是最為常見的，主要的原因還是它獨特的支援分詞模式如：精確模式、全模式、搜尋引擎模式。也對應著三種方式，包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。下面就為大

Python壓縮模組zipfile實現原理及用法解析

一、python壓縮模組簡介 python直接通過內建壓縮模組可以直接進行壓縮檔案的建立；

Python partial函式原理及用法解析

這篇文章主要介紹了Python partial函式原理及用法解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python openpyxl模組原理及用法解析

這篇文章主要介紹了Python openpyxl模組原理及用法解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python子程序subpocess原理及用法解析

python的子程序嘛，就是利用python開啟一個子程序（當然像是一句廢話），但是可能和我們理解的不太一樣。

Python生成器generator原理及用法解析

前言生成器generator 生成器的本質是一個迭代器(iterator) 要理解生成器,就要在理解一下迭代,可迭代物件,迭代器,這三個概念

Python lambda表示式原理及用法解析

開篇先明義：lambda是表示式，而def函式是語句程式碼塊所以lambda其實就是一個稍微高階一點的式子而已，只不過這個式子比較長，而且還會自己進行一些邏輯上的處理而已，心裡不要虛

Python Merge函式原理及用法解析

Merge函式的用法簡單來說Merge函式相當於Excel中的vlookup函式。當我們對2個表進行資料合併的時候需要通過指定兩個表中相同的列作為key，然後通過key匹配到其中要合併在一起的values值。

Python classmethod裝飾器原理及用法解析

英文文件： classmethod(function) Return a class method for function. A class method receives the class as implicit first argument,just like an instance method receives the instance. To declare a class