Python jieba[結巴分詞]

阿新 • • 發佈：2020-07-23

1、簡要說明

結巴分詞支援三種分詞模式，支援繁體字，支援自定義詞典

2、三種分詞模式

全模式：把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義

精簡模式：把句子最精確的分開，不會新增多餘單詞，看起來就像是把句子分割一下

搜尋引擎模式：在精簡模式下，對長詞再度切分

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
    str1 = '我去北京天安門廣場跳舞'
    a = jieba.lcut(str1, cut_all=True)  # 全模式
    print('全模式:{}' 
.format(a))
    b = jieba.lcut(str1, cut_all=False)  # 精簡模式
    print('精簡模式:{}'.format(b))
    c = jieba.lcut_for_search(str1)  # 搜尋引擎模式
    print('搜尋引擎模式:{}'.format(c))

執行

3、某個詞語不能被分開

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
    str1 = '桃花俠大戰菊花怪'
    b = jieba.lcut(str1, cut_all=False)  # 
 精簡模式
    print('精簡模式:{}'.format(b))
    # 如果不把桃花俠分開
    jieba.add_word('桃花俠')
    d = jieba.lcut(str1)  # 預設是精簡模式
    print(d)

執行

4、某個單詞必須被分開

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
    # HMM引數，預設為True
    '''HMM 模型，即隱馬爾可夫模型（Hidden Markov Model, HMM），是一種基於概率的統計分析模型，
    用來描述一個系統隱性狀態的轉移和隱性狀態的表現概率。
    在 jieba 中，對於未登入到詞庫的詞，使用了基於漢字成詞能力的 HMM 模型和 Viterbi 演算法，
    其大致原理是：
    採用四個隱含狀態，分別表示為單字成詞，片語的開頭，片語的中間，片語的結尾。
    通過標註好的分詞訓練集，可以得到 HMM 的各個引數，然後使用 Viterbi 演算法來解釋測試集，得到分詞結果。
     
'''
    str1 = '桃花俠大戰菊花怪'
    b = jieba.lcut(str1, cut_all=False, HMM=False)  # 精簡模式，且不使用HMM模型
    print('精簡模式:{}'.format(b))
    # 分開大戰為大和戰
    jieba.suggest_freq(('大', '戰'), True)
    e = jieba.lcut(str1, HMM=False)  # 不使用HMM模型
    print('分開:{}'.format(e))

執行

參考連結

https://www.jianshu.com/p/883c2171cdb5

https://blog.csdn.net/FontThrone/article/details/72782499

Python jieba[結巴分詞]

1、簡要說明結巴分詞支援三種分詞模式，支援繁體字，支援自定義詞典 2、三種分詞模式

Python jieba結巴分詞原理及用法解析

1、簡要說明結巴分詞支援三種分詞模式，支援繁體字，支援自定義詞典 2、三種分詞模式

Python jieba庫分詞模式例項用法

在中文分詞中，jiebe庫是最為常見的，主要的原因還是它獨特的支援分詞模式如：精確模式、全模式、搜尋引擎模式。也對應著三種方式，包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。下面就為大

python利用結巴分詞做新聞地圖

應用語言學的期末Pre花了差不多一個月零零碎碎的時間完成了。最初的打算爬取網易、新浪、騰訊的國內新聞，再通過提取關鍵詞，比較這三個網站社會新聞報道的內容的傾向性。使用結巴分詞進行切分，再統計地名詞頻，進而

結巴分詞jieba新增自定義詞典

技術標籤：pythonpython 結巴分詞新增自定義詞典，有時候很有必要。比如下面這段話：

模糊匹配-方法1 Python 結巴分詞

目前有很多touchpoint去獲取使用者資訊。但是由於很多應用，app等，或者使用者的註冊覆蓋率尚未普及如wechat or alipay。所以對於一些非驗證使用者，需要去做一些模糊匹配。

NLP之tfidf與textrank演算法細節對比基於結巴分詞

-NLP之tfidf與textrank演算法細節對比注：結巴預設在site-packages目錄關於結巴分詞的新增停用詞以及增加詞相關操作可參考之前的部落格，這裡重點說下結巴關鍵詞提取的兩個演算法

python同義詞替換的實現（jieba分詞）

TihuanWords.txt文件格式注意：同一行的詞用單個空格隔開，每行第一個詞為同行詞的替換詞。

python中文分詞庫jieba使用方法詳解

安裝python中文分詞庫jieba 法1：Anaconda Prompt下輸入conda install jieba 法2：Terminal下輸入pip3 install jieba

Python中文分詞庫jieba,pkusegwg效能準確度比較

中文分詞(Chinese Word Segmentation)，將中文語句切割成單獨的片語。英文使用空格來分開每個單詞的，而中文單獨一個漢字跟詞有時候完全不是同個含義，因此，中文分詞相比英文分詞難度高很多。

新聞網頁Python爬蟲（jieba分詞+關鍵詞搜尋排序）

前言最近做了一個python3作業題目，涉及到：網頁爬蟲網頁中文文字提取建立文字索引

python 輿情分析 nlp主題分析（2）-結合snownlp與jieba庫，提高分詞與情感判斷待續

python 輿情分析 nlp主題分析（1）待續:https://www.cnblogs.com/cycxtz/p/13663895.html 前文摘要：

python運用jieba庫統計《西遊記》中相關分詞出現次數最高的20個

importjieba txt = open(\"西遊記.txt\", \"r\", encoding=\'utf-8\').read() words = jieba.lcut(txt)# 使用精確模式對文字進行分詞

python 用jieba分詞統計關於紅樓夢的高頻詞

import jieba excludes = {\"什麼\",\"一個\",\"我們\",\"那裡\",\"你們\",\"如今\",\"說道\",\"知道\",\"起來\",\"姑娘\",\"這裡\",\"出來\",\"他們\",\"眾人\",\"自己\",

基於python中jieba包的中文分詞中詳細使用之一

基於python中jieba包的中文分詞中詳細使用（一） 01.前言之前的文章中也是用過一些jieba分詞但是基本上都是處於皮毛，現在就現有的python環境中對其官方文件做一些自己的理解以及具體的介紹。本文主要內容也是從官網

Python-jieba分詞

先安裝jieba庫地址如下：安裝jieba庫 jieba的分詞模式可以將結果十分精準分開，不存在多餘的詞

python實現的讀取網頁並分詞功能示例

本文例項講述了python實現的讀取網頁並分詞功能。分享給大家供大家參考，具體如下：

Django實現whoosh搜尋引擎使用jieba分詞

本文介紹了Django實現whoosh搜尋引擎使用jieba分詞，分享給大家，具體如下： Django版本：3.0.4

Jieba分詞詞性標註以及詞性說明

分詞例項 import jieba import jieba.analyse import jieba.posseg def dosegment_al(sentence): """

python 行政區域地址標準化：業務經理填報的地址亂起八糟，高德介面有點厲害! -- 後續，使用分詞思路完成解析

對前文https://www.cnblogs.com/cycxtz/p/13378922.html思路1進行補充。可以考慮jieba分詞庫，不過需要先進行訓練。

Python jieba[結巴分詞]

相關推薦