從0開始的jieba分詞原始碼分析_1_從cut開始

阿新 • • 發佈：2018-12-17

從一個函式入口逐步分析分詞的整個過程，最後對關鍵函式做了簡化實現，附在最後供大家參考

分析

尋根

import jieba
jieba.cut("sentence")

查詢cut的引用：

dt = Tokenizer()
cut = dt.cut#位於jieba/__init__.py

找到cut()方法，首先裡面有很多re開頭的變數，這些都是用於文字和字元分割用的re的例項

# \u4E00-\u9FD5a-zA-Z0-9+#&\._ : All non-space characters. Will be handled with re_han
# \r\n|\s : whitespace characters. Will not be handled.
re_han_default = 
 re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%]+)", re.U)
re_skip_default = re.compile("(\r\n|\s)", re.U)
re_han_cut_all = re.compile("([\u4E00-\u9FD5]+)", re.U)
re_skip_cut_all = re.compile("[^a-zA-Z0-9+#\n]", re.U)

    def cut(self, sentence, cut_all=False, HMM=True):
        '''
        The main function that segments an entire sentence that contains
        Chinese characters into seperated words.

        Parameter:
            - sentence: The str(unicode) to be segmented.
            - cut_all: Model type. True for full pattern, False for accurate pattern.
            - HMM: Whether to use the Hidden Markov Model.
        ''' 

        sentence = strdecode(sentence)

        if cut_all:
            re_han = re_han_cut_all
            re_skip = re_skip_cut_all
        else:
            re_han = re_han_default
            re_skip = re_skip_default
        if cut_all:
            cut_block = self.__cut_all
        elif HMM:
            cut_block = 
 self.__cut_DAG
        else:
            cut_block = self.__cut_DAG_NO_HMM
        blocks = re_han.split(sentence)#將文字和非文字分開成塊
        '''
        提供一個切分示例：
        stri = "我去北京玩遊戲,去了北京找人"
		re_han_default.split(stri)
		output:
		['', '我去北京玩遊戲', ',', '去了北京找人', '']
        '''
        for blk in blocks:
            if not blk:#如果為空
                continue
            if re_han.match(blk):#如果不是符號
                for word in cut_block(blk):
                    yield word
            else:#對字元的處理
                tmp = re_skip.split(blk)
                for x in tmp:
                    if re_skip.match(x):
                        yield x
                    elif not cut_all:
                        for xx in x:
                            yield xx
                    else:
                        yield x

我們知道cut方法返回的是一個迭代器，也就是裡面每一個yield返回的值了

可以看到對文字的處理關鍵在：

 if re_han.match(blk):#如果不是符號
     for word in cut_block(blk):
         yield word

找到cut_block，一共有三種實現，依次看一下

if cut_all:
    cut_block = self.__cut_all
elif HMM:
    cut_block = self.__cut_DAG
else:
    cut_block = self.__cut_DAG_NO_HMM

__cut_all

首先是__cut_all，裡面涉及到方法get_DAG()，這個方法其實就是得到文字的有向無環圖，這個方法我將其稍加修改，將其中涉及到類的引數作為方法變數傳入：

def get_DAG(sentence,FREQ):
	#FREQ是{詞:詞頻}的字典，類似於{'北京大學': 2053, '北': 0, '北京': 0, '北京大': 0, '大學': 20025, '大': 0}
    # 檢查系統是否已經初始化
    # DAG儲存向無環圖的資料，資料結構是dict
    DAG = {}
    N = len(sentence)
    # 依次遍歷文字中的每個位置
    for k in range(N):
        tmplist = []
        i = k
        # 位置 k 形成的片段
        frag = sentence[k]
        # 判斷片段是否在字首詞典中
        # 如果片段不在字首詞典中，則跳出本迴圈
        # 也即該片段已經超出統計詞典中該詞的長度
        while i < N and frag in FREQ:
            # 如果該片段的詞頻大於0
            # 將該片段加入到有向無環圖中
            # 否則，繼續迴圈
            if FREQ[frag]:
                tmplist.append(i)
            # 片段末尾位置加1
            i += 1
            # 新的片段較舊的片段右邊新增一個字
            frag = sentence[k:i + 1]
        if not tmplist:
            tmplist.append(k)
        DAG[k] = tmplist
    return DAG#最後返回的DAG的形式類似於
    #{0: [0], 1: [1], 2: [2, 3, 5], 3: [3], 4: [4, 5], 5: [5], 6: [6]}

下面迴歸__cut_all()，get_DAG()方法就在__cut_all()方法的第一句（這個方法我也稍微修改了一下，將類變數提取了出來）：

def __cut_all(sentence,FREQ):
    dag = get_DAG(sentence,FREQ)
    print(dag)
    print(iter(dag))
    old_j = -1#舊的位置
    for k, L in iteritems(dag):#iteritems是jieba根據python版本不同寫出來的迭代方法，就是迭代dag的key和value
        if len(L) == 1 and k > old_j:#如果節點只有一條邊，說明是單字，返回這個字
            yield sentence[k:L[0] + 1]
            old_j = L[0]
        else:
            for j in L:  # 對每個邊對應的位置
                # 想象一下，先輸出北京，再輸出北京大學
                if j > k:  # 如果位置比k大，個人感覺因為是有向無環圖圖，這個if應該恆為真吧
                    yield sentence[k:j + 1]  # 返回
                    old_j = j

以上就是cut中__cut_all的全部分析，對__cut_DAG的實現，由於涉及的函式過多，因此放到下一篇進行分析

簡化實現

將__cut_all的所有涉及的方法抽取為普通方法放到這裡，提供了一個示例，可以直接執行，供除錯和學習

#cut_all_ana.py
from cut_all_ana import get_DAG,gen_pfdict
import re
re_han = re.compile("([\u4E00-\u9FD5]+)")
re_skip = re.compile("([a-zA-Z0-9]+(?:\.\d+)?%?)")



from math import log
def calc(sentence, DAG, route,FREQ,total):
    N = len(sentence)
    route[N] = (0, 0)
    logtotal = log(total)
    for idx in range(N - 1, -1, -1):
        ini = [(log(FREQ.get(sentence[idx:x + 1]) or 1)#FREQ.get(sentence[idx:x + 1]) or 1 ，如果FREQ有這個單詞就用這個單詞，如果沒有就用1
                    - logtotal
                + route[x + 1][0], x
            ) for x in DAG[idx]]
        print(ini)
        route[idx] = max(ini)#元組的大小比較是按字典序比較，先比較第一個的大小，如果第一個大小相等再比較第二個的大小
def __cut_DAG(sentence,FREQ):
    DAG = get_DAG(sentence)
    route = {}
    calc(sentence, DAG, route)
    x = 0
    buf = ''
    N = len(sentence)
    while x < N:
        y = route[x][1] + 1
        l_word = sentence[x:y]
        if y - x == 1:
            buf += l_word
        else:
            if buf:
                if len(buf) == 1:
                    yield buf
                    buf = ''
                else:
                    if not FREQ.get(buf):
                        recognized = fcut(buf)
                        for t in recognized:
                            yield t
                    else:
                        for elem in buf:
                            yield elem
                    buf = ''
            yield l_word
        x = y

    if buf:
        if len(buf) == 1:
            yield buf
        elif not FREQ.get(buf):
            recognized = fcut.cut(buf)
            for t in recognized:
                yield t
        else:
            for elem in buf:
                yield elem


if __name__ == "__main__":
    k = [
        ["北京大學", 2053],
        ["大學", 20025],
        ["去", 123402],
        ["玩", 4207],
        ["北京", 34488],
        ["北", 17860],
        ["京", 6583],
        ["大", 144099],
        ["學", 17482],

    ]
    ex = "我去北京大學玩"
    freq, total = gen_pfdict(k)
    dag = get_DAG(ex,freq)
    route = {}
    
    calc(ex, dag, route, freq, total)

從0開始的jieba分詞原始碼分析_1_從cut開始

從一個函式入口逐步分析分詞的整個過程，最後對關鍵函式做了簡化實現，附在最後供大家參考分析尋根 import jieba jieba.cut("sentence") 查詢cut的引用： dt =

隱馬爾可夫模型（HMM）和 jieba分詞原始碼的理解

在理解隱馬爾可夫模型（HMM）時，看到的很好的部落格，記錄一下： 1. 隱馬爾可夫模型(HMM) - 1 - 基本概念：http://blog.csdn.net/xueyingxue001/article/details/51435728 2.隱馬爾可夫模型(HMM) - 2 -

【結巴分詞資料彙編】結巴中文分詞原始碼分析(2)

如下演算法實現分詞： 1. 基於字首詞典實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖 (DAG); 作者這個版本中使用字首字典實現了詞庫的儲存(即dict.txt檔案中的內容)，而棄用之前版本的trie樹儲存詞庫，想想也是，python中實現的trie樹是基於dict型

jieba分詞原始碼解讀二

上一篇文章說到結巴分詞用了包裝器實現了在 get_DAG 函式執行器生成了 trie 樹。在這篇文章中我們要研究一下jieba分詞中的 DAG（有向無環圖，全稱：directed acyclic g

jieba分詞原始碼閱讀

jieba是一個開源的中文分詞庫，這幾天看了下原始碼，就做下記錄。下載jieba後，tree得到主要部分的目錄樹結構如下： ├── jieba │ ├── analyse │ │ ├── analyzer.py │ │ ├──

jieba 分詞原始碼研讀(3)

前面兩篇文章說到了根據語料庫和頻度打分機制生成一個初步的分詞結果。但是我們的分詞結果僅僅用到了語料庫已有的詞語和頻度，所以對於語料庫中沒有出現的詞語判斷能力等於0，比如下面這句： '喬治馬丁寫冰與火之歌拖了好久' 其分詞結果如下： {0: (-99.105709942175

Lucene.net(4.8.0) 學習問題記錄五: JIEba分詞和Lucene的結合，以及對分詞器的思考

+= d+ ext eth reac chart rdl ret start 前言：目前自己在做使用Lucene.net和PanGu分詞實現全文檢索的工作，不過自己是把別人做好的項目進行遷移。因為項目整體要遷移到ASP.NET Core 2.0版本,而Lucene使用的版本

Python：電商產品評論數據情感分析，jieba分詞，LDA模型

數據分析 blank sdn github author roc dem pfile 軟件本節涉及自然語言處理（NLP），具體涉及文本數據采集、預處理、分詞、去停用詞、詞頻分析、LDA主題模型代碼部分 1 # -*- coding: utf-8 -*- 2 """

資料探勘01---文字分析（jieba分詞和詞雲繪製）

一、定義：文字挖掘：從大量文字資料中抽取出有價值的知識，並且利用這些知識重新組織資訊的過程。二、語料庫（Corpus）語料庫是我們要分析的所有文件的集合。 import os import os.path filePaths = [] #定義一個數組變數 #再用

【spring】原始碼分析一從ContextLoaderListener開始·

原始碼環境： idea + spring 4.3.4 +tomcat7 + gradle附：基於 java 註解的配置元資料的 web.xml 配置做參考（spring 3.0 後支援）<?xml version="1.0" encoding="UTF-8"

文字處理（二）詞頻統計,jieba分詞，詞性標註，snownlp情感分析

這一篇接著上一篇處理後的資料進行操作，按照（一）中的步驟，這事應該將文字資料每一行中的高頻的正面詞去掉，因為多數是描述身體健康的短句，只有少數是描述脾臟檢查異常的，所以嘗試刪除掉描述身體健康的短句，只留下少數檢查異常的資料，對異常的檢查資料進行特徵提取，這是思路。所以這一篇目

原始碼分析系列 | 從零開始寫MVC框架

1. 前言前段時間在網上無意中上參與了一節騰訊課堂的公開課，裡面講到了一些分析思路，感覺挺有意思，也學習到了別人的一些講課技巧，正好自己也打算對過往知識網路做個整理回顧，計劃後面開展一系列原始碼分析教程，本章先從一個入門簡單的手寫MVC框架入門

文字分析--關鍵詞獲取（jieba分詞器，TF-IDF模型）

關鍵詞獲取可以通過兩種方式來獲取： 1、在使用jieba分詞對文字進行處理之後，可以通過統計詞頻來獲取關鍵詞：jieba.analyse.extract_tags(news, to

spark 1.6.0 core原始碼分析9 從簡單例子看action

這一節以reduce為例講解action操作首先看submitJob方法，它將我們reduce中寫的處理函式隨JobSubmitted訊息傳遞出去，因為每個分割槽都需要呼叫它進行計算；而resultHandler是指最後合併的方法，在每個task完成後，需要呼叫resul

Thinkphp5原始碼分析1--從index.php開始

Thinkphp5框架預設入口為public目錄下的index.php。首先從index.php進行程式碼分析。index.php（public目錄下的index.php）程式碼如下: <?php// +---------------------------------

jieba分詞工具的使用

多個 ictclas 基礎上創新需要 ica 入參標註 erb 煩煩煩( ˇ?ˇ ) http://www.oschina.net/p/jieba/ 搬運工。。。。。 jieba "結巴"中文分詞：做最好的Python中文分詞組件 "Jieba"。 Feature

python結巴(jieba)分詞

pytho 最大的 parallel img 權重模型 python 應用 port python結巴(jieba)分詞一、特點 1、支持三種分詞模式：　　(1)精確模式：試圖將句子最精確的切開，適合文本分析。　　(2)全模式：把句子中所有可以成詞的詞語都掃描出來

python爬蟲——京東評論、jieba分詞、wordcloud詞雲統計

nbsp cnblogs code utf-8 col type callback 結果處理接上一章，抓取京東評論區內容。 url=‘https://club.jd.com/comment/productPageComments.action?callback=fetc

nlp-jieba分詞

www art jieba分詞 tails href htm logs log 使用方法 http://www.cnblogs.com/zhbzz2007/p/6084196.html http://blog.csdn.net/u010454729/article/de

jieba分詞/jieba-analysis（java版）

日本 word amp b- exception 鏈接 arp not unit 簡介支持分詞模式Search模式，用於對用戶查詢詞分詞Index模式，用於對索引文檔分詞特性支持多種分詞模式全角統一轉成半角用戶詞典功能conf 目錄有整理的搜狗細胞詞庫因為性能原因，最新的

從0開始的jieba分詞原始碼分析_1_從cut開始

分析

尋根

__cut_all

簡化實現

相關推薦