Python利用結巴分詞進行中文分詞

阿新 • • 發佈：2019-02-06

利用結巴分詞進行中文分詞，選擇全模式，建立詞倒排索引，並實現一般多詞查詢和短語查詢

# -*- coding: utf-8 -*-
import jieba
'''
Created on 2015-11-23
'''

def word_split(text):
    """
    Split a text in words. Returns a list of tuple that contains
    (word, location) location is the starting byte position of the word.
    """
    word_list = []
    windex = 0
    word_primitive = jieba.cut(text, cut_all = True)
    for word in word_primitive:
        if len(word) > 0:
            word_list.append((windex, word))
            windex += 1
    return word_list

def inverted_index(text):
    """
    Create an Inverted-Index of the specified text document.
        {word:[locations]}
    """
    inverted = {}
    for index, word in word_split(text):
        locations = inverted.setdefault(word, [])
        locations.append(index)
    return inverted
    

def inverted_index_add(inverted, doc_id, doc_index):
    """
    Add Invertd-Index doc_index of the document doc_id to the 
    Multi-Document Inverted-Index (inverted), 
    using doc_id as document identifier.
        {word:{doc_id:[locations]}}
    """
    for word, locations in doc_index.iteritems():
        indices = inverted.setdefault(word, {})
        indices[doc_id] = locations
    return inverted

def search_a_word(inverted, word):
    """
    search one word
    """   
    word = word.decode('utf-8')
    if word not in inverted:
        return None
    else:
        word_index = inverted[word]
    return word_index
    
def search_words(inverted, wordList):
    """
    search more than one word
    """
    wordDic = []
    docRight = []
    for word in wordList:
        if isinstance(word, str):
            word = word.decode('utf-8')
        if word not in inverted:
            return None
        else:
            element = inverted[word].keys()
            element.sort()
            wordDic.append(element)
    numbers = len(wordDic)
    inerIndex = [0 for i in range(numbers)]
    docIndex = [wordDic[i][0] for i in range(numbers)]
    flag = True
    while flag:
        if min(docIndex) == max(docIndex):
            docRight.append(min(docIndex))
            inerIndex = [inerIndex[i]+1 for i in range(numbers)]
            for i in range(numbers):
                if inerIndex[i] >= len(wordDic[i]):
                    flag = False
                    return docRight
            docIndex = [wordDic[i][inerIndex[i]] for i in range(numbers)]
        else:
            minIndex = min(docIndex)
            minPosition = docIndex.index(minIndex)
            inerIndex[minPosition] += 1
            if inerIndex[minPosition] >= len(wordDic[minPosition]):
                flag = False
                return docRight
            docIndex = [wordDic[i][inerIndex[i]] for i in range(numbers)]
          
def search_phrase(inverted, phrase):
    """
    search phrase
    """
    docRight = {}
    temp = word_split(phrase)
    wordList = [temp[i][1] for i in range(len(temp))]
    docPossible = search_words(inverted, wordList)
    for doc in docPossible:
        wordIndex = []
        indexRight = []
        for word in wordList:
            wordIndex.append(inverted[word][doc])
        numbers = len(wordList)
        inerIndex = [0 for i in range(numbers)]
        words = [wordIndex[i][0] for i in range(numbers)]
        flag = True
        while flag:
            if words[-1] - words[0] == numbers - 1:
                indexRight.append(words[0])
                inerIndex = [inerIndex[i]+1 for i in range(numbers)]
                for i in range(numbers):
                    if inerIndex[i] >= len(wordIndex[i]):
                        flag = False
                        docRight[doc] = indexRight
                        break
                if flag:
                    words = [wordIndex[i][inerIndex[i]] for i in range(numbers)]
            else:
                minIndex = min(words)
                minPosition = words.index(minIndex)
                inerIndex[minPosition] += 1
                if inerIndex[minPosition] >= len(wordIndex[minPosition]):
                    flag = False
                    break
                if flag:
                    words = [wordIndex[i][inerIndex[i]] for i in range(numbers)]
    return docRight
        

if __name__ == '__main__':
    doc1 = """
中文分詞指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規範
重新組合成詞序列的過程。我們知道，在英文的行文中，單詞之間是以空格作為自然分界符的，而中文
只是字、句和段能通過明顯的分界符來簡單劃界，唯獨詞沒有一個形式上的分界符，雖然英文也同樣
存在短語的劃分問題，不過在詞這一層上，中文比之英文要複雜的多、困難的多。
"""

    doc2 = """
存在中文分詞技術，是由於中文在基本文法上有其特殊性，具體表現在：
與英文為代表的拉丁語系語言相比，英文以空格作為天然的分隔符，而中文由於繼承自古代漢語的傳統，
詞語之間沒有分隔。　古代漢語中除了連綿詞和人名地名等，詞通常就是單個漢字，所以當時沒有分詞
書寫的必要。而現代漢語中雙字或多字詞居多，一個字不再等同於一個詞。
在中文裡，“詞”和“片語”邊界模糊
現代漢語的基本表達單元雖然為“詞”，且以雙字或者多字詞居多，但由於人們認識水平的不同，對詞和
短語的邊界很難去區分。
例如：“對隨地吐痰者給予處罰”，“隨地吐痰者”本身是一個詞還是一個短語，不同的人會有不同的標準，
同樣的“海上”“酒廠”等等，即使是同一個人也可能做出不同判斷，如果漢語真的要分詞書寫，必然會出現
混亂，難度很大。
中文分詞的方法其實不侷限於中文應用，也被應用到英文處理，如手寫識別，單詞之間的空格就不很清楚，
中文分詞方法可以幫助判別英文單詞的邊界。
"""

    doc3 = """
作用
中文分詞是文字挖掘的基礎，對於輸入的一段中文，成功的進行中文分詞，可以達到電腦自動識別語句含義的效果。
中文分詞技術屬於自然語言處理技術範疇，對於一句話，人可以通過自己的知識來明白哪些是詞，哪些不是詞，
但如何讓計算機也能理解？其處理過程就是分詞演算法。
影響
中文分詞對於搜尋引擎來說，最重要的並不是找到所有結果，因為在上百億的網頁中找到所有結果沒有太多的意義，
沒有人能看得完，最重要的是把最相關的結果排在最前面，這也稱為相關度排序。中文分詞的準確與否，常常直接
影響到對搜尋結果的相關度排序。從定性分析來說，搜尋引擎的分詞演算法不同，詞庫的不同都會影響頁面的返回結果
"""

    doc4 = """
這種方法又叫做機械分詞方法，它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配，
若在詞典中找到某個字串，則匹配成功（識別出一個詞）。按照掃描方向的不同，串匹配分詞方法可以分為正向
匹配和逆向匹配；按照不同長度優先匹配的情況，可以分為最大（最長）匹配和最小（最短）匹配；常用的幾種
機械分詞方法如下：
正向最大匹配法（由左到右的方向）；
逆向最大匹配法（由右到左的方向）；
最少切分（使每一句中切出的詞數最小）；
雙向最大匹配法（進行由左到右、由右到左兩次掃描）
還可以將上述各種方法相互組合，例如，可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。
由於漢語單字成詞的特點，正向最小匹配和逆向最小匹配一般很少使用。一般說來，逆向匹配的切分精度略高於
正向匹配，遇到的歧義現象也較少。統計結果表明，單純使用正向最大匹配的錯誤率為，單純使用逆向
最大匹配的錯誤率為。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統，都是把機械分詞
作為一種初分手段，還需通過利用各種其它的語言資訊來進一步提高切分的準確率。
一種方法是改進掃描方式，稱為特徵掃描或標誌切分，優先在待分析字串中識別和切分出一些帶有明顯特徵
的詞，以這些詞作為斷點，可將原字串分為較小的串再來進機械分詞，從而減少匹配的錯誤率。另一種方法
是將分詞和詞類標註結合起來，利用豐富的詞類資訊對分詞決策提供幫助，並且在標註過程中又反過來對分詞
結果進行檢驗、調整，從而極大地提高切分的準確率。
對於機械分詞方法，可以建立一個一般的模型，在這方面有專業的學術論文，這裡不做詳細論述。
"""

    doc5 = """
從形式上看，詞是穩定的字的組合，因此在上下文中，相鄰的字同時出現的次數越多，就越有可能構成一個詞。
因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度
進行統計，計算它們的互現資訊。定義兩個字的互現資訊，計算兩個漢字的相鄰共現概率。互現資訊體現了
漢字之間結合關係的緊密程度。當緊密程度高於某一個閾值時，便可認為此字組可能構成了一個詞。這種方法
只需對語料中的字組頻度進行統計，不需要切分詞典，因而又叫做無詞典分詞法或統計取詞方法。但這種方法
也有一定的侷限性，會經常抽出一些共現頻度高、但並不是詞的常用字組，例如“這一”、“之一”、“有的”、
“我的”、“許多的”等，並且對常用詞的識別精度差，時空開銷大。實際應用的統計分詞系統都要使用一部基本
的分詞詞典（常用詞詞典）進行串匹配分詞，同時使用統計方法識別一些新的詞，即將串頻統計和串匹配結合起來，
既發揮匹配分詞切分速度快、效率高的特點，又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。
另外一類是基於統計機器學習的方法。首先給出大量已經分詞的文字，利用統計機器學習模型學習詞語切分的規律
（稱為訓練），從而實現對未知文字的切分。我們知道，漢語中各個字單獨作詞語的能力是不同的，此外有的字常
常作為前綴出現，有的字卻常常作為字尾（“者”“性”），結合兩個字相臨時是否成詞的資訊，這樣就得到了許多
與分詞有關的知識。這種方法就是充分利用漢語組詞的規律來分詞。這種方法的最大缺點是需要有大量預先分好詞
的語料作支撐，而且訓練過程中時空開銷極大。
到底哪種分詞演算法的準確度更高，目前並無定論。對於任何一個成熟的分詞系統來說，不可能單獨依靠某一種演算法
來實現，都需要綜合不同的演算法。例如，海量科技的分詞演算法就採用“複方分詞法”，所謂複方，就是像中西醫結合
般綜合運用機械方法和知識方法。對於成熟的中文分詞系統，需要多種演算法綜合處理問題。 
"""

    # Build Inverted-Index for documents
    inverted = {}
    documents = {'doc1':doc1, 'doc2':doc2, 'doc3':doc3, 'doc4':doc4, 'doc5':doc5}
    for doc_id, text in documents.iteritems():
        doc_index = inverted_index(text)
        inverted_index_add(inverted, doc_id, doc_index)
        
    # Search one word
    aWord = "分詞"
    result_a_word = search_a_word(inverted, aWord)
    if result_a_word:
        result_a_word_docs = result_a_word.keys()
        print "'%s' is appeared at" %(aWord)
        for result_a_word_doc in result_a_word_docs:
            result_a_word_index = result_a_word[result_a_word_doc]
            for index in result_a_word_index:
                print (str(index) + ' '),
            print "of " + result_a_word_doc   
        print ""
    else:
        print "No matches!\r\n"
    
    #Search more than one word
    words = ["漢語", "切分"]
    result_words = search_words(inverted, words)
    if result_words:
        print ("["),
        for i in range(len(words)):
            print ("%s " %(words[i])),
        print ("] are appeared at the "),
        for result_words_doc in result_words:
            print (result_words_doc + ' '),
        print "\r\n"
    else:
        print "No matches!\r\n"
    
    #Search phrase
    phrase = "中文分詞"
    result_phrase = search_phrase(inverted, phrase)
    if result_phrase:
        result_phrase_docs = result_phrase.keys()
        print "'%s' is appeared at the " %(phrase)
        for result_phrase_doc in result_phrase_docs:
            result_phrase_index = result_phrase[result_phrase_doc]
            for index in result_phrase_index:
                print (str(index) + ' '),
            print "of " + result_phrase_doc
        print ""
    else:
        print "No matches!\r\n"

Python利用結巴分詞進行中文分詞

利用結巴分詞進行中文分詞，選擇全模式，建立詞倒排索引，並實現一般多詞查詢和短語查詢 # -*- coding: utf-8 -*- import jieba ''' Created on 2015-11-23 ''' def word_split(text): "

python 讀寫txt文件並用jieba庫進行中文分詞

mage 亂碼技術分享流行 ictclas 函數結果 class 配置 python用來批量處理一些數據的第一步吧。對於我這樣的的萌新。這是第一步。 #encoding=utf-8 file=‘test.txt‘ fn=open(file,"r") print f

使用python jieba庫進行中文分詞

jieba “結巴”中文分詞：做最好的 Python 中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word

使用Python+jieba和java+庖丁分詞在Spark叢集上進行中文分詞統計

寫在前邊的話：本篇部落格也是在做豆瓣電影資料的分析過程中，需要對影評資訊和劇情摘要資訊進行分析而寫的一篇部落格以前學習hadoop時，感覺做中文分詞也沒那麼麻煩，但是到了

python中使用jieba進行中文分詞

原始碼下載的地址：https://github.com/fxsjy/jieba演示地址：http://jiebademo.ap01.aws.af.cm/ 一 “結巴”中文分詞：做最好的 Python 中文分片語件。支援三種分詞模式：精確模式，試圖將句子最精確地切開，適

python讀寫txt檔案，並用jieba庫進行中文分詞

在虎撲上隨便找了一段文字，貼上到word.txt檔案中，然後對這段文字進行處理。其中用到的matplotlib庫，主要是用來繪圖；jieba庫，對文字進行分詞；wordcloud庫，構建詞雲。一、引用庫

Python呼叫PYNIPIR(ICTCLAS)進行中文分詞

NLPIR漢語分詞系統,主要功能包括中文分詞；詞性標註；命名實體識別；使用者詞典功能；支援GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發現與關鍵詞提取；張華平博士先後傾力打造十餘年，核心升級10次。（http://ictclas.nlpir.org

利用庖丁解牛工具進行中文分詞

關於如何使用庖丁解牛分詞工具可參考：http://www.letiantian.me/2014-11-26-word-segmentation-paoding-analysis/ 該工具可實現自定義詞典，對於有些特殊的詞，比如明星名字林心如霍建華等，可構建詞典以.dic為

利用jieba進行中文分詞並進行詞頻統計

1.安裝jieba庫在windows的Anaconda環境下如果沒有設定環境變數，則從Dos命令先進入...\Anaconda3\Scripts 目錄中，然後執行以下命令即可： pip install jieba 2.分詞示例我們先用一段文字來進

轉載：Spark 使用ansj進行中文分詞

轉載：https://www.cnblogs.com/JustIsQiGe/p/8006734.html 在Spark中使用ansj分詞先要將ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj原始碼github：https://github.com/

使用Java呼叫Stanford CoreNLP 進行中文分詞

Stanford CoreNLP 進行中文分詞中文分詞的工具有很多，使用斯坦福的CoreNLP進行分詞的教程網上也不少，本篇部落格是記錄自己在使用Stanford CoreNLP進行中文分詞的學習筆記。 1. 工具準備 1.1 下載NLP相關包：網址： https://stanfordn

spark叢集環境下使用hanlp進行中文分詞

標籤：zab table import shel – java standard mas tokenizer 1、將下載的hanlp-portable-1.6.2.jar複製到叢集spark/jar資料夾下面 2、啟動spark叢集 spark/bin/spark-shel

使用jieba和wordcloud進行中文分詞並生成《悲傷逆流成河》詞雲

因為詞雲有利於體現文字資訊，所以我就將那天無聊時爬取的《悲傷逆流成河》的評論處理了一下，生成了詞雲。關於爬取影評的爬蟲大概長這個樣子(實際上是沒有爬完的): #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/15 16:3

使用IKAnalyzer進行中文分詞

一個完整的結構如下：其中ext.dic和chinese_stopword.dic都是自定義的，這裡ext.dic用的是百度百科的詞條【496萬個詞條】，需要在xml裡面新增dic的位置。<?xml version="1.0" encoding="UTF-8"?>&l

用正向和逆向最大匹配演算法進行中文分詞（續）

一、結果分析： 1.程式執行結果，如下圖所示： 2.總體分析。（1）正向和逆向匹配都正確的句子數目為 1731，佔句子總數的39.0% （2）正向最大匹配完全正確的句子數目為 1917，佔句子總數的43

python3進行中文分詞和詞性標註

配置python環境(win10) 雙擊安裝，我安裝在了D:\python 中。新增環境變數。在我的電腦處右鍵 -> 高階系統設定 -> 環境變數 -> 系統變數 ->

使用R語言進行中文分詞

1.準備包 ①rJava包 ② Rwordseg包 ③java環境 ④搜狗詞庫（此為擴充套件詞庫） Rwordseg包依賴於rJava包。由於Rwordseg包並沒有託管在CRAN上面，而是在R-Forge上面，因此在在R軟體上面直接

最大熵模型進行中文分詞

本文運用字標註法進行中文分詞，最大熵模型方面使用開源的張樂博士的最大熵模型工具包(Maximum Entropy Modeling Toolkit for Python and C++)。使用的中文語料資源是SIGHAN提供的backoff 2005語料，

在C++中呼叫Jieba進行中文分詞

背景之前有個小專案用到了中文分詞，但當時使用的ICTCLAS需要每個月下載證書，很不方便。後來在網上找到了一個開源的python實現的中文分詞器Jieba，可以使用pip直接安裝本地。但之前的專案是c++實現的，所以需要考慮跨語言的呼叫問題。 Python

python利用百度API進行地理編碼（將地名轉換為經緯度資訊）

更新時間：2018-3-28 更新內容：優化部分程式碼，新增mongodb部分的內容本文章通過講解如何在百度地圖API申請金鑰，然後在python中呼叫API介面將自有資料中的地名轉換為經緯度座標。執行環境： python3 一、註冊金鑰

Python利用結巴分詞進行中文分詞

相關推薦