python自然語言處理（一）之中文分詞預處理、統計詞頻

阿新 • • 發佈：2019-01-08

一個小的嘗試。。

資料來源

資料集一共200條關於手機的中文評論，以XML格式儲存。

分詞工具

python-jieba

預處理

包括去停用詞、去標點符號和數字

去停用詞：使用的是他人總結的停用詞表

去標點符號和數字：用正則表示式。原本打算的是中文標點符號從網上覆制，英文標點符號用string.punctuation，但考慮到正則表示式中有些符號需要轉義，略麻煩，就直接粗暴地用字串表示了。

    def filterWord(word):
        stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt')]);
        punctuation = "\s+\.\!\/_,$%^*(+\"\'\{\}\=]+|[-【】《》、；+——！，。：？“、 
[email protected]#￥%……&*（）";
        number = "0-9";
        if(word in stopwords):
            return "";
        else:
            word = re.sub("[%s%s]+" % (punctuation, number), "", word);
            return word;

使用xml.etree解析XML檔案

資料格式如下：

<Reviews>

    <Review>

        <Sentences>

            <Sentence>

                <text> 這是一個例子 </text>

            </Sentence>

            ……

        </Sentences>

    </Review>

    ……

</Reviews>

遍歷方式：

    def loadFile(source_file):
        print("loading file:" + source_file);
        tree = xml.etree.cElementTree.parse(source_file);    #解析檔案
        root = tree.getroot();                               #獲得elementTree的根節點
        reviews = root.findall('Review');                    #獲得根節點中所有標籤為‘Review’的子節點
        for review in reviews:                                
            sentences = review.getchildren()[0];             #獲得Review節點的第一個子節點
            for sentence in sentences:
                text = sentence.getchildren()[0].text;       #獲得sentence節點的第一個子節點中的文字內容
                word_list = jieba.lcut(text);                #呼叫分詞工具進行分詞

對於分詞結果中的每一個詞進行預處理，即 filterWord。將預處理過的詞更新到詞頻字典中。【詞頻字典：以詞作為key，詞頻作為value】

輸出詞頻列表

按照詞頻倒序排列並輸出，而詞頻為dict中的value部分。可以通過sorted函式排序。

result = sorted(word_dict.items(), key = lambda d:d[1], reverse = True);

通過設定sorted函式中的key引數【這裡的lambda表示式可以看作是一個匿名函式，冒號左邊的部分為接收引數列表，冒號右邊的部分為函式返回值】，來實現排序。sorted預設升序。

python自然語言處理（一）之中文分詞預處理、統計詞頻

一個小的嘗試。。資料來源資料集一共200條關於手機的中文評論，以XML格式儲存。分詞工具 python-jieba預處理包括去停用詞、去標點符號和數字去停用詞：使用的是他人總結的停用詞表去標點符號和數字：用正則表示式。原本打算的是中文標點符號從網上覆制，英文標點符號用st

python自然語言處理（NLP）1------中文分詞1，基於規則的中文分詞方法

python中文分詞方法之基於規則的中文分詞目錄常見中文分詞方法推薦中文分詞工具參考連結一、四種常見的中文分詞方法：基於規則的中文分詞基於統計的中文分詞深度學習中文分詞混合分詞方法基於規則的中

乾貨 | 自然語言處理（5）之英文文字挖掘預處理流程

前言原文連結：http://www.cnblogs.com/pinard/p/6756534.h

NLP詞法分析（一）：中文分詞

##1.中文分詞介紹中文分詞相較於英文分詞要難許多，因為英文字身就是由單詞與空格組成的，而中文則是由獨立的字組成的，但同時語義卻是有詞來表達的。因此對於中文的分析與研究，首先應尋找合適的方法進行分詞。現有的中文分詞技術主要分為規則分詞，統計分詞與規則加統計相結

python與自然語言處理（五）：中文文字詞雲

之前一直想要做一個文字的視覺化：詞雲，然後在網上搜到的一些製作詞雲的工具，有些是線上的就沒有使用，今天偶然看到python提供的wordcloud庫，可以方便製作詞雲，中英文皆可，趕緊試試，做個筆記，

Python自然語言處理實戰（3）：中文分詞技術

3.1、中文分詞簡介在英文中，單詞本身就是“詞”的表達，一篇英文文章就是“單詞”加分隔符（空格）來表示的，而在漢語中，詞以字為基本單位的，但是一篇文章的語義表達卻仍然是以詞來劃分的。自中文自動分詞被提出以來，歷經將近30年的探索，提出了很多方法，可

Python 程式設計語言筆記（一）

原文地址https://blog.csdn.net/longteng007/article/details/50989535 <div class="htmledit_views"> <p></p> &l

圖片處理（一）之BMP格式24bit轉16bit

功能：通過C程式實現圖片處理，把24bit_BMP轉為16bit_BMP 主要流程： 1）開啟圖片檔案，獲得檔案流指標 2）讀取開頭54byte，獲取圖片頭部結構體，分析圖片資訊 3）再獲取圖片的資料部分（頭部結構體之後的部分） 4）通過位偏移，把每3byte的(888R

批處理（一）：使用WorkspaceRunner進行批處理

原文連結： https://knowledge.safe.com/articles/1469/batch-processing-using-the-workspacerunner-1.html?smartspace=chaining-workspaces 一、介紹 WorkspaceRu

Elasticsearch外掛（一）：ik分詞

在Elasticsearch的對於中文的檢索，ik效果最好也是使用最火的一款中文分詞外掛。支援自定義詞庫和動態修改詞庫。對於一般情況的的中文檢索，ik分詞是一個很好的選擇。安裝版本號要跟Elasticsearch版本對應。手動安裝： 1.在plugins

（五）Lucene——中文分詞器

實現 ext cse ron -a tag 大小 -c .com 1. 什麽是中文分詞器對於英文，是安裝空格、標點符號進行分詞對於中文，應該安裝具體的詞來分，中文分詞就是將詞，切分成一個個有意義的詞。比如：“我的中國人”，分詞：我、的、中

solr 6.2.0系列教程（二）IK中文分詞器配置及新增擴充套件詞、停止詞、同義詞

前言 2、solr的不同版本，對應不同版本的IK分詞器。由於IK 2012年停止更新了。所以以前的版本不適合新版的solr。有幸在網上扒到了IK原始碼自己稍微做了調整，用來相容solr6.2.0版本。IK原始碼下載地址步驟 1、解壓下載的src.rar壓縮包，這是我建

中文分詞預處理之N最短路徑法小結(轉)

本文演算法來自《基於N-最短路徑方法的中文詞語粗分模型》（張華平、劉群，中文資訊學報，16卷5期）。凡有不解處，當參考原文。漢語之魅力在於整齊而富有音律美。不像英文，單詞間長短不一，字與字之間還用空格隔開。話雖如此，可計算機處理起來，天然的空格有助於計算機迅速識別單詞間邊界。而中文，美則美

ES[7.6.x]學習筆記（七）IK中文分詞器

在上一節中，我們給大家介紹了ES的分析器，我相信大家對ES的全文搜尋已經有了深刻的印象。分析器包含3個部分：字元過濾器、分詞器、分詞過濾器。在上一節的例子，大家發現了，都是英文的例子，是吧？因為ES是外國人寫的嘛，中國如果要在這方面趕上來，還是需要螢幕前的小夥伴們的~ 英文呢，我們可以按照空格將一句話、一