樸素貝葉斯(NaiveBayes)針對小資料集中文文字分類預測

阿新 • • 發佈：2018-12-30

轉自相國大人的部落格，

http://blog.csdn.net/github_36326955/article/details/54891204

做個筆記

程式碼按照1 2 3 4的順序進行即可：

1.py(corpus_segment.py)

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@version: python2.7.8 
@author: XiangguoSun
@contact: [email protected]
@file: corpus_segment.py
@time: 2017/2/5 15:28
@software: PyCharm
"""
import sys
import os
import jieba
# 配置utf-8輸出環境
reload(sys)
sys.setdefaultencoding('utf-8')
# 儲存至檔案
def savefile(savepath, content):
    with open(savepath, "wb") as fp:
        fp.write(content)
    '''
    上面兩行是python2.6以上版本增加的語法，省略了繁瑣的檔案close和try操作
    2.5版本需要from __future__ import with_statement
    新手可以參考這個連結來學習http://zhoutall.com/archives/325
    '''
# 讀取檔案
def readfile(path):
    with open(path, "rb") as fp:
        content = fp.read()
    return content

def corpus_segment(corpus_path, seg_path):
    '''
    corpus_path是未分詞語料庫路徑
    seg_path是分詞後語料庫儲存路徑
    '''
    catelist = os.listdir(corpus_path)  # 獲取corpus_path下的所有子目錄
    '''
    其中子目錄的名字就是類別名，例如：
    train_corpus/art/21.txt中，'train_corpus/'是corpus_path，'art'是catelist中的一個成員
    '''

    # 獲取每個目錄（類別）下所有的檔案
    for mydir in catelist:
        '''
        這裡mydir就是train_corpus/art/21.txt中的art（即catelist中的一個類別）
        '''
        class_path = corpus_path + mydir + "/"  # 拼出分類子目錄的路徑如：train_corpus/art/
        seg_dir = seg_path + mydir + "/"  # 拼出分詞後存貯的對應目錄路徑如：train_corpus_seg/art/

        if not os.path.exists(seg_dir):  # 是否存在分詞目錄，如果沒有則建立該目錄
            os.makedirs(seg_dir)

        file_list = os.listdir(class_path)  # 獲取未分詞語料庫中某一類別中的所有文字
        '''
        train_corpus/art/中的
        21.txt,
        22.txt,
        23.txt
        ...
        file_list=['21.txt','22.txt',...]
        '''
        for file_path in file_list:  # 遍歷類別目錄下的所有檔案
            fullname = class_path + file_path  # 拼出檔名全路徑如：train_corpus/art/21.txt
            content = readfile(fullname)  # 讀取檔案內容
            '''此時，content裡面存貯的是原文字的所有字元，例如多餘的空格、空行、回車等等，
            接下來，我們需要把這些無關痛癢的字元統統去掉，變成只有標點符號做間隔的緊湊的文字內容
            '''
            content = content.replace("\r\n", "")  # 刪除換行
            content = content.replace(" ", "")#刪除空行、多餘的空格
            content_seg = jieba.cut(content)  # 為檔案內容分詞
            savefile(seg_dir + file_path, " ".join(content_seg))  # 將處理後的檔案儲存到分詞後語料目錄

    print "中文語料分詞結束！！！"

'''
如果你對if __name__=="__main__":這句不懂，可以參考下面的文章
http://imoyao.lofter.com/post/3492bc_bd0c4ce
簡單來說如果其他python檔案呼叫這個檔案的函式，或者把這個檔案作為模組
匯入到你的工程中時，那麼下面的程式碼將不會被執行，而如果單獨在命令列中
執行這個檔案，或者在IDE（如pycharm）中執行這個檔案時候，下面的程式碼才會執行。
即，這部分程式碼相當於一個功能測試。
如果你還沒懂，建議你放棄IT這個行業。
'''
if __name__=="__main__":
    #對訓練集進行分詞
    corpus_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/train/"  # 未分詞分類語料庫路徑
    seg_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/train_corpus_seg/"  # 分詞後分類語料庫路徑,本程式輸出結果
    corpus_segment(corpus_path,seg_path)

    #對測試集進行分詞
    corpus_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/answer/"  # 未分詞分類語料庫路徑
    seg_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/test_corpus_seg/"  # 分詞後分類語料庫路徑，本程式輸出結果
    corpus_segment(corpus_path,seg_path)

2.py(corpus2Bunch.py)

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@version: python2.7.8 
@author: XiangguoSun
@contact: [email protected]
@file: corpus2Bunch.py
@time: 2017/2/7 7:41
@software: PyCharm
"""
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import os#python內建的包，用於進行檔案目錄操作，我們將會用到os.listdir函式
import cPickle as pickle#匯入cPickle包並且取一個別名pickle
'''
事實上python中還有一個也叫作pickle的包，與這裡的名字相同了，無所謂
關於cPickle與pickle，請參考博主另一篇博文：
python核心模組之pickle和cPickle講解
http://blog.csdn.net/github_36326955/article/details/54882506
本檔案程式碼下面會用到cPickle中的函式cPickle.dump
'''
from sklearn.datasets.base import Bunch
#這個您無需做過多瞭解，您只需要記住以後匯入Bunch資料結構就像這樣就可以了。
#今後的博文會對sklearn做更有針對性的講解


def _readfile(path):
    '''讀取檔案'''
    #函式名前面帶一個_,是標識私有函式
    # 僅僅用於標明而已，不起什麼作用，
    # 外面想呼叫還是可以呼叫，
    # 只是增強了程式的可讀性
    with open(path, "rb") as fp:#with as句法前面的程式碼已經多次介紹過，今後不再註釋
        content = fp.read()
    return content

def corpus2Bunch(wordbag_path,seg_path):
    catelist = os.listdir(seg_path)# 獲取seg_path下的所有子目錄，也就是分類資訊
    #建立一個Bunch例項
    bunch = Bunch(target_name=[], label=[], filenames=[], contents=[])
    bunch.target_name.extend(catelist)
    '''
    extend(addlist)是python list中的函式，意思是用新的list（addlist）去擴充
    原來的list
    '''
    # 獲取每個目錄下所有的檔案
    for mydir in catelist:
        class_path = seg_path + mydir + "/"  # 拼出分類子目錄的路徑
        file_list = os.listdir(class_path)  # 獲取class_path下的所有檔案
        for file_path in file_list:  # 遍歷類別目錄下檔案
            fullname = class_path + file_path  # 拼出檔名全路徑
            bunch.label.append(mydir)
            bunch.filenames.append(fullname)
            bunch.contents.append(_readfile(fullname))  # 讀取檔案內容
            '''append(element)是python list中的函式，意思是向原來的list中新增element，注意與extend()函式的區別'''
    # 將bunch儲存到wordbag_path路徑中
    with open(wordbag_path, "wb") as file_obj:
        pickle.dump(bunch, file_obj)
    print "構建文字物件結束！！！"

if __name__ == "__main__":#這個語句前面的程式碼已經介紹過，今後不再註釋
    #對訓練集進行Bunch化操作：
    wordbag_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/train_word_bag/train_set.dat"  # Bunch儲存路徑，程式輸出
    seg_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/train_corpus_seg/"  # 分詞後分類語料庫路徑，程式輸入
    corpus2Bunch(wordbag_path, seg_path)

    # 對測試集進行Bunch化操作：
    wordbag_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/test_word_bag/test_set.dat"  # Bunch儲存路徑，程式輸出
    seg_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/test_corpus_seg/"  # 分詞後分類語料庫路徑，程式輸入
    corpus2Bunch(wordbag_path, seg_path)

3.py(TFIDF_space.py)

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@version: python2.7.8 
@author: XiangguoSun
@contact: [email protected]
@file: TFIDF_space.py
@time: 2017/2/8 11:39
@software: PyCharm
"""
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

from sklearn.datasets.base import Bunch
import cPickle as pickle
from sklearn.feature_extraction.text import TfidfVectorizer

def _readfile(path):
    with open(path, "rb") as fp:
        content = fp.read()
    return content

def _readbunchobj(path):
    with open(path, "rb") as file_obj:
        bunch = pickle.load(file_obj)
    return bunch

def _writebunchobj(path, bunchobj):
    with open(path, "wb") as file_obj:
        pickle.dump(bunchobj, file_obj)

def vector_space(stopword_path,bunch_path,space_path,train_tfidf_path=None):

    stpwrdlst = _readfile(stopword_path).splitlines()
    bunch = _readbunchobj(bunch_path)
    tfidfspace = Bunch(target_name=bunch.target_name, label=bunch.label, filenames=bunch.filenames, tdm=[], vocabulary={})

    if train_tfidf_path is not None:
        trainbunch = _readbunchobj(train_tfidf_path)
        tfidfspace.vocabulary = trainbunch.vocabulary
        vectorizer = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf=True, max_df=0.5,vocabulary=trainbunch.vocabulary)
        tfidfspace.tdm = vectorizer.fit_transform(bunch.contents)

    else:
        vectorizer = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf=True, max_df=0.5)
        tfidfspace.tdm = vectorizer.fit_transform(bunch.contents)
        tfidfspace.vocabulary = vectorizer.vocabulary_

    _writebunchobj(space_path, tfidfspace)
    print "tf-idf詞向量空間例項建立成功！！！"

if __name__ == '__main__':

    # stopword_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204/chinese_text_classification-master/train_word_bag/hlt_stop_words.txt"#輸入的檔案
    # bunch_path = "train_word_bag/train_set.dat"#輸入的檔案
    # space_path = "train_word_bag/tfdifspace.dat"#輸出的檔案
    # vector_space(stopword_path,bunch_path,space_path)
    #
    # bunch_path = "test_word_bag/test_set.dat"#輸入的檔案
    # space_path = "test_word_bag/testspace.dat"
    # train_tfidf_path="train_word_bag/tfdifspace.dat"
    # vector_space(stopword_path,bunch_path,space_path,train_tfidf_path)

    stopword_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/train_word_bag/hlt_stop_words.txt"#輸入的檔案

    train_bunch_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/train_word_bag/train_set.dat"#輸入的檔案
    space_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/train_word_bag/tfidfspace.dat"#輸出的檔案
    vector_space(stopword_path,train_bunch_path,space_path)

    train_tfidf_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/train_word_bag/tfidfspace.dat"  # 輸入的檔案，由上面生成
    test_bunch_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/test_word_bag/test_set.dat"#輸入的檔案
    test_space_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/test_word_bag/testspace.dat"#輸出的檔案

    vector_space(stopword_path,test_bunch_path,test_space_path,train_tfidf_path)

4.py(NBayes_Predict.py)

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@version: python2.7.8 
@author: XiangguoSun
@contact: [email protected]
@file: NBayes_Predict.py
@time: 2017/2/8 12:21
@software: PyCharm
"""
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import cPickle as pickle
from sklearn.naive_bayes import MultinomialNB  # 匯入多項式貝葉斯演算法


# 讀取bunch物件
def _readbunchobj(path):
    with open(path, "rb") as file_obj:
        bunch = pickle.load(file_obj)
    return bunch

# 匯入訓練集
trainpath = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/train_word_bag/tfidfspace.dat"
train_set = _readbunchobj(trainpath)

# 匯入測試集
testpath = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/test_word_bag/testspace.dat"
test_set = _readbunchobj(testpath)

# 訓練分類器：輸入詞袋向量和分類標籤，alpha:0.001 alpha越小，迭代次數越多，精度越高
clf = MultinomialNB(alpha=0.01).fit(train_set.tdm, train_set.label)

# 預測分類結果
predicted = clf.predict(test_set.tdm)

for flabel,file_name,expct_cate in zip(test_set.label,test_set.filenames,predicted):
    if flabel != expct_cate:
        print file_name,": 實際類別:",flabel," -->預測類別:",expct_cate

print "預測完畢!!!"

# 計算分類精度：
from sklearn import metrics
def metrics_result(actual, predict):
    print '精度:{0:.3f}'.format(metrics.precision_score(actual, predict,average='weighted'))
    print '召回:{0:0.3f}'.format(metrics.recall_score(actual, predict,average='weighted'))
    print 'f1-score:{0:.3f}'.format(metrics.f1_score(actual, predict,average='weighted'))

metrics_result(test_set.label, predicted)

大概說下用法：

一、上面四個程式碼依次執行即可

二、要注意資料的存放方式要和轉載的部落格中一樣，資料夾的名字就是類別名字，程式碼會進行自動識別。

三、每次跑完一遍流程，跑下一次程式前，train_corpus_seg和test_corpus_seg兩個資料夾要全部刪除，不然上次殘留的結果會影響這次的預測。

同樣地，如果更換中文資料集，這兩個資料夾也要刪除，總之，執行以上程式碼的第一步驟就是檢查這兩個資料夾下面是不是空的。（當然如果是第一次執行以上四個程式碼，沒有生成這兩個資料夾，自然是不用檢查的）

另外，他這篇部落格的優點是，可以針對小資料集（資料條數不到1000，十折交叉驗證），預測概率可以達到60%~70%

程式之間的輸入輸出關係圖

樸素貝葉斯(NaiveBayes)針對小資料集中文文字分類預測

轉自相國大人的部落格， http://blog.csdn.net/github_36326955/article/details/54891204 做個筆記程式碼按照1 2 3 4的順序進行即可： 1.py(corpus_segment.py) #!/usr/bin/e

利用樸素貝葉斯（Navie Bayes）進行垃圾郵件分類

判斷 ase create numpy water 向量 not in imp img 貝葉斯公式描寫敘述的是一組條件概率之間相互轉化的關系。在機器學習中。貝葉斯公式能夠應用在分類問題上。這篇文章是基於自己的學習所整理。並利用一個垃圾郵件分類的樣例來加深對於理論的理解

sk-learn例項-用樸素貝葉斯演算法（Naive Bayes）對文字進行分類

簡介樸素貝葉斯（Naive Bayes）是一個非常簡單，但是實用性很強的分類模型，與基於線性假設的模型（線性分類器和支援向量機分類器）不同，樸素貝葉斯分類器的構造基礎是貝葉斯理論。抽象一些的說，樸素貝葉斯分類器會單獨考量每一維度特徵被分類的條件概率，進而綜合這些概率並對其所在的特

樸素貝葉斯案例1：進行文件/評論分類（python實現）

樸素貝葉斯算法資料整理和PHP 實現版本

樸素貝葉斯樸素貝葉斯算法簡潔http://blog.csdn.net/xlinsist/article/details/51236454 引言先前曾經看了一篇文章，一個老外程序員寫了一些很牛的Shell腳本，包括晚下班自動給老婆發短信啊，自動沖Coffee啊，自動掃描一個DBA發來的郵件啊，等等。於是我也想

樸素貝葉斯python小樣本實例

else take dataset 核心 inpu lis def hle 模型樸素貝葉斯優點：在數據較少的情況下仍然有效，可以處理多類別問題缺點：對於輸入數據的準備方式較為敏感適用數據類型：標稱型數據樸素貝葉斯決策理論的核心思想：選擇具有最高概率的決策樸素貝葉斯的一般過

小白python學習——機器學習篇——樸素貝葉斯演算法

一.大概思路： 1.找出資料集合，所有一個單詞的集合，不重複，各個文件。 2.把每個文件換成0,1模型，出現的是1，就可以得到矩陣長度一樣的各個文件。 3.計算出3個概率，一是侮辱性的文件概率，二是侮辱性文件中各個詞出現的概率，三是非侮辱性文件中各個詞出現的概率。 4.二、三計算方法

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集，產生一個推斷函式

Python 實現樸素貝葉斯 MNIST資料集

Python實現樸素貝葉斯演算法樸素貝葉斯是機器學習的一種演算法，之所以成為樸素，是因為它的想法“簡單”，簡單地認為樣本中所有的特徵都無關，即P(AB) = P(A)P(B)。所以，有 P(y|xi) = P(y)P(x0 = xi0|y)P(x1 = xi1|y)P(x2 = x

樸素貝葉斯進行新聞主題分類，有程式碼和資料，可以跑通

folder_path = '/Users/apple/Documents/七月線上/NLP/第2課/Lecture_2/Naive-Bayes-Text-Classifier/Database/SogouC/Sample' stopwords_file = '/Users/apple/Docume

機器學習-資料分析之樸素貝葉斯過濾垃圾郵件

資料分析之過濾垃圾郵件前沿之前也學了一些資料分析的案例從一直沒有記錄，所有準備從現在開始把所學的都記錄在CSDN中。如果大家看到我的博文有什麼不理解或者還想學習更深入的可以去上面的網站。樸素貝葉斯之過濾垃圾郵件使用樸素貝葉斯解決一些生活中的問題。先從文字內容得

資料探勘領域十大經典演算法之—樸素貝葉斯演算法（超詳細附程式碼）

簡介 NaïveBayes演算法，又叫樸素貝葉斯演算法，樸素：特徵條件獨立；貝葉斯：基於貝葉斯定理。屬於監督學習的生成模型，實現簡單，沒有迭代，並有堅實的數學理論（即貝葉斯定理）作為支撐。在大量樣本下會有較好的表現，不適用於輸入向量的特徵條件有關聯的場景。基本思想 (1)

基於MNIST資料集通過樸素貝葉斯學習生成隨機手寫體數字影象

好久沒寫部落格了，話不多說，進入主題。 1、貝葉斯方法 2、訓練資料集 3、具體實現過程 3.1 匯入資料集上面提到的資料由於編碼問題，需要自己寫匯入方法，如果你也是用python的話，有現成的模板可以使用。推薦一個Gi

資料科學和人工智慧技術筆記十六、樸素貝葉斯

十六、樸素貝葉斯作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 伯努利樸素貝葉斯伯努利樸素貝葉斯分類器假設我們的所有特徵都是二元的，它們僅有兩個值（例如，已經是獨熱編碼的標稱分類特徵）。 # 載入庫 import

資料探勘十大經典演算法(九) 樸素貝葉斯分類器 Naive Bayes

分類演算法--------貝葉斯定理：樸素貝葉斯的基本思想：對於給出的待分類項，求解在此項出現的條件下各個類別出現的概率，哪個最大，就認為此待分類項屬於哪個類別。可以看到，整個樸素貝葉斯分類分為三個階段：第一階段——準備工作階段，這個階段的任務是為樸

資料探勘十大演算法（九）：樸素貝葉斯 python和sklearn實現

第三個演算法終於算是稍有了解了，其實當你結合資料瞭解了它的實現原理後，你會發現確實很樸素。這裡對樸素貝葉斯演算法做一個介紹和總結，包括（原理、一個程式碼示例、sklearn實現），皆為親自實踐後的感悟，下面進入正文。原理：首先我們需要了解概率論的一些簡單知識：

樸素貝葉斯的python實現（針對演算法預測類不針對文字）

首先，感謝Chai_zheng博主提供的程式碼思路，本文程式碼基於該博主思路所編寫！！！感謝這個開源的時代。一、貝葉斯原理: 作為一名研究（雖然是菜鳥級別的，哈哈），那還是用學習貝葉斯的人員來自稱吧，還是要吹一下貝葉斯的幾大優點的。貝葉斯網路是一種概率圖形模型，廣泛應用

大資料分類演算法——樸素貝葉斯演算法

七、零頻問題注意table 2中有一個數據為0，這意味著在outlook為overcast的情況下，不打球和概率為0，即只要為overcast就一定打球，這違背了樸素貝葉斯的基本假設：輸出依賴於所有的屬性。資料平滑的方法很多，最簡單最古老的是拉普拉斯估計（Laplace estimator）--即為t

資料探勘經典演算法總結-樸素貝葉斯分類器

貝葉斯定理（Bayes theorem），是概率論中的一個結果，它跟隨機變數的條件概率以及邊緣概率分佈有關。在有些關於概率的解說中，貝葉斯定理(貝葉斯更新）能夠告知我們如何利用新證據修改已有的看法。通常，事件A在事件B(發生)的條件下的概率，與事件B在事件A的條件下的概率

樸素貝葉斯（二）實現NBCorpus分類（附程式碼和資料）

公式：（P(x)為常數，可忽略不考慮）平滑：Nyk是類別為yk的樣本個數，n是特徵的維數，Nyk,xi是類別為yk的樣本中，第i維特徵的值是xi的樣本個數，α是平滑值。在對NBCorpus詞分類時，帶入上面的公式可得：某詞屬於某類別的概率 = （該類別該詞的個數 + 1/

樸素貝葉斯(NaiveBayes)針對小資料集中文文字分類預測

相關推薦