機器學習實戰——文字分類

阿新 • • 發佈：2018-12-26

樸素貝葉斯

優點：在資料較少的情況下仍然有效，可以處理多類別問題。

缺點：對輸入資料的準備方式較為敏感。

適用資料型別：標稱型資料

核心思想：選擇高概率對應的類別。

條件概率：

程式碼：

from numpy import *
def loadDataSet():
    postingList=[['my','dog','has','flea',\
                  'probelms','help','please'],
                 ['maybe','not','take','him',\
                  'to','dog','park','stupid'],
                 ['my','dalmation','is','so','cute',\
                  'I','love','him'],
                 ['stop','posting','stupid','worthless','garbage'],
                 ['mr','licks','ate','my','steak','how',\
                  'to','stop','him'],
                 ['quit','buying','worthless','dog','food','stupid']]
    classVec=[0,1,0,1,0,1] #0正常，1侮辱,對應postingList的屬性
    return postingList,classVec

def createVocabList(dataSet):
    vocabSet=set([]) #建立一個空集
    for document in dataSet:
        vocabSet=vocabSet|set(document) #建立兩個集合的並集
    return list(vocabSet)
def setOfWords2Vec(vocabList,inputSet): #vocabList詞彙表，inputSet輸入的文件
    returnVec=[0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)]+=1
        else:
            print("the word: %s is not in my Vocabulary" % word)
    return returnVec

def trainNB0(trainMatrix,trainCategory):
    numTrainDocs=len(trainMatrix)
    numWords=len(trainMatrix[0])
    pAbusive=sum(trainCategory)/float(numTrainDocs) #侮辱性文件的概率
    p0Num=ones(numWords);p1Num=ones(numWords)
    p0Denom=2.0;p1Denom=2.0
    for i in range(numTrainDocs):
        if trainCategory[i]==1:
            p1Num+=trainMatrix[i]
            p1Denom+=sum(trainMatrix[i])
        else:
            p0Num+=trainMatrix[i]
            p0Denom+=sum(trainMatrix[i])
    p1Vect=log(p1Num/p1Denom)
    p0Vect=log(p0Num/p0Denom)
    return p0Vect,p1Vect,pAbusive

def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
    p1=sum(vec2Classify*p1Vec)+log(pClass1) #計算相乘後的概率
    p0=sum(vec2Classify*p0Vec)+log(1.0-pClass1)
    if p1>p0:
        return 1
    else:
        return 0
def testingNB():
    listOPosts,listClasses=loadDataSet()
    myVocabList=createVocabList(listOPosts)
    trainMat=[]
    for postoinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList,postoinDoc))
    p0V,p1V,pAb=trainNB0(array(trainMat),array(listClasses))
    testEntry=['love','my','dalmation']
    thisDoc=array(setOfWords2Vec(myVocabList,testEntry))
    print(testEntry,'classified as:',classifyNB(thisDoc,p0V,p1V,pAb))
    testEntry=['stupid','garbage']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as:', classifyNB(thisDoc, p0V, p1V, pAb))

if __name__ == '__main__':
    testingNB()
    # listOPosts,listClasses=loadDataSet()
    # myVocabList=createVocabList(listOPosts) #單詞列表
    # trainMat=[]
    # for postoinDoc in listOPosts:
    #     trainMat.append(setOfWords2Vec(myVocabList,postoinDoc)) #句子分詞後的單詞在單詞列表中出現的矩陣
    # # print(trainMat)
    # p0V,p1V,pAb=trainNB0(trainMat,listClasses)
    # print(p0V)
    # print(p1V)
    # print(pAb)
    # print(myVocabList)
    # print(setOfWords2Vec(myVocabList,listOPosts[0]))
    # print(setOfWords2Vec(myVocabList, listOPosts[3]))

機器學習實戰——文字分類

樸素貝葉斯優點：在資料較少的情況下仍然有效，可以處理多類別問題。缺點：對輸入資料的準備方式較為敏感。適用資料型別：標稱型資料核心思想：選擇高概率對應的類別。條件概率：程式碼： from numpy import * def loadDataSet():

基於機器學習的文字分類演算法的研究

1. 簡述文字分類的方法屬於有監督的學習方法，分類過程包括文字預處理、特徵抽取、降維、分類和模型評價。本文首先研究了文字分類的背景，中文分詞演算法。然後是對各種各樣的特徵抽取進行研究，包括詞項頻率-逆文件頻率和word2vec，降維方法有主成分分析法和潛在索引分析，最後是對分類演算法進行研究，

Python機器學習實戰kNN分類演算法

自學《機器學習實戰》一書，書中的程式碼親自敲一遍，努力搞懂每句程式碼的含義：今天將第一章kNN分類演算法的筆記總結一下。 # -*- coding: utf-8 -*- """ k-近鄰演算法小結: k-近鄰演算法是基於例項的學習，k-近鄰演算法必須儲存全部資料集，

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

【機器學習實戰】網格搜尋--貝葉斯新聞文字分類器調優

#對文字分類的樸素貝葉斯模型的超引數組合進行網格搜尋 #從sklearn.datasets中匯入20類新聞文字抓取器 from sklearn.datasets import fetch_20newsgroups import numpy as np #抓取新

機器學習實戰 k-近鄰算法實施kNN分類算法

OS 環境 clas attr blog 環境變量變量技術機器學習 2.預測數據分類時，出現 ‘dict’ object has no attribute ‘iteritems‘ 如：最常見的解決辦法是更改環境變量順序如註意：哪個版本在上面，cmd

機器學習實戰第7章——利用AdaBoost元算法提高分類性能

nes 重要性 function mine spl 技術可能 copy elar 將不同的分類器組合起來，這種組合結果被稱為集成方法或元算法（meta-algorithm）。使用集成方法時會有多種形式：（1）可以是不同算法的集成（2）可以是同一種算法在不同設置下的集成

機器學習實戰（八）分類迴歸樹CART（Classification And Regression Tree）

目錄 0. 前言 1. 迴歸樹 2. 模型樹 3. 剪枝（pruning） 3.1. 預剪枝 3.2. 後剪枝 4. 實戰案例 4.1. 迴歸樹 4.2. 模型樹

機器學習實戰（Machine Learning in Action）學習筆記————04.樸素貝葉斯分類（bayes）

機器學習實戰（Machine Learning in Action）學習筆記————04.樸素貝葉斯分類（bayes）關鍵字：樸素貝葉斯、python、原始碼解析作者：米倉山下時間：2018-10-25機器學習實戰（Machine Learning in Action,@author: Peter Harri

機器學習實戰——利用AdaBoost元演算法提高分類效能實現記錄

問題：TypeError: __new__() takes from 2 to 4 positional arguments but 6 were given def loadSimpData(): datMat = matrix([1. ,2.1],

機器學習實戰--酒店情感分析分類

Python爬蟲人工智慧大資料（公眾號）資料集：正面評價：2000_pos.txt 商務大床房，房間很大，床有2M寬，整體感覺經濟實惠不錯! 早餐太差，無論去多少人，那邊也不加食品的。酒店應該重視一下這個問題了。賓館在小街道上，不大好找，但還好北京熱心同胞很多~ 前臺

《機器學習實戰》第2章閱讀筆記3 使用K近鄰演算法改進約會網站的配對效果—分步驟詳細講解1——資料準備：從文字檔案中解析資料（附詳細程式碼及註釋）

本篇使用的資料存放在文字檔案datingTestSet2.txt中，每個樣本資料佔據一行，總共有1000行。樣本主要包含以下3中特徵：（1）每年獲得飛行常客里程數（2）玩視訊遊戲所耗時間百分比（3）每週消費的冰淇淋公升數在使用分類器之前，需要將處理的檔案格式

機器學習實戰——基於概率論的分類方法：樸素貝葉斯（二）

使用貝葉斯過濾垃圾郵件 1.準備資料：切分文字將字串切分為詞列表時，倘若沒有split引數，則標點符號也會被當成詞的一部分，可以使用正則表示式來切分句子，其中分隔符是除了單詞，數字之外的任意字串

【機器學習實戰—第4章：基於概率論的分類方法：樸素貝葉斯】程式碼報錯（python3）

1、報錯：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xae in position 199: illegal multibyte sequence 原因：這是檔案編碼的問題，檔案中有非法的多位元組字元。解決辦法：開啟Ch04\

機器學習實戰——python實現簡單的樸素貝葉斯分類器

【機器學習實戰】支援向量機----分類庫和簡單訓練mnist

前面已經對mnist資料集進行了讀取，現在我們可以直接使用sklearn.svm模組中的演算法庫對mnist資料集進行訓練。【svm模組】演算法庫： sklearn.svm模組中提供了這些庫：大概分成這幾類(除了svm_l1_min_c

Python3《機器學習實戰》學習筆記（五）：樸素貝葉斯實戰篇之新浪新聞分類

一前言拉普拉斯平滑垃圾郵件過濾新浪新聞分類二樸素貝葉斯改進之拉普拉斯平滑上篇文章提到過，演算法存在一定的問題，需要進行改進。那麼需要改進的地方在哪裡呢？利用貝葉斯分類器對文件進行分類時，要計算多個概率的乘積以獲得

樸素貝葉斯-分類及Sklearn庫實現（1）機器學習實戰

KNN，決策樹兩種演算法都明確給出了“該資料例項到底屬於哪一類”這類明確的回答，而這一篇講到的樸素貝葉斯分類器，基於概率論的分類方法，將給出資料例項屬於不同種類的概率（基於資料的後驗概率），從而供我們選擇一個最優的類別猜測結果。例如給定一組資料(x，y)，可能的

《機器學習實戰》學習筆記：樸素貝葉斯分類演算法

貝葉斯決策理論選擇高概率對應的類別是貝葉斯決策理論的核心思想，即選擇具有最高概率的決策。樸素貝葉斯樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Nai

機器學習實戰第四章——樸素貝葉斯分類(原始碼解析)

樸素貝葉斯分類 #coding=utf-8 ''' Created on 2016年1月9日 @author: admin ''' from numpy import * # 載入資料集函式 def loadDataSet(): # 定義郵件列表 p

機器學習實戰——文字分類

樸素貝葉斯

程式碼：

相關推薦