Python貝葉斯演算法進行情感分析

阿新 • • 發佈：2019-01-08

from __future__ import division
import re
from numpy import ones, array
from numpy.lib.scimath import log
from nltk import *

def loadDataSet():
    pos=open("pos_train.txt",'r')
    neg=open("neg_train.txt",'r')
    lst_all=[]
    classVec=[]
    for i in range(700):
        classVec.append(i%2)
    for i in range(350):
        str0=pos.readline()
        str1=neg.readline()
        regEx0=re.compile('\\W*')
        regEx1=re.compile('\\W*')
        lst_pos=regEx0.split(str0)
        lst_neg=regEx1.split(str1)
        lst_all.append([tok.lower() for tok in lst_pos if len(tok)>0])
        lst_all.append([tok.lower() for tok in lst_neg if len(tok)>0])
    return lst_all,classVec

def loadTestSet():
    pos=open("pos_test.txt",'r')
    neg=open("neg_test.txt",'r')
    lst_pos_test=[]
    lst_neg_test=[]
    for i in range(350):
        str0=pos.readline()
        regEx0=re.compile('\\W*')
        lst_pos=regEx0.split(str0)
        lst_pos_test.append([tok.lower() for tok in lst_pos if len(tok)>0])
    for i in range(350):
        str1=neg.readline()
        regEx1=re.compile('\\W*')
        lst_neg=regEx1.split(str1)
        lst_neg_test.append([tok.lower() for tok in lst_neg if len(tok)>0])
    # print 'loadtestset'
    return lst_pos_test,lst_neg_test

def createVocabList(dataSet):
    vocabSet = set([])  #create empty set
    for document in dataSet:
        vocabSet = vocabSet | set(document) #union of the two sets
    # print "createVocabList"
    return list(vocabSet)

def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
        # else:
            # print "the word: %s is not in my Vocabulary!" % word
    # print "bagbagbag"
    return returnVec

def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pCi = sum(trainCategory)/float(numTrainDocs)
    p0Num = ones(numWords); p1Num = ones(numWords)      #change to ones()
    p0Denom = 2.0; p1Denom = 2.0                        #change to 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num/p1Denom)          #change to log()
    p0Vect = log(p0Num/p0Denom)          #change to log()
    print "training"
    return p0Vect,p1Vect,pCi

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #element-wise mult
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    # print "classifying"
    if p1 > p0:
        return 1
    else:
        return 0

def testingNB(lst_pos,lst_neg):
    listOPosts,listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat=[]
    pos_corre=[]
    neg_corre=[]
    for postinDoc in listOPosts:
        trainMat.append(bagOfWords2VecMN(myVocabList, postinDoc))
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
    for i in range(350):
        testEntry=lst_pos[i]
        thisDoc = array(bagOfWords2VecMN(myVocabList, testEntry))
        a=classifyNB(thisDoc,p0V,p1V,pAb)
        pos_corre.append(a)
    print("the positive text classify accuracy: {} ".format(1-sum(pos_corre)/350))
    print(sum(pos_corre))
    for i in range(350):
        testEntry = lst_neg[i]
        thisDoc = array(bagOfWords2VecMN(myVocabList, testEntry))
        a=classifyNB(thisDoc,p0V,p1V,pAb)
        neg_corre.append(a)
    print("the negative text classify accuracy: {} ".format(sum(neg_corre)/350))
    print(sum(neg_corre))
    print(p0V)
    print(p1V)
    print(pAb)

if __name__=='__main__':
    lst_pos,lst_neg=loadTestSet()
    testingNB(lst_pos,lst_neg)

Python貝葉斯演算法進行情感分析

from __future__ import division import re from numpy import ones, array from numpy.lib.scimath import log from nltk import * def loadDat

Python--基於樸素貝葉斯演算法的情感分類

環境 win8, python3.7, jupyter notebook 正文什麼是情感分析?(以下引用百度百科定義) 情感分析（Sentiment analysis），又稱傾向性分析，意見抽取（Opinion extraction），意見挖掘（Opinion mining），情感挖掘（Sentiment

python 貝葉斯演算法

python貝葉斯演算法(sklearn.naive_bayes)，會通過了解什麼是貝葉斯、貝葉斯公式推導、實際案例去講解。也同時記錄學習的過程幫組大家一起學習如果實際應該貝葉斯演算法去分析。貝葉斯解決問題介紹：貝葉斯演算法是英國數學家貝葉斯(約1701-

python資料分析與挖掘之貝葉斯演算法演算法實現

程式碼中有詳細的註釋訓練檔案： Txt檔案中為0，1矩陣，將圖片轉換為0，1矩陣見上一篇部落格方法 import numpy import operator from os import listdir class Bayes: def __init__(self):

小白python學習——機器學習篇——樸素貝葉斯演算法

一.大概思路： 1.找出資料集合，所有一個單詞的集合，不重複，各個文件。 2.把每個文件換成0,1模型，出現的是1，就可以得到矩陣長度一樣的各個文件。 3.計算出3個概率，一是侮辱性的文件概率，二是侮辱性文件中各個詞出現的概率，三是非侮辱性文件中各個詞出現的概率。 4.二、三計算方法

機器學習——樸素貝葉斯演算法Python實現

簡介這裡參考《統計學習方法》李航編進行學習總結。詳細演算法介紹參見書籍，這裡只說明關鍵內容。即條件獨立下：p{X=x|Y=y}=p{X1=x1|Y=y} * p{X2=x2|Y=y} *...* p{Xn=xn|Y=y} （4.4）等價於p{Y=ck|X=x

貝葉斯演算法及例項python實現

目錄計算過程: 貝葉斯簡介：貝葉斯(約1701-1761) Thomas Bayes，英國數學家貝葉斯方法源於他生前為解決一個“逆概”問題寫的一篇文章。貝葉斯要解決的問題：正向概率：假設袋子裡面有N個白球，M個黑球，你

樸素貝葉斯演算法的python實現

import numpy as np import re #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']

Python實現樸素貝葉斯演算法 --- 過濾垃圾郵件

# -*- coding:utf-8 -*- import numpy as np import random import re __author__ = 'yangxin' """ 過濾垃圾郵件 """ class FilterSpam(object): #

樸素貝葉斯演算法python實現

樸素貝葉斯是一種十分簡單的分類演算法，稱其樸素是因為其思想基礎的簡單性，就文字分類而言，他認為詞袋中的兩兩詞之間的關係是相互獨立的，即一個物件的特徵向量中的每個維度都是互相獨立的。這是樸素貝葉斯理論的思想基礎。樸素貝葉斯分類的正式定義：設x={}為一個待分類項，而每個a為x的一個特徵屬性有類別集合C={

樸素貝葉斯演算法之python實現　統計學習方法例4.2實戰

　本人在自學李航老師的統計學習方法，在學習樸素貝葉斯章節時，其中概念非常好理解，但是準備想把課本中的例題實戰一下時卻犯了難，有點無從下手的感覺，主要是因為怎麼去合理的去寫，提高程式碼的適應性以及重複利用率。　在網上找了蠻多部落格，大部分都是是判斷情感詞等，其中有篇部落

樸素貝葉斯演算法(Naive Bayes)演算法的python實現含原始碼

演算法原理不在贅述，請參考：將程式碼儲存為.py格式，預設使用的資料是程式碼檔案所在目錄下data目錄下的 bayes_train.txt 和bayes_test.txt 兩個檔案分別作為訓練樣例和測試樣例。以上引數可以在原始碼中修改，也可以使用命令列引數傳入，參考以

樸素貝葉斯演算法及Python的簡單實現

貝葉斯演算法起源於古典數學理論，是一種分類演算法的總稱。它以貝葉斯定理為基礎，假設某待分類的樣本滿足某種概率分佈，並且可以根據已觀察到的樣本資料對該樣本進行概率計算，以得出最優的分類決策。通過計算已觀察到的樣本資料估計某待分類樣本的先驗概率，利用貝葉斯公式計算出其後

樸素貝葉斯演算法 Python實現

本程式碼實現了樸素貝葉斯分類器（假設了條件獨立的版本），常用於垃圾郵件分類，進行了拉普拉斯平滑關於樸素貝葉斯演算法原理可以參考部落格中原理部分的博文。#!/usr/bin/python # -*- coding: utf-8 -*- from math import log

利用TFIDF實時微博情感分類-樸素貝葉斯演算法

最近自己在做一個基於樸素貝葉斯演算法的微博情感分類，首先樸素貝葉斯演算法的基本推到我這裡就不細說了。分類中我們一般會進行下面幾個步驟： 1 對我們的語料庫（訓練文字）進行分詞 2 對分詞之後的文字進行TF-IDF的計算（TF-IDF介紹可以參考這邊文章http://

sk-learn例項-用樸素貝葉斯演算法（Naive Bayes）對文字進行分類

簡介樸素貝葉斯（Naive Bayes）是一個非常簡單，但是實用性很強的分類模型，與基於線性假設的模型（線性分類器和支援向量機分類器）不同，樸素貝葉斯分類器的構造基礎是貝葉斯理論。抽象一些的說，樸素貝葉斯分類器會單獨考量每一維度特徵被分類的條件概率，進而綜合這些概率並對其所在的特

用Python Scikit-learn 實現機器學習十大演算法--樸素貝葉斯演算法（文末有程式碼）

1，前言很久不發文章，主要是Copy別人的總感覺有些不爽，所以整理些乾貨，希望相互學習吧。不囉嗦，進入主題吧，本文主要時說的為樸素貝葉斯分類演算法。與邏輯迴歸，決策樹一樣，是較為廣泛使用的有監督分類演算法，簡單且易於理解（號稱十大資料探勘演算法中最簡單的演算法）。但

Python實現樸素貝葉斯演算法 --- 遮蔽社群留言板的侮辱性言論

# -*- coding:utf-8 -*- import numpy as np __author__ = 'yangxin' """ 貝葉斯公式 p(xy)=p(x|y)p(y)=p(y|x)p(x) p(x|y)=p(y|x)p(x)/p(y) """ """ 遮蔽社

6步學會樸素貝葉斯演算法（包含python語言和R語言原始碼）

摘要假設你遇到下面這種情況：你正在研究分類問題，並且你已經生成了你的假設集，建立了特徵值，討論了變數的重要性。在一個小時內，利益相關者希望看到模型的第一個切割。你會怎麼做？你有數以千計個數據點，只有少數變數在你的訓練集裡面。在這種情況下，

python中如何使用樸素貝葉斯演算法

這裡再重複一下標題為什麼是"使用"而不是"實現"：首先，專業人士提供的演算法比我們自己寫的演算法無論是效率還是正確率上都要高。其次，對於數學不好的人來說，為了實現演算法而去研究一堆公式是很痛苦

Python貝葉斯演算法進行情感分析

相關推薦