基於Python的情感分析案例

阿新 • • 發佈：2018-12-27

情感分析：又稱為傾向性分析和意見挖掘，它是對帶有情感色彩的主觀性文字進行分析、處理、歸納和推理的過程，其中情感分析還可以細分為情感極性（傾向）分析，情感程度分析，主客觀分析等。

情感極性分析的目的是對文字進行褒義、貶義、中性的判斷。在大多應用場景下，只分為兩類。例如對於“喜愛”和“厭惡”這兩個詞，就屬於不同的情感傾向。

背景交代：爬蟲京東商城某一品牌紅酒下所有評論，區分好評和差評，提取特徵詞，用以區分新的評論【出現品牌名稱可以忽視，本文章不涉及打廣告哦 o(╯□╰)o】。

示例1（好評）
這裡寫圖片描述

示例2（差評）
這裡寫圖片描述

讀取文字檔案

def text():
     f1 = open('E:/工作檔案/情感分析案例1/good.txt' 
,'r',encoding='utf-8') 
     f2 = open('E:/工作檔案/情感分析案例1/bad.txt','r',encoding='utf-8')
     line1 = f1.readline()
     line2 = f2.readline()
     str = ''
     while line1:
         str += line1
         line1 = f1.readline()
     while line2:
         str += line2
         line2 = f2.readline()
     f1.close()
     f2.close()
     return 
 str

把單個詞作為特徵

def bag_of_words(words):
     return dict([(word,True) for word in words])

print(bag_of_words(text()))

這裡寫圖片描述

import nltk
from nltk.collocations import  BigramCollocationFinder
from nltk.metrics import  BigramAssocMeasures

把雙個詞作為特徵，並使用卡方統計的方法，選擇排名前1000的雙詞

def  bigram(words,score_fn=BigramAssocMeasures.chi_sq,n=1000 
):
     bigram_finder=BigramCollocationFinder.from_words(words)  #把文字變成雙詞搭配的形式
     bigrams = bigram_finder.nbest(score_fn,n)  #使用卡方統計的方法，選擇排名前1000的雙詞
     newBigrams = [u+v for (u,v) in bigrams]
     return bag_of_words(newBigrams)

print(bigram(text(),score_fn=BigramAssocMeasures.chi_sq,n=1000))

這裡寫圖片描述

把單個詞和雙個詞一起作為特徵

def  bigram_words(words,score_fn=BigramAssocMeasures.chi_sq,n=1000):
     bigram_finder=BigramCollocationFinder.from_words(words)
     bigrams = bigram_finder.nbest(score_fn,n)
     newBigrams = [u+v for (u,v) in bigrams]
     a = bag_of_words(words)
     b = bag_of_words(newBigrams)
     a.update(b)  #把字典b合併到字典a中
     return a 

print(bigram_words(text(),score_fn=BigramAssocMeasures.chi_sq,n=1000))

這裡寫圖片描述

結巴分詞工具進行分詞及詞性標註
三種分詞模式：
A、精確模式：試圖將句子最精確地切開，適合文字分析。預設是精確模式。
B、全模式：把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義
C、搜尋引擎模式：在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜尋引擎分詞
注：當指定jieba.cut的引數HMM=True時，就有了新詞發現的能力。

import jieba

def read_file(filename):
     stop = [line.strip() for line in  open('E:/工作檔案/情感分析案例1/stop.txt','r',encoding='utf-8').readlines()]  #停用詞
     f = open(filename,'r',encoding='utf-8')
     line = f.readline()
     str = []
     while line:
         s = line.split('\t')
         fenci = jieba.cut(s[0],cut_all=False)  #False預設值：精準模式
         str.append(list(set(fenci)-set(stop)))
         line = f.readline()
     return str

安裝nltk，pip3 install nltk

from nltk.probability import  FreqDist,ConditionalFreqDist
from nltk.metrics import  BigramAssocMeasures

獲取資訊量最高(前number個)的特徵(卡方統計)

def jieba_feature(number):   
     posWords = []
     negWords = []
     for items in read_file('E:/工作檔案/情感分析案例1/good.txt'):#把集合的集合變成集合
         for item in items:
            posWords.append(item)
     for items in read_file('E:/工作檔案/情感分析案例1/bad.txt'):
         for item in items:
            negWords.append(item)

     word_fd = FreqDist() #可統計所有詞的詞頻
     cond_word_fd = ConditionalFreqDist() #可統計積極文字中的詞頻和消極文字中的詞頻

     for word in posWords:
         word_fd[word] += 1
         cond_word_fd['pos'][word] += 1

     for word in negWords:
         word_fd[word] += 1
         cond_word_fd['neg'][word] += 1

     pos_word_count = cond_word_fd['pos'].N() #積極詞的數量
     neg_word_count = cond_word_fd['neg'].N() #消極詞的數量
     total_word_count = pos_word_count + neg_word_count

     word_scores = {}#包括了每個詞和這個詞的資訊量

     for word, freq in word_fd.items():
         pos_score = BigramAssocMeasures.chi_sq(cond_word_fd['pos'][word],  (freq, pos_word_count), total_word_count) #計算積極詞的卡方統計量，這裡也可以計算互資訊等其它統計量
         neg_score = BigramAssocMeasures.chi_sq(cond_word_fd['neg'][word],  (freq, neg_word_count), total_word_count) 
         word_scores[word] = pos_score + neg_score #一個詞的資訊量等於積極卡方統計量加上消極卡方統計量

     best_vals = sorted(word_scores.items(), key=lambda item:item[1],  reverse=True)[:number] #把詞按資訊量倒序排序。number是特徵的維度，是可以不斷調整直至最優的
     best_words = set([w for w,s in best_vals])
     return dict([(word, True) for word in best_words])

調整設定，分別從四種特徵選取方式開展並比較效果

def build_features():
     #feature = bag_of_words(text())#第一種：單個詞
     #feature = bigram(text(),score_fn=BigramAssocMeasures.chi_sq,n=500)#第二種：雙詞
     #feature =  bigram_words(text(),score_fn=BigramAssocMeasures.chi_sq,n=500)#第三種：單個詞和雙個詞
     feature = jieba_feature(300)#第四種：結巴分詞

     posFeatures = []
     for items in read_file('E:/工作檔案/情感分析案例1/good.txt'):
         a = {}
         for item in items:
            if item in feature.keys():
                a[item]='True'
         posWords = [a,'pos'] #為積極文字賦予"pos"
         posFeatures.append(posWords)
     negFeatures = []
     for items in read_file('E:/工作檔案/情感分析案例1/bad.txt'):
         a = {}
         for item in items:
            if item in feature.keys():
                a[item]='True'
         negWords = [a,'neg'] #為消極文字賦予"neg"
         negFeatures.append(negWords)
     return posFeatures,negFeatures

獲得訓練資料

posFeatures,negFeatures =  build_features()

from random import shuffle
shuffle(posFeatures) 
shuffle(negFeatures) #把文字的排列隨機化  
train =  posFeatures[300:]+negFeatures[300:]#訓練集(70%)
test = posFeatures[:300]+negFeatures[:300]#驗證集(30%)
data,tag = zip(*test)#分離測試集合的資料和標籤，便於驗證和測試

def score(classifier):
     classifier = SklearnClassifier(classifier) 
     classifier.train(train) #訓練分類器
     pred = classifier.classify_many(data) #給出預測的標籤
     n = 0
     s = len(pred)
     for i in range(0,s):
         if pred[i]==tag[i]:
            n = n+1
     return n/s #分類器準確度

這裡需要安裝幾個模組：scipy、numpy、sklearn
scipy及numpy模組需要訪問http://www.lfd.uci.edu/~gohlke/pythonlibs，找到scipy、numpy，下載對應版本的whl

import sklearn
from nltk.classify.scikitlearn import  SklearnClassifier
from sklearn.svm import SVC, LinearSVC,  NuSVC
from sklearn.naive_bayes import  MultinomialNB, BernoulliNB
from sklearn.linear_model import  LogisticRegression
from sklearn.metrics import  accuracy_score

print('BernoulliNB`s accuracy is %f'  %score(BernoulliNB()))
print('MultinomiaNB`s accuracy is %f'  %score(MultinomialNB()))
print('LogisticRegression`s accuracy is  %f' %score(LogisticRegression()))
print('SVC`s accuracy is %f'  %score(SVC()))
print('LinearSVC`s accuracy is %f'  %score(LinearSVC()))
print('NuSVC`s accuracy is %f'  %score(NuSVC()))

檢測結果輸出1（單個詞：每個字為特徵）
這裡寫圖片描述

檢測結果輸出2（詞[倆字]：2個字為特徵，使用卡方統計選取前n個資訊量大的作為特徵）
這裡寫圖片描述

檢測結果輸出3（單個詞和雙詞：把前面2種特徵合併之後的特徵）
這裡寫圖片描述

檢測結果輸出4（結巴分詞：用結巴分詞外加卡方統計選取前n個資訊量大的作為特徵）
這裡寫圖片描述

對比四種特徵選取方式可以看出，單字 - 詞 - 單字+詞 - 結巴分詞，效果是越來越好的。

基於keras 的 python情感分析案例IMDB影評情感分析

（來源-魏貞原老師的深度學習一書）情感分析是自然語言處理中很重要的一個方向，目的是讓計算機理解文字中包含的情感資訊。在這裡將通過IMDB(網際網路電影資料庫)收集的對電影評論的資料集，分析某部電影是一部好電影還是一部不好的電影，藉此研究情感分析問題。 1.匯入資料為了便於在模型訓練中

一個基於Python的情感分析案例

情感分析：又稱為傾向性分析和意見挖掘，它是對帶有情感色彩的主觀性文字進行分析、處理、歸納和推理的過程，其中情感分析還可以細分為情感極性（傾向）分析，情感程度分析，主客觀分析等。情感極性分析的目的是對文字進行褒義、貶義、中性的判斷。在大多應用場景下，只分為兩類。例如對於“喜

基於Python的情感分析案例

情感分析：又稱為傾向性分析和意見挖掘，它是對帶有情感色彩的主觀性文字進行分析、處理、歸納和推理的過程，其中情感分析還可以細分為情感極性（傾向）分析，情感程度分析，主客觀分析等。情感極性分析的目的是對文字進行褒義、貶義、中性的判斷。在大多應用場景下，只分為兩類

基於LVD、貝葉斯模型演算法實現的電商行業商品評論與情感分析案例

一、專案需求現在大家進行網購，在購物之前呢，肯定會看下相關商品的評論，看下好評和差評，然後再綜合衡量，最後才會決定是否購買相關的商品。對一個指定商品，生產商，賣家，買家認同該商品的哪些優點/不認同

【Python專案】基於文字情感分析的電商評論重排序（以京東為例）（附程式碼）

一、背景隨著網際網路的普及，網路購物已經成了人們購物的首選。使用者只需在電商平臺搜尋商品名，便可得到成百上千條商品資訊。商品資訊的排序演算法很複雜，但總的說來基本上都是根據與搜尋關鍵詞的關聯度和商品的人氣或商家排名來排序最終對使用者進行展示的。而好評率即是排

基於情感詞典的python情感分析

近期老師給我們安排了一個大作業，要求根據情感詞典對微博語料進行情感分析。於是在網上狂找資料，看相關書籍，終於搞出了這個任務。現在做做筆記，總結一下本次的任務，同時也給遇到有同樣需求的人，提供一點幫助。 1、情感分析含義情感分析指的是對新聞報道、商品評論、電影影評等文字資訊進行觀點提取、主題分析、情感挖掘。情

Python資料分析案例實戰

第一課：電力竊漏電使用者識別系統案例實戰第二課：公共交通運營資料分析案例實戰第三課：商圈分析案例實戰第四課：客戶價值分析案例實戰第五課：基於使用者行為分析的定向網路廣告投放案例實戰第六課：電子商務網站使用者行為分析與推薦系統案例實戰第七課：文字規律發現案例實戰第八課：電商產

【NLP】百度AI平臺自然語言處理API呼叫（情感分析案例）

首先先註冊登入百度AI平臺，自然語言處理是免費的，有5 QPS，夠用了，不夠用可以申請增加。我申請增加至10 QPS，通過得很快。相關配置準備找到百度AI平臺的NLP入口：看到自然語言處理點選進入進入之後跳轉到自然語言處理產品頁點選

[原始碼和文件分享]基於Python實現的論壇帖子情感分析

一、課程專案 Scuinfo文字分類分析二、專案類容爬取川大匿名社群SCUinfo在一段時間內的帖子，對其進行情感分類分析，包括情緒分類（積極，消極），帖子內容關聯分析等。三、個人工作完成報告 3.1 工作概述負責資料收集、預處理以及簡單的情感分析 3.2 爬蟲方

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分)

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分) 輸出結果 1、測試物件 data1= '今天上海的天氣真好！我的心情非常高興！如果去旅遊的話我會非常興奮！和你一起去旅遊我會更加幸福！' data2= '今天上海天氣真差,非常討厭下雨,把

機器學習演算法Python實現：基於情感詞典的文字情感分析

# -*- coding:utf-8 -* #本程式碼是在jupyter notebook上實現，author:huzhifei， create time:2018/8/14 #本指令碼主要實現了基於python通過已有的情感詞典對文字資料做的情感分析的專案目的 #匯入對應

基於Python分析金庸小說裏的主角，原來他才是真正的主角！

python 爬蟲 web開發編程入門粉絲獨白說起武俠小說，不得不提中國武俠小說三大宗師——金庸、梁羽生、古龍，從上世紀七八十年×××始，大量的武俠經典出現在熒幕之中。三位大師的文字作品幾乎都讀過，在學習Python和數據分析後又發現了很多好玩的東西，今天就用數據分析來探索一下武俠小

基於Python的南京二手房數據可視化分析

4.3 目的交易通過 http 爬蟲程序內存 atp 數據分析 1 內容簡介首先通過爬蟲采集鏈家網上所有南京二手房的房源數據，並對采集到的數據進行清洗；然後，對清洗後的數據進行可視化分析，探索隱藏在大量數據背後的規律；最後，采用一個聚類算法對所有二手房數據進行聚類分

基於python的發送郵件案例

sendmail 標題 odin 關閉 exce 賬號 exceptio () 返回 #coding:utf-8 #強制使用utf-8編碼格式 import smtplib #加載smtplib模塊 from email.mime.text import MIMEText

Python：電商產品評論數據情感分析，jieba分詞，LDA模型

數據分析 blank sdn github author roc dem pfile 軟件本節涉及自然語言處理（NLP），具體涉及文本數據采集、預處理、分詞、去停用詞、詞頻分析、LDA主題模型代碼部分 1 # -*- coding: utf-8 -*- 2 """

【python 走進NLP】利用SnowNLP 訓練自己的情感分析庫

介紹 SnowNLP是一個python寫的類庫，可以方便的處理中文文字內容。可以做很多事情，如：中文分詞（Character-Based Generative Model）詞性標註（TnT 3-gram 隱馬）情感分析（現在訓練資料主要是買賣東西時的評價，所以對其他的一些可能效

情感分析思想（基於各種詞典）

之前在實習時，Boss想利用情感分析實現“公司績效考核”問題，即從Boss對員工的評語中判斷該員工該月的績效值，屬情感分析領域。當時使用最簡單的基於情感詞典的方法解決，借鑑了這篇文章，在此基礎上對其進行修改，先講思路描述如下。 1 詞典準備情感詞典（BosonNLP情感詞典）

基於 LSTM 電影評論情感分析

0、前言 RNN網路因為使用了單詞的序列資訊，所以準確率要比前向傳遞神經網路要高。網路結構：首先，將單詞傳入 embedding層，之所以使用嵌入層，是因為單詞數量太多，使用嵌入式詞向量來表示單詞更有效率。在這裡我們使用word2vec方式來實現，而且特別神奇的是，我們只需

【機器學習演算法實現】主成分分析 PCA ——基於python+numpy

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

實戰案例-微博情感分析

實戰案例：微博情感分析資料：每個文字檔案包含相應類的資料 0：喜悅；1：憤怒；2：厭惡；3：低落步驟文字讀取分割訓練集、測試集特徵提取模型訓練、預測程式碼： tools.py # -*- coding: utf-8 -*- import re im

基於Python的情感分析案例

相關推薦