基於TextBlob簡單文字情感分析

阿新 • • 發佈：2018-11-30

如果已經安裝TextBlob,需要更新則需要執行：

$ pip install -U textblob nltk

如果第一次安裝TextBlob，你可能需要下載必要的NLTK語料庫。命令：

$ curl https://raw.github.com/sloria/TextBlob/master/download_corpora.py | python

使用此命令下載語料庫：

$ >python -m textblob.download_corpora

第1部分：一個Tweet情感分析器（簡單分類）

我們的第一個分類器將是一個簡單的情感分析器訓練的一個小資料集的假tweet。

首先，我們將匯入textblob.classifiers並建立一些訓練和測試資料。

from textblob.classifiers import NaiveBayesClassifier

train = [
    ('I love this sandwich.', 'pos'),
    ('This is an amazing place!', 'pos'),
    ('I feel very good about these beers.', 'pos'),
    ('This is my best work.', 'pos'),
    ("What an awesome view" 
, 'pos'),
    ('I do not like this restaurant', 'neg'),
    ('I am tired of this stuff.', 'neg'),
    ("I can't deal with this", 'neg'),
    ('He is my sworn enemy!', 'neg'),
    ('My boss is horrible.', 'neg')
]
test = [
    ('The beer was good.', 'pos'),
    ('I do not enjoy my job', 'neg'),
    ("I ain't feeling dandy today." 
, 'neg'),
    ("I feel amazing!", 'pos'),
    ('Gary is a friend of mine.', 'pos'),
    ("I can't believe I'm doing this.", 'neg')
]

我們通過將訓練資料傳遞給NaiveBayesClassifier的建構函式來建立一個新的分類器。
cl = NaiveBayesClassifier(train)

我們現在可以使用NaiveBayesClassifier.classify（text）方法對任意文字進行分類。

cl.classify("Their burgers are amazing")  # "pos"
cl.classify("I don't like their pizza.")  # "neg"

分類文字字串的另一種方法是使用TextBlob物件。您可以將分類器傳遞到TextBlob的建構函式中。

from textblob import TextBlob
blob = TextBlob("The beer was amazing. "
                "But the hangover was horrible. My boss was not happy.",
                classifier=cl)

然後，可以在blob上呼叫classify（）方法。

blob.classify()  # "neg"

還可以利用TextBlob句子標記化和單獨分類每個句子。

for sentence in blob.sentences:
    print(sentence)
    print(sentence.classify())
 "pos", "neg", "neg"

檢查測試集的準確性。

cl.accuracy(test)
# 0.83

我們還可以找到最豐富的功能：

cl.show_informative_features(5)
# Most Informative Features
#             contains(my) = True              neg : pos    =      1.7 : 1.0
#             contains(an) = False             neg : pos    =      1.6 : 1.0
#             contains(my) = False             pos : neg    =      1.3 : 1.0
#          contains(place) = False             neg : pos    =      1.2 : 1.0
#             contains(of) = False             pos : neg    =      1.2 : 1.0

第2部分：從NLTK新增更多資料

我們可以通過新增更多的訓練和測試資料來改進我們的分類器。在這裡，我們將新增從NLTK下載的電影評論語料庫的資料。

import random
from nltk.corpus import movie_reviews

reviews = [(list(movie_reviews.words(fileid)), category)
              for category in movie_reviews.categories()
              for fileid in movie_reviews.fileids(category)]
new_train, new_test = reviews[0:100], reviews[101:200]

現在看看這些文件中的各個部分是什麼含義。

print(new_train[0])

輸出:

(['kolya', 'is', 'one', 'of', 'the', 'richest', 'films', 'i', "'", 've', 'seen', 'in', 'some', 'time'
, '.', 'zdenek', 'sverak', 'plays', 'a', 'confirmed', 'old', 'bachelor', '(', 'who', "'", 's', 'likel
y', 'to', 'remain', 'so', ')', ',', 'who', 'finds', 'his', 'life', 'as', 'a', 'czech', 'cellist', 'in
creasingly', 'impacted', 'by', 'the', 'five', '-', 'year', 'old', 'boy', 'that', 'he', "'", 's', 'tak
ing', 'care', 'of', '.', 'though', 'it', 'ends', 'rather', 'abruptly', '--', 'and', 'i', "'", 'm', 'w
hining', ',', "'", 'cause', 'i', 'wanted', 'to', 'spend', 'more', 'time', 'with', 'these', 'character
s', '--', 'the', 'acting', ',', 'writing', ',', 'and', 'production', 'values', 'are', 'as', 'high', '
as', ',', 'if', 'not', 'higher', 'than', ',', 'comparable', 'american', 'dramas', '.', 'this', 'fathe
r', '-', 'and', '-', 'son', 'delight', '--', 'sverak', 'also', 'wrote', 'the', 'script', ',', 'while'
, 'his', 'son', ',', 'jan', ',', 'directed', '--', 'won', 'a', 'golden', 'globe', 'for', 'best', 'for
eign', 'language', 'film', 'and', ',', 'a', 'couple', 'days', 'after', 'i', 'saw', 'it', ',', 'walked
', 'away', 'an', 'oscar', '.', 'in', 'czech', 'and', 'russian', ',', 'with', 'english', 'subtitles',
'.'], 'pos')

請注意，與第1部分中的資料不同，文字以單詞列表的形式出現，而不是單個字串。 TextBlob是非常好的; 它將按預期處理這兩種形式的資料。

我們現在可以使用update（new_data）方法使用新的訓練資料更新我們的分類器，以及使用更大的測試資料集進行測試。

cl.update(new_train)
accuracy = cl.accuracy(test + new_test)

第3部分：語言檢測器（自定義特徵提取）

我還沒有提到的一個重要方面是如何從文字中提取要素。

對於給定的文件和訓練集訓練，TextBlob的預設行為是計算列車中存在哪些單詞。例如，句子“這只是一個肉體的傷口。可能有功能contains（flesh）：True，contains（wound）：True，並且包含（knight）：False。

當然，這個簡單的特徵提取器可能不適合於所有問題。在這裡，我們將為語言檢測器建立一個自定義特徵提取器。

這裡是訓練和測試資料。

train = [
    ("amor", "spanish"),
    ("perro", "spanish"),
    ("playa", "spanish"),
    ("sal", "spanish"),
    ("oceano", "spanish"),
    ("love", "english"),
    ("dog", "english"),
    ("beach", "english"),
    ("salt", "english"),
    ("ocean", "english")
]
test = [
    ("ropa", "spanish"),
    ("comprar", "spanish"),
    ("camisa", "spanish"),
    ("agua", "spanish"),
    ("telefono", "spanish"),
    ("clothes", "english"),
    ("buy", "english"),
    ("shirt", "english"),
    ("water", "english"),
    ("telephone", "english")
]

243/5000
特徵提取器只是一個函式，它接受引數文字（從中提取特徵的文字）並返回特徵字典。

讓我們建立一個非常簡單的提取器，它使用給定單詞的最後一個字母作為其唯一的特徵。

def extractor(word):
    feats = {}
    last_letter = word[-1]
    feats["last_letter({0})".format(last_letter)] = True
    return feats

print(extractor("python"))  # {'last_letter(n)': True}

我們可以將此特徵提取器作為NaiveBayesClassifier的建構函式的第二個引數。

lang_detector = NaiveBayesClassifier(train, feature_extractor=extractor)

計算結果:

lang_detector.accuracy(test)  # 0.7
lang_detector.show_informative_features(5)
# Most Informative Features
#           last_letter(o) = None           englis : spanis =      1.6 : 1.0
#           last_letter(l) = None           englis : spanis =      1.2 : 1.0
#           last_letter(n) = None           spanis : englis =      1.2 : 1.0
#           last_letter(h) = None           spanis : englis =      1.2 : 1.0
#           last_letter(e) = None           spanis : englis =      1.2 : 1.0

毫無疑問，不以字母“o”結尾的單詞往往是英語。

結論

TextBlob使得建立自己的自定義文字分類器變得容易。永遠記住，機器學習不是那麼容易，每一個問題都需要大量的實驗。

基於TextBlob簡單文字情感分析

如果已經安裝TextBlob,需要更新則需要執行： $ pip install -U textblob nltk 如果第一次安裝TextBlob，你可能需要下載必要的NLTK語料庫。命令： $ curl https://raw.github.com/sloria

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分)

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分) 輸出結果 1、測試物件 data1= '今天上海的天氣真好！我的心情非常高興！如果去旅遊的話我會非常興奮！和你一起去旅遊我會更加幸福！' data2= '今天上海天氣真差,非常討厭下雨,把

深度學習----基於keras的LSTM三分類的文字情感分析原理及程式碼

文章目錄背景介紹理論介紹 RNN應用場景 word2vec 演算法 Word2Vec：高維來了句向量資料預處理與詞向量模型訓練 LS

【Python專案】基於文字情感分析的電商評論重排序（以京東為例）（附程式碼）

一、背景隨著網際網路的普及，網路購物已經成了人們購物的首選。使用者只需在電商平臺搜尋商品名，便可得到成百上千條商品資訊。商品資訊的排序演算法很複雜，但總的說來基本上都是根據與搜尋關鍵詞的關聯度和商品的人氣或商家排名來排序最終對使用者進行展示的。而好評率即是排

資料探勘——基於R文字情感分析（2）

姑且算是搞定了這個。最後使用的是在twitter中搜索。因為callback url的關係，之前一直無法直接搜尋twitter內容，今天直接把callback url刪除了就成功了。推薦兩個很好的

樸素貝葉斯分類器簡單實現文字情感分析

樸素貝葉斯的一般過程： ① 收集資料：可以使用任何方法。 ② 準備資料：需要數值型或者布林型資料。 ③ 分析資料：有大量特徵時，繪製特徵作用不大，此時使用直方圖效果更好。 ④ 訓練演算法：計算不同的獨立特徵的條件概率。 ⑤ 測試演算法：計算錯誤率。 ⑥ 使用演算法：一個常見

基於tensorflow的CNN和LSTM文字情感分析對比（附完整程式碼）

如今科技日益發展、網路技術不斷深入到大眾生活中，貼吧、網站、電子郵件，使用者評論等使得人們有更多的便捷方式在網路中發表自己的意見和看法。這些數量龐大的文字中的情感資訊有著極大的研究價值和實用價值。而如何能夠從眾多文字資訊和資料中準確而高效地分析出文字中所蘊含的情感，並判斷情感極性，對情感做出分類，是

機器學習演算法Python實現：基於情感詞典的文字情感分析

# -*- coding:utf-8 -* #本程式碼是在jupyter notebook上實現，author:huzhifei， create time:2018/8/14 #本指令碼主要實現了基於python通過已有的情感詞典對文字資料做的情感分析的專案目的 #匯入對應

文字情感分析(一)：基於詞袋模型(VSM和LSA)和n-gram的文字表示

現在自然語言處理用深度學習做的比較多，我還沒試過用傳統的監督學習方法做分類器，比如SVM、Xgboost、隨機森林，來訓練模型。因此，用Kaggle上經典的電影評論情感分析題，來學習如何用傳統機器學習方法解決分類問題。通過這個情感分析的題目，我會整理做特徵工程、引數調優和模型融合的方法，這一系列會有四篇文

文字情感分析(二)：基於word2vec和glove詞向量的文字表示

上一篇部落格用詞袋模型，包括詞頻矩陣、Tf-Idf矩陣、LSA和n-gram構造文字特徵，做了Kaggle上的電影評論情感分類題。這篇部落格還是關於文字特徵工程的，用詞嵌入的方法來構造文字特徵，也就是用word2vec詞向量和glove詞向量進行文字表示，訓練隨機森林分類器。一、訓練word2vec詞

基於 LSTM 電影評論情感分析

0、前言 RNN網路因為使用了單詞的序列資訊，所以準確率要比前向傳遞神經網路要高。網路結構：首先，將單詞傳入 embedding層，之所以使用嵌入層，是因為單詞數量太多，使用嵌入式詞向量來表示單詞更有效率。在這裡我們使用word2vec方式來實現，而且特別神奇的是，我們只需

Deeplearning4j 實戰（6）：基於LSTM的文字情感識別及其Spark實現

在做機器學習的各種應用中，文字分類是比較典型的一種。比如，微博的分類，電商中商品評價的好壞分類，新聞的分類等等。同時，文字作為一種重要的特徵，也在CTR預估，推薦等應用中起著作用。就文字分類這個應用而言，通常的做法是基於詞袋模型和詞向量模型來進行。基於詞袋（Bag of Words）的模型的話，一般

[TensorFlow深度學習深入]實戰三·分別使用DNN,CNN與RNN(LSTM)做文字情感分析(機器如何讀懂人心)

[TensorFlow深度學習深入]實戰三·使用Word2Vec與RNN(LSTM)做文字情感分析(機器如何讀懂人心) 用到了 DNN CNN Word2Vec RNN(LSTM) 不太清楚的可以回顧我們之前的博文。使用了全連線,卷積神經網路與迴

python的中文文字挖掘庫snownlp進行購物評論文字情感分析例項

昨晚上發現了snownlp這個庫，很開心。先說說我開心的原因。我本科畢業設計做的是文字挖掘，用R語言做的，發現R語言對文字處理特別不友好，沒有很多強大的庫，特別是針對中文文字的，加上那時候還沒有學機器學習演算法。所以很頭疼，後來不得已用了一個視覺化的軟體R

[lingpipe學習筆記]基於LingPipe的文字傾向性分析

lingpipe是一個非常全面的自然語言處理工具包，它包含很多自然語言處理常用的功能，如命名實體識別，分詞，詞性標註，分類聚類等。下文主要講述的是將lingpipe用到文字傾向性分析。文字傾向性分析轉自：http://www.cnblogs.com/htynkn/archive/2012/06/17/l

NLP ---文字情感分析

前面幾節我們詳細的研究了文字分析的相關演算法，本節將簡單介紹一下基於文字的情感分析方面的內容，本節更多是論述方面的內容，這個方向的演算法基本都是我們前面學過的，原理就不詳細的講解了，如果有感興趣的朋友可以自行查閱資料進行研究，這裡就不在詳細的講解了，以後如果工作中遇到相關的在詳細的研究一下，下面

自然語言處理—文字情感分析

自然語言處理（NLP）中的文字情感分析是一個重要的應用領域，多用於評價性的使用者資訊回饋，如電影影評和購物後的評價。而情感分析主要是通過使用者的回答文字資料（中文），進行文字情感量化分析，現有的情感分析方法：1.情感詞典分析方法。2.機器學習分析方法。情

文字情感分析之情感極性分析

「NLP」最為目前及其火熱的一個領域，已經逐漸滲透進越來越多產業的各項業務中，不知死活的胖子決定對常用的應用功能挨個進行嘗試，死活不論……0. 介紹「情感極性分析」是對帶有感情色彩的主觀性文字進行分析、處理、歸納和推理的過程。按照處理文字的類別不同，可分為基於新聞評論的情感分析和基於產品評論的情感分析。其中，

【nlp】文字情感分析

基於詞典的情感分析情感分析物件的粒度最小是詞彙，但是表達一個情感的最基本的單位則是句子，詞彙雖然能描述情感的基本資訊，但是單一的詞彙缺少物件，缺少關聯程度，並且不同的詞彙組合在一起所得到的情感程度不同甚至情感傾向都相反。所以以句子為最基本的情感分析粒度是較為

Python做文字情感分析之情感極性分析

導語「NLP」最為目前及其火熱的一個領域，已經逐漸滲透進越來越多產業的各項業務中，不知死活的胖子決定對常用的應用功能挨個進行嘗試，死活不論……0. 介紹「情感極性分析」是對帶有感情色彩的主觀性文字進行分析、處理、歸納和推理的過程。按照處理文字的類別不同，可分為基於新聞評論的情感分析和基於產品評論的情感分析。其

基於TextBlob簡單文字情感分析

第1部分：一個Tweet情感分析器（簡單分類）

第2部分：從NLTK新增更多資料

第3部分：語言檢測器（自定義特徵提取）

結論

相關推薦