情感分析——深入snownlp原理和實踐
一、snownlp簡介
snownlp是什麼?
SnowNLP是一個python寫的類庫,可以方便的處理中文文字內容,是受到了TextBlob的啟發而寫的,由於現在大部分的自然語言處理庫基本都是針對英文的,於是寫了一個方便處理中文的類庫,並且和TextBlob不同的是,這裡沒有用NLTK,所有的演算法都是自己實現的,並且自帶了一些訓練好的字典。注意本程式都是處理的unicode編碼,所以使用時請自行decode成unicode。
以上是官方對snownlp的描述,簡單地說,snownlp是一箇中文的自然語言處理的Python庫,支援的中文自然語言操作包括:
- 中文分詞
- 詞性標註
- 情感分析
- 文字分類
- 轉換成拼音
- 繁體轉簡體
- 提取文字關鍵詞
- 提取文字摘要
- tf,idf
- Tokenization
- 文字相似
在本文中,將重點介紹snownlp中的情感分析(Sentiment Analysis)。
二、snownlp情感分析模組的使用
2.1、snownlp庫的安裝
snownlp的安裝方法如下:
pip install snownlp
2.2、使用snownlp情感分析
利用snownlp進行情感分析的程式碼如下所示:
#coding:UTF-8
import sys
from snownlp import SnowNLP
def read_and_analysis (input_file, output_file):
f = open(input_file)
fw = open(output_file, "w")
while True:
line = f.readline()
if not line:
break
lines = line.strip().split("\t")
if len(lines) < 2:
continue
s = SnowNLP(lines[1].decode('utf-8'))
# s.words 查詢分詞結果
seg_words = ""
for x in s.words:
seg_words += "_"
seg_words += x
# s.sentiments 查詢最終的情感分析的得分
fw.write(lines[0] + "\t" + lines[1] + "\t" + seg_words.encode('utf-8') + "\t" + str(s.sentiments) + "\n")
fw.close()
f.close()
if __name__ == "__main__":
input_file = sys.argv[1]
output_file = sys.argv[2]
read_and_analysis(input_file, output_file)
上述程式碼會從檔案中讀取每一行的文字,並對其進行情感分析並輸出最終的結果。
注:庫中已經訓練好的模型是基於商品的評論資料,因此,在實際使用的過程中,需要根據自己的情況,重新訓練模型。
2.3、利用新的資料訓練情感分析模型
在實際的專案中,需要根據實際的資料重新訓練情感分析的模型,大致分為如下的幾個步驟:
- 準備正負樣本,並分別儲存,如正樣本儲存到
pos.txt
,負樣本儲存到neg.txt
; - 利用snownlp訓練新的模型
- 儲存好新的模型
重新訓練情感分析的程式碼如下所示:
#coding:UTF-8
from snownlp import sentiment
if __name__ == "__main__":
# 重新訓練模型
sentiment.train('./neg.txt', './pos.txt')
# 儲存好新訓練的模型
sentiment.save('sentiment.marshal')
注意:若是想要利用新訓練的模型進行情感分析,需要修改程式碼中的呼叫模型的位置。
data_path = os.path.join(os.path.dirname(os.path.abspath(__file__)),'sentiment.marshal')
三、snownlp情感分析的原始碼解析
snownlp中支援情感分析的模組在sentiment
資料夾中,其核心程式碼為__init__.py
如下是Sentiment類的程式碼:
class Sentiment(object):
def __init__(self):
self.classifier = Bayes() # 使用的是Bayes的模型
def save(self, fname, iszip=True):
self.classifier.save(fname, iszip) # 儲存最終的模型
def load(self, fname=data_path, iszip=True):
self.classifier.load(fname, iszip) # 載入貝葉斯模型
# 分詞以及去停用詞的操作
def handle(self, doc):
words = seg.seg(doc) # 分詞
words = normal.filter_stop(words) # 去停用詞
return words # 返回分詞後的結果
def train(self, neg_docs, pos_docs):
data = []
# 讀入負樣本
for sent in neg_docs:
data.append([self.handle(sent), 'neg'])
# 讀入正樣本
for sent in pos_docs:
data.append([self.handle(sent), 'pos'])
# 呼叫的是Bayes模型的訓練方法
self.classifier.train(data)
def classify(self, sent):
# 1、呼叫sentiment類中的handle方法
# 2、呼叫Bayes類中的classify方法
ret, prob = self.classifier.classify(self.handle(sent)) # 呼叫貝葉斯中的classify方法
if ret == 'pos':
return prob
return 1-probclass Sentiment(object):
def __init__(self):
self.classifier = Bayes() # 使用的是Bayes的模型
def save(self, fname, iszip=True):
self.classifier.save(fname, iszip) # 儲存最終的模型
def load(self, fname=data_path, iszip=True):
self.classifier.load(fname, iszip) # 載入貝葉斯模型
# 分詞以及去停用詞的操作
def handle(self, doc):
words = seg.seg(doc) # 分詞
words = normal.filter_stop(words) # 去停用詞
return words # 返回分詞後的結果
def train(self, neg_docs, pos_docs):
data = []
# 讀入負樣本
for sent in neg_docs:
data.append([self.handle(sent), 'neg'])
# 讀入正樣本
for sent in pos_docs:
data.append([self.handle(sent), 'pos'])
# 呼叫的是Bayes模型的訓練方法
self.classifier.train(data)
def classify(self, sent):
# 1、呼叫sentiment類中的handle方法
# 2、呼叫Bayes類中的classify方法
ret, prob = self.classifier.classify(self.handle(sent)) # 呼叫貝葉斯中的classify方法
if ret == 'pos':
return prob
return 1-prob
從上述的程式碼中,classify
函式和train
函式是兩個核心的函式,其中,train
函式用於訓練一個情感分類器,classify
函式用於預測。在這兩個函式中,都同時使用到的handle
函式,handle
函式的主要工作為:
- 對輸入文字分詞
- 去停用詞
情感分類的基本模型是貝葉斯模型Bayes
,對於貝葉斯模型,可以參見文章簡單易學的機器學習演算法——樸素貝葉斯。對於有兩個類別和的分類問題來說,其特徵為,特徵之間是相互獨立的,屬於類別的貝葉斯模型的基本過程為:
其中:
3.1、貝葉斯模型的訓練
貝葉斯模型的訓練過程實質上是在統計每一個特徵出現的頻次,其核心程式碼如下:
def train(self, data):
# data 中既包含正樣本,也包含負樣本
for d in data: # data中是list
# d[0]:分詞的結果,list
# d[1]:正/負樣本的標記
c = d[1]
if c not in self.d:
self.d[c] = AddOneProb() # 類的初始化
for word in d[0]: # 分詞結果中的每一個詞
self.d[c].add(word, 1)
# 返回的是正類和負類之和
self.total = sum(map(lambda x: self.d[x].getsum(), self.d.keys())) # 取得所有的d中的sum之和
這使用到了AddOneProb
類,AddOneProb
類如下所示:
class AddOneProb(BaseProb):
def __init__(self):
self.d = {}
self.total = 0.0
self.none = 1 # 預設所有的none為1
# 這裡如果value也等於1,則當key不存在時,累加的是2
def add(self, key, value):
self.total += value
# 不存在該key時,需新建key
if not self.exists(key):
self.d[key] = 1
self.total += 1
self.d[key] += value
注意:
- none的預設值為1
- 當key不存在時,total和對應的d[key]累加的是1+value,這在後面預測時需要用到
AddOneProb
類中的total表示的是正類或者負類中的所有值;train函式中的total表示的是正負類的total之和。
當統計好了訓練樣本中的total和每一個特徵key的d[key]後,訓練過程就構建完成了。
3.2、貝葉斯模型的預測
預測的過程使用到了上述的公式,即:
對上述的公式簡化:
相關推薦
情感分析——深入snownlp原理和實踐
一、snownlp簡介 snownlp是什麼? SnowNLP是一個python寫的類庫,可以方便的處理中文文字內容,是受到了TextBlob的啟發而寫的,由於現在大部分的自然語言處理庫基本都是針對英文的,於是寫了一個方便處理中文的類庫,並且和Text
R語言︱情感分析—詞典型代碼實踐(最基礎)(一)
text cto 關於 ora 訓練集 其他 查找 rap boa R語言︱情感分析—基於監督算法R語言實現筆記。 可以與博客 R語言︱詞典型情感分析文本操作技巧匯總(打標簽、詞典與數據匹配等)對著看。 詞典型情感分析大致有以下幾個步驟: 訓練數據集、neg/pos情感
Android外掛化原理和實踐 (四) 之 合併外掛中的資源
我們繼續來學習Android外掛化相關知識,還是要圍繞著三個根本問題來展開。在前面兩章中已經講解過第一個根本問題:在宿主中如何去載入外掛以及呼叫外掛中類和元件程式碼。Demo中使用了Service來演示,因為還沒有解決載入外掛中資源的問題,用Activity不好展示。所以本文將要從資源的載入機制
深入FFM原理與實踐
FM和FFM模型是最近幾年提出的模型,憑藉其在資料量比較大並且特徵稀疏的情況下,仍然能夠得到優秀的效能和效果的特性,屢次在各大公司舉辦的CTR預估比賽中獲得不錯的戰績。美團點評技術團隊在搭建DSP的過程中,探索並使用了FM和FFM模型進行CTR和CVR預估,並且取得了不錯的效
Android外掛化原理和實踐 (七) 之 專案實踐
我們在前面一系列文章中已經介紹完了外掛化原理以及三個根本問題的解決方案,本文主要就是作為前面幾篇文章的一個總結,通過專案實踐將前面的知識點串起來使完成一個入門級簡單的外掛化工程以及在實際外掛化開發中遇到的一些總結。 實踐 我們先通過Android Studio建立一個工程,工程中包括了兩
Socket通訊原理和實踐
也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興! 我們深諳資訊交流的價值,那網路中程序之間如何通訊,如我們每天開啟瀏覽器瀏覽網頁時,瀏覽器的程序怎麼與web伺服器通訊的?當你用QQ聊天時,QQ程序怎麼與伺服器或
Android外掛化原理和實踐 (八) 之 注意事項
注意事項 關於外掛化的三個根本問題和解決方案就已經全部介紹完畢了,前一篇文章也通過一個入門級的工程來完整地演示了。但是其實目前熱門的外掛化框架也遠不止這些內容,我們在實際開發中也遠不止這麼簡單。前面介紹的所有知識點只是一個入門而已,外掛化雖然帶來了很多便利,但是在開發過程中也增添了不少麻煩和
Android外掛化原理和實踐 (六) 之 四大元件解決方案
在前面的幾篇文章中已經介紹完了Android外掛化的第一和第二個根本問題,就是宿主和外掛的程式碼互相呼叫問題和外掛中資源的讀取問題。現剩下的就是Android外掛化裡最麻煩的第三個根本問題,也就是在外掛中使用四大元件的問題。我們知道,目前外掛中的四大元件要想正常使用就必須要在宿主中的Androi
Android外掛化原理和實踐 (五) 之 解決合併資源後資源Id衝突的問題
Android外掛化中,要解決資源的問題,有些外掛化框架會選擇不合並資源,這樣就得維護多套mResources變數,這樣的話難免開發上沒有那麼的靈活和方便。所以一般地都是選擇合併資源,也就是我們上一遍文章《Android外掛化原理和實踐 (四) 之 合併外掛中的資源》介紹的辦法。但是合併後資源i
Android外掛化原理和實踐 (三) 之 載入外掛中的元件程式碼
我們在上一篇文章《Android外掛化原理和實踐 (二) 之 載入外掛中的類程式碼》中埋下了一個懸念,那就是通過構造一個DexClassLoader物件後使用反射只能反射出普通的類,而不能正常使用四大元件,因為會報出異常。今天我們就來解開這個懸念和提出解決方法。 1 揭開懸念 還記得《A
Android外掛化原理和實踐 (二) 之 載入外掛中的類程式碼
我們在上一篇文章《Android外掛化原理和實踐 (一)之 外掛化簡介和基本原理簡述》中介紹了外掛化一些基本知識和歷史,最後還列出了三個根本問題。接下來我們打算圍繞著這三個根本問題展開對外掛化的學習。首先本章將介紹第一個根本問題:宿主和外掛中如何相互呼叫程式碼。要實現它們相互呼叫,就得要宿主先將
Android外掛化原理和實踐 (一) 之 外掛化簡介和基本原理簡述
1 外掛化簡介 Android外掛化技術是一種這幾年間非常火爆的技術,也是隻有在中國才流行起來的技術,這幾年間每每開發者大會上幾乎都會提起關於外掛化技術和相關方向。在國內各大網際網路公司無不都有自己的外掛化框架。 外掛化技術到底是什麼? 其實很好理解,像某些App中整合了很多功能點,
kafka原理和實踐(三)spring-kafka生產者原始碼
正文系列目錄 本文目錄 1.kafkaProducer傳送模型2.KafkaTemplate傳送模板3.KafkaProducer 3.1KafkaProducer構造過程 3.2 KafkaProducer傳送資料 ==============正文分割線==================
Spring Cloud + Kubernetes 微服務框架原理和實踐
早在半年前,公司開始推行容器化部署方案 AppOS,雖然釋出介面過於極客,十分晦澀,不過仔細研究起來真的覺得十分強大,容器化推行後,計算資源(CPU、記憶體)的利用率可以極大提高,降低伺服器數量,從而節約技術成本。恰巧,若干個朋友所在創業公司最近也在嘗試做微服務、容器化。架構
kafka原理和實踐(四)spring-kafka消費者原始碼
正文系列目錄 ==============正文分割線===================== 回到頂部一、kafkaConsumer消費者模型 如上圖所示,spring-kafka消費者模型主要流程: 1.容器啟動,輪詢執行消費。 2.kafkaConsumer拉取訊息流程: 1)Fetc
JVM——深入解析原理和執行機制(一)類載入過程
隔了好久終於把這篇文章補上了,最近在看《深入理解Java虛擬機器》,一本很不錯的書,必須值得一看。 由於本人對Java類的載入過程一直是一知半解,所以優先看了一下
JVM——深入解析原理和執行機制(一)類載入器
上次我們說了一下jvm中類載入的過程,大概有載入,連線(驗證,準備,解析),初始化這麼幾個步驟,當然要實現這些功能就需要有載入器,今天我們就來說說jvm中的類載入器。 一、分類
Exp3 免殺原理和實踐
kali 圖片 總結 成本 jpg 問題: http 幫助 class 一、基礎問題回答 1.殺軟是如何檢測出惡意代碼的? (1)基於特征碼的檢測 特征碼是能識別一個程序是一個病毒的一段不大於64字節的特征串。如果一個可執行文件包含這樣的特征碼則被殺毒軟件檢測為
NLP之情感分析:SnowNLP
blog bash 提取關鍵字 用戶 nic 你們 nltk .cn 推薦 一 安裝與介紹 SnowNLP是一個python寫的類庫,可以方便的處理中文文本內容,是受到了TextBlob的啟發而寫的,由於現在大部分的自然語言處理庫基本都是針對英文的,於是寫了一個方便處理中文
給面試官講明白:一致性Hash的原理和實踐
“一致性hash的設計初衷是解決分散式快取問題,它不僅能起到hash作用,還可以在伺服器宕機時,儘量少地遷移資料。因此被廣泛用於狀態服務的路由功能” 01分散式系統的路由演算法 假設有一個訊息推送系統,其簡易架構如下 ) 裝置接入層不僅要接收裝置的登入、下線等狀態命令,還要把開發者的訊息推送給裝置。這個時