情感分析思想(基於各種詞典)
之前在實習時,Boss想利用情感分析實現“公司績效考核”問題,即從Boss對員工的評語中判斷該員工該月的績效值,屬情感分析領域。
當時使用最簡單的基於情感詞典的方法解決,借鑑了這篇文章,在此基礎上對其進行修改,先講思路描述如下。
1 詞典準備
- 情感詞典(BosonNLP情感詞典)
- 停用詞典
- 否定詞典
- 程度副詞詞典
注:情感詞典內包含詞語以及對應的情感值;停用詞典只包含停用詞語;否定詞典只包含否定詞語;程度副詞詞典內包含詞語及對應的程度值。
2 實施步驟
整體步驟如下:
- 分詞(jieba),去停用詞;
- 構建詞語序列;
- 對詞語序列結果分類,找出情感詞、否定詞、程度副詞;
- 計算得分。
其中計算得分的具體步驟如下:
- 找出所有情感詞的下標,構建新片語;
- 新片語構建方法:該情感詞與前一情感詞之間的否定詞及程度副詞 + 該情感詞(第一個情感詞前至句首);
- 計算:程度副詞的程度值 × 情感詞的情感值,每有一個否定詞,使該式 × -1;
- 句子累加。
缺點:
- 沒有考慮詞義,特別對於“標題黨”來講,結果差距巨大。但這種情況都需要使用深度學習的方法才能有效解決,普通機器學習方法也是很難的。
- 對於正負向文字的判斷,該演算法忽略了很多其他的否定詞、程度副詞和情感詞搭配的情況;用於判斷情感強弱也過於簡單。
相關推薦
情感分析思想(基於各種詞典)
之前在實習時,Boss想利用情感分析實現“公司績效考核”問題,即從Boss對員工的評語中判斷該員工該月的績效值,屬情感分析領域。 當時使用最簡單的基於情感詞典的方法解決,借鑑了這篇文章,在此基礎上對其進行修改,先講思路描述如下。 1 詞典準備 情感詞典(BosonNLP情感詞典)
基於tensorflow的CNN和LSTM文字情感分析對比(附完整程式碼)
如今科技日益發展、網路技術不斷深入到大眾生活中,貼吧、網站、電子郵件,使用者評論等使得人們有更多的便捷方式在網路中發表自己的意見和看法。這些數量龐大的文字中的情感資訊有著極大的研究價值和實用價值。而如何能夠從眾多文字資訊和資料中準確而高效地分析出文字中所蘊含的情感,並判斷情感極性,對情感做出分類,是
菜鳥帶你看原始碼——看不懂你打我ArrayList原始碼分析(基於java 8)
文章目錄 看原始碼並不難 軟體環境 成員變數: 構造方法 核心方法 get方法 remove方法 add方法 結束 看原始碼並不難 如何學好程式設計?如何寫出優質的程式碼?如
LinkedHashMap及其原始碼分析(基於JDK1.7)
LinkedHashMap及其原始碼分析 閱讀目錄 什麼是LinkedHashMap LinkedHashMap補充說明 LinkedHashMap的陣列結構 LinkedHashMap繼承的類與實現的介面 LinkedHashMap原始碼中雙向連結串列的
java集合之----ArrayList原始碼分析(基於jdk1.8)
一、ArrayList 1、ArrayList是什麼: ArrayList就是動態陣列,用MSDN中的說法,就是Array的複雜版本,它提供了動態的增加和減少元素,實現了ICollection和IList介面,靈活的設定陣列的大小等好處,實現了Randomaccess介面,支援快速隨
情感分析系統(預測使用者評論積極或消極的概率)
1.資料預處理 本部分將要完成資料的預處理過程,包括資料的讀取,資料清洗,分詞,以及把文字轉換成tf-idf向量。在接下來的任務中,正面的情感我們標記為1, 負面的情感我們標記成0。 import re import jieba import numpy as np def pro
《深入理解Spark:核心思想與原始碼分析》(第2章)
《深入理解Spark:核心思想與原始碼分析》一書第一章的內容請看連結《第1章 環境準備》 本文主要展示本書的第2章內容: Spark設計理念與基本架構 “若夫乘天地之正,而御六氣之辯,以遊無窮者,彼且惡乎待哉?” ——《莊子·逍遙遊》 n本章導讀: 上一章,介紹了Spark環境的搭建,為方便讀
HashMap原始碼分析(基於1.8)
HashMap1.7和1.8變動比較多。 關於HashMap 1.7的版本,倪升武的部落格總結的很好。 這裡我主要來介紹一下1.8中的HashMap。由於HashMap原始碼太長,我只挑選了部分進行分析,如果有沒有分析到的重點難點或者大家有疑問的地方,希望大
java基礎系列之ConcurrentHashMap源碼分析(基於jdk1.8)
threshold 主存 類比 tile num method 過程 參數 nsf 1、前提 在閱讀這篇博客之前,希望你對HashMap已經是有所理解的;另外你對java的cas操作也是有一定了解的,因為在這個類中大量使用到了cas相關的操作來保證線程安全的。
【設計模式】第一篇:概述、耦合、UML、七大原則,詳細分析總結(基於Java)
![](//p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/879cf035c7c044469f3589610c4ba7f8~tplv-k3u1fbpfcp-zoom-1.image) 迷茫了一週,一段時間重複的 CRUD ,著實讓我有點煩悶,最近打算將這些技術棧系列的文
轉: 【Java並發編程】之十八:第五篇中volatile意外問題的正確分析解答(含代碼)
深入 規則 rup lis con method 執行 change .text 轉載請註明出處:http://blog.csdn.net/ns_code/article/details/17382679 在《Java並發編程學習筆記之五:volatile變量修
幾大排序思想(由javascript編寫)
quick 交換 ice 最大數 splay 分享 javascrip text emp Hello!我是super喵二~~~今天練了幾道面試題,突然覺得好久沒有好好歸納 過排序算法了。以前都是用C/java編寫排序,這次用js來總結下五大排序算法吧: 1、冒泡排序(常用
【機器學習】主成分分析PCA(Principal components analysis)
大小 限制 總結 情況 pca 空間 會有 ges nal 1. 問題 真實的訓練數據總是存在各種各樣的問題: 1、 比如拿到一個汽車的樣本,裏面既有以“千米/每小時”度量的最大速度特征,也有“英裏/小時”的最大速度特征,
陰陽師輔助(基於按鍵精靈)
的人 rdp 識別 left 功能 可能 分享 按鍵 截圖 其實這篇文章好早就像寫了,可是我這種拖延癥晚期的人啊,做什麽事都是拖拖拉拉的,最近玩火號被封了,才想起這件事…好了好了,廢話不說了。 首先是按鍵精靈,經常玩遊戲的人可能會認識,一個神奇的腳本軟件,可以說是完全基於圖
ArrayList的實現細節(基於JDK1.8)
cati port 內存 ont cit blank pla 失敗 關於 ArrayList是我們經常用到的一個類,下面總結一下它內部的實現細節和使用時要註意的地方。 基本概念 ArrayList在數據結構的層面上講,是一個用數組實現的list,從應用層面上講,就是一個容量
四則運算題目生成程序(基於控制臺)
net 分析 spec 不能 plan 優先 能夠 報告 結構 (項目文件地址:https://git.coding.net/Aes/Exp1.git) 一、需求分析 1.將用戶的輸入作為參數,生成不同數量的一定範圍的算式 2.算式的運算符數量不超過3個(隨機生成1-3
四則運算生成器(基於控制臺)
ftw name cls 技術 ces 分析 工作量 ann 設計文檔 一、需求分析 1、通過參數控制生成題目的個數; 2、通過參數控制生成該題目的數值的最大值; 3、題目運行一次生成的題目不能重復,生成的題目存到項目目錄裏的Exercise.txt中; 5、計算題
個人作業1——四則運算題目生成程序(基於控制臺)
deb nio body min 此外 list eve span i++ 一、需求分析 生成四則運算題目 控制生成題目個數 控制生成題目中數字的範圍 結果為真分數 每道題目運算符個數為3 每次運行生成的題目不能重復 保存生成的題目 在生成題目的同時,計算出所有題目的答案
第1次作業------四則運算題目生成程序(基於控制臺)
參數 cls tab 信息 pan report 範圍 gpo 式表 https://git.coding.net/YelCong/Soft.git 需求分析 1. 使用 -n 參數控制生成題目的個數,例如 Myapp.exe -n 10 -o Exercis
高維數據稀疏表示-什麽是字典學習(過完備詞典)
字典 cnblogs href title itl pos tle logs post 高維數據稀疏表示-什麽是字典學習(過完備詞典) http://www.cnblogs.com/Tavion/p/5166695.html高維數據稀疏表示-什麽是字典學習(過完備詞典)