文字情感分析+python+正面和負面新聞+新浪微博+情感字典+機器學習

阿新 • • 發佈：2019-02-09

文字情感分析

從上一篇完成了對新浪微博的爬取，以及模擬登入的問題，小編又開始研究對微博文
本的正面和反面分析，從網上搜索了好多方法，有機器學習和情感字典，可是機器學
習需要比較深的知識鏈，而小編還是小白，所以就選擇了情感字典方法。好了，直接
上程式碼嘛，直接可以執行的。
前提需要安裝相關的庫jieba,
直接用pip install jieba
就能安裝，

一、資料準備

先要準備情感字典，

情感字典，如：
最尼瑪 -6.70400012637
擾民 -6.49756445867
fuck… -6.32963390433
RNM -6.21861284426
wcnmlgb -5.96710044003
2.5: -5.90459648251

停用字字典，如：
!，”，#，$，&
副詞，如：
百分之百 6
倍加 6
備至 6
不得了 6
不堪 6
不可開交 6
不亦樂乎 6
否定詞，如：不，沒，無，非，莫，弗，勿
如果需要可以去CSDN去下載，我已經上傳了

二、情感分析

#!usr/bin/env python
#coding:utf-8

import jieba

class SentimentAnalysis:
    #初始化
    def __init__(self,sentiment,noword,adverb,stopword) 
:
        self.__readFile(sentiment,noword,adverb,stopword)

    #讀取相關文庫
    def __readFile(self,sentiment,noword,adverb,stopword):
        self.__sentList = {}
        self.__noword = []
        self.__adverb = {}
        self.__stopword = []
        #情感詞
        sentList = open(sentiment,'rb')
        for 
 s in sentList.readlines():
            try:
                s = s.replace('\r\n','').replace('\n','')
                self.__sentList[s.split(' ')[0]] = s.split(' ')[1]
            except:
                pass
        sentList.close()
        nowordList = open(noword,'rb')
        for s in nowordList.readlines():
            try:
                s = s.replace('\r\n','').replace('\n','')
                self.__noword.append(s)
            except:
                print "資料錯誤："+s
        nowordList.close()
        adverbList = open(adverb,'rb') 
        for s in adverbList.readlines():
            try:
                s = s.replace('\r\n','').replace('\n','')
                self.__adverb[s.split(' ')[0]] = s.split(' ')[1]
            except:
                print "資料錯誤："+s
        adverbList.close()
        stopwordList = open(stopword,'rb')
        for s in stopwordList.readlines():
            try:
                s = s.replace('\r\n','').replace('\n','')
                self.__stopword.append(s) 
            except:
                print "資料錯誤："+s
        stopwordList.close()

    def setSentence(self,sentence):
        self.__sentence = sentence.lstrip()
    #預處理
    def preDetail(self):
        wordsList = jieba.cut(self.__sentence, cut_all=False)
        newWords = {}
        i = 0
        for w in wordsList:
            if w not in self.__stopword:
                newWords[str(i)] =w
                i = i+1
        senWord = {}
        notWord = {}
        degreeWord = {}
        m = 0
        for index in newWords.keys():
            if newWords[index] in self.__sentList.keys() and newWords[index] not in self.__noword and newWords[index] not in self.__adverb.keys():
                senWord[index] = self.__sentList[newWords[index].encode('utf-8')]
            elif newWords[index] in self.__noword and newWords[index] not in self.__adverb.keys():
                notWord[index] = -1
            elif newWords[index] in self.__adverb.keys():
                degreeWord[index] = self.__adverb[newWords[index].encode('utf-8')]
            else:
                senWord[index] = 0
        return senWord,notWord,degreeWord,newWords
    def getScore(self):
        senWord,notWord,degreeWord,newWords = self.preDetail()
        W = 1
        score = 0
        # 存所有情感詞的位置的列表
        senLoc = []
        notLoc = []
        degreeLoc = []
        for i in senWord.keys():
            senLoc.append(int(i))
        for i in notWord.keys():
            notLoc.append(int(i))
        for i in degreeWord.keys():
            degreeLoc.append(int(i))
        senLoc.sort()
        notLoc.sort()
        degreeLoc.sort()
        senloc = -1

        for i in range(0, len(newWords)):
            # 如果該詞為情感詞
            if i in senLoc:
                # loc為情感詞位置列表的序號
                senloc += 1
                # 直接新增該情感詞分數
                score += W * float(senWord[str(i)])
                # print "score = %f" % score
                if senloc < len(senLoc) - 1:
                    # 判斷該情感詞與下一情感詞之間是否有否定詞或程度副詞
                    # j為絕對位置
                    if senLoc[senloc] - senLoc[senloc + 1] > 1:
                        for j in range(senLoc[senloc]+1, senLoc[senloc + 1]):
                            # 如果有否定詞
                            if j in notLoc:
                                W *= -1
                            # 如果有程度副詞
                            elif j in degreeLoc:
                                W *= float(degreeWord[j])
                    else:
                        W = 1
            # i定位至下一個情感詞
            if senloc < len(senLoc) - 1:
                i = senLoc[senloc + 1]

        return score

def getAnalysis():
    return SentimentAnalysis('情感字典.txt', '否定詞.txt', '副詞.txt', '停用詞.txt')

s = analysis.getAnalysis()
s.setSentence('句子')
#如果分數為正則為正面新聞
#如果位數為負則為負面新聞
print s.getScore()

文字情感分析+python+正面和負面新聞+新浪微博+情感字典+機器學習

文字情感分析從上一篇完成了對新浪微博的爬取，以及模擬登入的問題，小編又開始研究對微博文本的正面和反面分析，從網上搜索了好多方法，有機器學習和情感字典，可是機器學習需要比較深的知識鏈，而小編還是小白，所以就選擇了情感字典方法。好了，直接上程式碼嘛，直接可

apigw鑒權分析（1-4）新浪微博開放平臺 - 鑒權分析

取消 spa 控制 server 信息 des 包含 flash poi 一、訪問入口 http://open.weibo.com/wiki/%E6%8E%88%E6%9D%83%E6%9C%BA%E5%88%B6%E8%AF%B4%E6%98%8E 微博開放接口的

新浪微博PC端登陸js分析及Python實現微博post登陸

新浪微博的安全級別還是比較高，前端的資訊採用RSA非對稱加密方式，加密的內容處理過，不僅僅是使用者輸入的密碼，加密公鑰是實時請求而來。首選抓個包瞧瞧： entry:weibogateway:1from:savestate:7qrcode_flag:falseuseticke

python抓取新浪微博評論並分析

1，實現效果 2，資料庫 3，主要步驟 1，輸入賬號密碼，模擬新浪微博登陸 2，抓取評論頁的內容 3，用正則表示式過濾出使用者名稱，評論時間和評論內容 4，將得到的內容存入資料庫 5，用SQL語句實現其他功能：例如統計評論次數等 4，詳細步驟 # -*- codi

python 爬蟲1 開始，先拿新浪微博開始

大括號版本 install esp con data- 定位 ble Language 剛剛開始學。目的地是兩個。一個微博，一個貼吧存入的話，臨時還沒想那麽多。先存到本地目錄吧分詞和推薦後面在整合 mysql mongodb hadoop redius 後面在用

實現QQ、微信、新浪微博和百度第三方登錄(Android Studio)

wiki protocol super cli 路徑參考 syn jar包 all 前言：對於大多數的APP都有第三方登錄這個功能，自己也做過幾次，最近又有一個新項目用到了第三方登錄，所以特意總結了一下關於第三方登錄的實現，並拿出來與大家一同分享；各大開放平臺註冊

Python爬蟲開源項目代碼，爬取微信、淘寶、豆瓣、知乎、新浪微博、QQ、去哪網等代碼整理

http server 以及 pro 模擬登錄取數存在漏洞搜狗作者：SFLYQ 今天為大家整理了32個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的愉快~ 1、WechatSogou

Python爬取新浪微博用戶信息及內容

pro 目標 oss 來源但是 blog .com 交流 exc 新浪微博作為新時代火爆的新媒體社交平臺，擁有許多用戶行為及商戶數據，因此需要研究人員都想要得到新浪微博數據，But新浪微博數據量極大，獲取的最好方法無疑就是使用Python爬蟲來得到。網上有一些關於使用Py

仿新浪微博@功能 JS的實現 ——使用JQ At.js 和HTML5 contentEditable

專案需求增加@功能先上效果圖 Atwho.js gitHub地址 https://github.com/ichord/At.js 需要引入的JS： <script type="text/javascript"

[原始碼和文件分享]Python實現基於AdaBoost演算法的微博情感分類系統

摘要隨著網際網路的快速發展，各類社交媒體平臺如微信、QQ等也與日俱增，而微博更是集成了傳統網站、論壇、部落格等的優點，並加上了人與人之間的互動性、關係親密程度等多種智慧演算法，並以簡練的形式讓資料爆發性的傳播，促進了人與人之間的交流。網民可以通過微博來分享自己的生活，同時抒發自己的喜怒哀樂。

Java和PHP兩種方式實現上傳圖片到新浪微博的圖床

這幾天遇到一個需求,需要將圖片上傳到新浪微博的圖傳,研究了一下, 特此記錄1.模擬登陸,獲取cookie登入地址為:https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.15)&_=140313

基於scrapy的分散式爬蟲抓取新浪微博個人資訊和微博內容存入MySQL

為了學習機器學習深度學習和文字挖掘方面的知識，需要獲取一定的資料，新浪微博的大量資料可以作為此次研究歷程的物件一、環境準備 python 2.7 scrapy框架的部署（可以檢視上一篇部落格的簡要操作，傳送門：點選開啟連結） mysql的部署（需要的資源

關於新浪微博API python SDK

搞了好幾天，今天晚上終於弄出了點眉目，前幾天一直卡在了oauth 模組上，因為是第一次寫web應用，第一次接觸oauth ，還有什麼驗證什麼的，還有就是看見新浪的文件，一直被它誤導，頭都大了一圈，一直在找資料，找例程，今天終於算是有點進展，用API發了條訊息，接收了幾

用python寫網路爬蟲-爬取新浪微博評論

新浪微博需要登入才能爬取，這裡使用m.weibo.cn這個移動端網站即可實現簡化操作，用這個訪問可以直接得到的微博id。分析新浪微博的評論獲取方式得知，其採用動態載入。所以使用json模組解析json程式碼單獨編寫了字元優化函式，解決微博評論中的嘈雜干擾

新浪微博模擬登入分析(含驗證碼)

實驗室專案結題需要爬取新浪微博的內容做實驗，師兄提供了一份已實現的微博爬蟲系統。本身可以輕鬆愉快的完成語聊收集這一部分，然而自己的微博賬號始終登入失敗。究其原因，結果是登入時需要驗證碼。而系統對於需要驗證碼登入的賬號只能GG了，谷歌“新浪微博爬蟲”相關內容後，發現多數文章

Python爬蟲——百度+新浪微盤下載歌曲

　　本篇分享將講解如何利用Python爬蟲在百度上下載新浪微盤裡自己想要的歌手的歌曲，隨便你喜歡的歌手！　　首先我們先探索一下我們操作的步驟（以下載Westlife的歌曲為例）：開啟百度，輸入”Westlife 微盤”，將彈出如下頁面：　　　　第1，

python模擬登入新浪微博自動獲得呼叫新浪api所需的code

其中client_id是我們的APP_KEY；redirect_url是我們的回撥頁面，就是我們一開始建立應用時設定的；regCallback具體我不知道是哪來的，但是其中有兩個變數，一個是APP_KEY，一個就是我們設定的回撥頁面；其它的表單內容都是固定的。請求程式碼如下：fields={ 'act

使用新浪微博官方API抓取微博資料（Python版）

一、安裝環境二、一個簡單的例子 # coding=utf-8 from weibo import APIClient import webbrowser # python內建的包 APP_

NO.16——Pathon爬取楊超越新浪微博資料做詞雲分析

看到網上充斥著很多詞雲分析的資料，今天心血來潮，也嘗試下詞雲分析。最近熱火的《創造101》，楊超越小姐姐一直在風口浪尖，因此這裡借用小姐姐的微博資料做分析。一、準備工具作詞雲分析主要用到兩個工具： jieba,俗稱結巴，中文分詞工具；wordclo

文字情感分析+python+正面和負面新聞+新浪微博+情感字典+機器學習

文字情感分析

一、資料準備

二、情感分析

相關推薦