實戰案例-微博情感分析

阿新 • • 發佈：2018-11-16

實戰案例：微博情感分析

資料：每個文字檔案包含相應類的資料

0：喜悅；1：憤怒；2：厭惡；3：低落

步驟

文字讀取
分割訓練集、測試集
特徵提取
模型訓練、預測

程式碼：

tools.py

# -*- coding: utf-8 -*-

import re
import jieba.posseg as pseg
import pandas as pd
import math
import numpy as np

# 載入常用停用詞
stopwords1 = [line.rstrip() for line in open('./中文停用詞庫.txt', 'r', encoding='utf-8')]
# stopwords2  
= [line.rstrip() for line in open('./哈工大停用詞表.txt', 'r', encoding='utf-8')]
# stopwords3 = [line.rstrip() for line in open('./四川大學機器智慧實驗室停用詞庫.txt', 'r', encoding='utf-8')]
# stopwords = stopwords1 + stopwords2 + stopwords3
stopwords = stopwords1


def proc_text(raw_line):
    """
        處理每行的文字資料
        返回分詞結果
     
"""
    # 1. 使用正則表示式去除非中文字元
    filter_pattern = re.compile('[^\u4E00-\u9FD5]+')
    chinese_only = filter_pattern.sub('', raw_line)

    # 2. 結巴分詞+詞性標註
    words_lst = pseg.cut(chinese_only)

    # 3. 去除停用詞
    meaninful_words = []
    for word, flag in words_lst:
        # if (word not in stopwords) and (flag == 'v'):
            # 也可根據詞性去除非動詞等
         
if word not in stopwords:
            meaninful_words.append(word)

    return ' '.join(meaninful_words)


def split_train_test(text_df, size=0.8):
    """
        分割訓練集和測試集
    """
    # 為保證每個類中的資料能在訓練集中和測試集中的比例相同，所以需要依次對每個類進行處理
    train_text_df = pd.DataFrame()
    test_text_df = pd.DataFrame()

    labels = [0, 1, 2, 3]
    for label in labels:
        # 找出label的記錄
        text_df_w_label = text_df[text_df['label'] == label]
        # 重新設定索引，保證每個類的記錄是從0開始索引，方便之後的拆分
        text_df_w_label = text_df_w_label.reset_index()

        # 預設按80%訓練集，20%測試集分割
        # 這裡為了簡化操作，取前80%放到訓練集中，後20%放到測試集中
        # 當然也可以隨機拆分80%，20%（嘗試實現下DataFrame中的隨機拆分）

        # 該類資料的行數
        n_lines = text_df_w_label.shape[0]
        split_line_no = math.floor(n_lines * size)
        text_df_w_label_train = text_df_w_label.iloc[:split_line_no, :]
        text_df_w_label_test = text_df_w_label.iloc[split_line_no:, :]

        # 放入整體訓練集，測試集中
        train_text_df = train_text_df.append(text_df_w_label_train)
        test_text_df = test_text_df.append(text_df_w_label_test)

    train_text_df = train_text_df.reset_index()
    test_text_df = test_text_df.reset_index()
    return train_text_df, test_text_df


def get_word_list_from_data(text_df):
    """
        將資料集中的單詞放入到一個列表中
    """
    word_list = []
    for _, r_data in text_df.iterrows():
        word_list += r_data['text'].split(' ')
    return word_list


def extract_feat_from_data(text_df, text_collection, common_words_freqs):
    """
        特徵提取
    """
    # 這裡只選擇TF-IDF特徵作為例子
    # 可考慮使用詞頻或其他文字特徵作為額外的特徵

    n_sample = text_df.shape[0]
    n_feat = len(common_words_freqs)
    common_words = [word for word, _ in common_words_freqs]

    # 初始化
    X = np.zeros([n_sample, n_feat])
    y = np.zeros(n_sample)

    print('提取特徵...')
    for i, r_data in text_df.iterrows():
        if (i + 1) % 5000 == 0:
            print('已完成{}個樣本的特徵提取'.format(i + 1))

        text = r_data['text']

        feat_vec = []
        for word in common_words:
            if word in text:
                # 如果在高頻詞中，計算TF-IDF值
                tf_idf_val = text_collection.tf_idf(word, text)
            else:
                tf_idf_val = 0

            feat_vec.append(tf_idf_val)

        # 賦值
        X[i, :] = np.array(feat_vec)
        y[i] = int(r_data['label'])

    return X, y


def cal_acc(true_labels, pred_labels):
    """
        計算準確率
    """
    n_total = len(true_labels)
    correct_list = [true_labels[i] == pred_labels[i] for i in range(n_total)]

    acc = sum(correct_list) / n_total
    return acc

main.py

# main.py

# -*- coding: utf-8 -*-


import os
import pandas as pd
import nltk
from tools import proc_text, split_train_test, get_word_list_from_data, \
    extract_feat_from_data, cal_acc
from nltk.text import TextCollection
from sklearn.naive_bayes import GaussianNB

dataset_path = './dataset'
text_filenames = ['0_simplifyweibo.txt', '1_simplifyweibo.txt',
                  '2_simplifyweibo.txt', '3_simplifyweibo.txt']

# 原始資料的csv檔案
output_text_filename = 'raw_weibo_text.csv'

# 清洗好的文字資料檔案
output_cln_text_filename = 'clean_weibo_text.csv'

# 處理和清洗文字資料的時間較長，通過設定is_first_run進行配置
# 如果是第一次執行需要對原始文字資料進行處理和清洗，需要設為True
# 如果之前已經處理了文字資料，並已經儲存了清洗好的文字資料，設為False即可
is_first_run = True


def read_and_save_to_csv():
    """
        讀取原始文字資料，將標籤和文字資料儲存成csv
    """

    text_w_label_df_lst = []
    for text_filename in text_filenames:
        text_file = os.path.join(dataset_path, text_filename)

        # 獲取標籤，即0, 1, 2, 3
        label = int(text_filename[0])

        # 讀取文字檔案
        with open(text_file, 'r', encoding='utf-8') as f:
            lines = f.read().splitlines()

        labels = [label] * len(lines)

        text_series = pd.Series(lines)
        label_series = pd.Series(labels)

        # 構造dataframe
        text_w_label_df = pd.concat([label_series, text_series], axis=1)
        text_w_label_df_lst.append(text_w_label_df)

    result_df = pd.concat(text_w_label_df_lst, axis=0)

    # 儲存成csv檔案
    result_df.columns = ['label', 'text']
    result_df.to_csv(os.path.join(dataset_path, output_text_filename),
                     index=None, encoding='utf-8')


def run_main():
    """
        主函式
    """
    # 1. 資料讀取，處理，清洗，準備
    if is_first_run:
        print('處理清洗文字資料中...', end=' ')
        # 如果是第一次執行需要對原始文字資料進行處理和清洗

        # 讀取原始文字資料，將標籤和文字資料儲存成csv
        read_and_save_to_csv()

        # 讀取處理好的csv檔案，構造資料集
        text_df = pd.read_csv(os.path.join(dataset_path, output_text_filename),
                              encoding='utf-8')

        # 處理文字資料
        text_df['text'] = text_df['text'].apply(proc_text)

        # 過濾空字串
        text_df = text_df[text_df['text'] != '']

        # 儲存處理好的文字資料
        text_df.to_csv(os.path.join(dataset_path, output_cln_text_filename),
                       index=None, encoding='utf-8')
        print('完成，並儲存結果。')

    # 2. 分割訓練集、測試集
    print('載入處理好的文字資料')
    clean_text_df = pd.read_csv(os.path.join(dataset_path, output_cln_text_filename),
                                encoding='utf-8')
    # 分割訓練集和測試集
    train_text_df, test_text_df = split_train_test(clean_text_df)
    # 檢視訓練集測試集基本資訊
    print('訓練集中各類的資料個數：', train_text_df.groupby('label').size())
    print('測試集中各類的資料個數：', test_text_df.groupby('label').size())

    # 3. 特徵提取
    # 計算詞頻
    n_common_words = 200

    # 將訓練集中的單詞拿出來統計詞頻
    print('統計詞頻...')
    all_words_in_train = get_word_list_from_data(train_text_df)
    fdisk = nltk.FreqDist(all_words_in_train)
    common_words_freqs = fdisk.most_common(n_common_words)
    print('出現最多的{}個詞是：'.format(n_common_words))
    for word, count in common_words_freqs:
        print('{}: {}次'.format(word, count))
    print()

    # 在訓練集上提取特徵
    text_collection = TextCollection(train_text_df['text'].values.tolist())
    print('訓練樣本提取特徵...', end=' ')
    train_X, train_y = extract_feat_from_data(train_text_df, text_collection, common_words_freqs)
    print('完成')
    print()

    print('測試樣本提取特徵...', end=' ')
    test_X, test_y = extract_feat_from_data(test_text_df, text_collection, common_words_freqs)
    print('完成')

    # 4. 訓練模型Naive Bayes
    print('訓練模型...', end=' ')
    gnb = GaussianNB()
    gnb.fit(train_X, train_y)
    print('完成')
    print()

    # 5. 預測
    print('測試模型...', end=' ')
    test_pred = gnb.predict(test_X)
    print('完成')

    # 輸出準確率
    print('準確率：', cal_acc(test_y, test_pred))

if __name__ == '__main__':
    run_main()

實戰案例-微博情感分析

實戰案例：微博情感分析資料：每個文字檔案包含相應類的資料 0：喜悅；1：憤怒；2：厭惡；3：低落步驟文字讀取分割訓練集、測試集特徵提取模型訓練、預測程式碼： tools.py # -*- coding: utf-8 -*- import re im

文字情感分析+python+正面和負面新聞+新浪微博+情感字典+機器學習

文字情感分析從上一篇完成了對新浪微博的爬取，以及模擬登入的問題，小編又開始研究對微博文本的正面和反面分析，從網上搜索了好多方法，有機器學習和情感字典，可是機器學習需要比較深的知識鏈，而小編還是小白，所以就選擇了情感字典方法。好了，直接上程式碼嘛，直接可

貓貓學iOS 之微博項目實戰(2)微博主框架-自己定義導航控制器NavigationController

點擊狀態 reat obj mar all func 返回 mutable point 貓貓分享，必須精品原創文章。歡迎轉載。轉載請註明：翟乃玉的博客地址：viewmode=contents">http://blog.csdn.net/u0133

深度學習專案實戰--對於評論的情感分析

標籤：機器學習該專案通過分析影評進行判斷該評價的情感方向專案準備: 實現思想實現效果現在開始我們的專案程式碼

未明學院學員報告：做了微博資料分析後，我發現現在最火的明星原來是……

今年，隨著《偶像練習生》、《創造101》、《延禧攻略》等選秀節目或電視劇的爆火，娛樂圈接二連三地湧現出一批炙手可熱的新星。那麼，在娛樂圈如此激烈的競爭中，誰才是目前最火的明星？明星背後又存在怎樣的營銷套路？為此，未明學院資料分析訓練營的同學利用課上所學，分析了明星微博粉絲資料，同時藉助資料分析

Python3+Selenium爬蟲實戰：微博粉絲榜水分大揭祕

高能預警！分析到最後，我不得不感慨這個世界太真實了！文中有大量程式碼，注重閱讀體驗的請在PC站開啟！或者直接去我的個人部落格（www.data-insights.cn）閱讀！一、微博粉絲榜：一潭深水微博粉絲榜爭奪戰由來已久，每個明星在榜單上的位置似乎就象徵著他（她）在粉

[原始碼和文件分享]Python實現基於AdaBoost演算法的微博情感分類系統

摘要隨著網際網路的快速發展，各類社交媒體平臺如微信、QQ等也與日俱增，而微博更是集成了傳統網站、論壇、部落格等的優點，並加上了人與人之間的互動性、關係親密程度等多種智慧演算法，並以簡練的形式讓資料爆發性的傳播，促進了人與人之間的交流。網民可以通過微博來分享自己的生活，同時抒發自己的喜怒哀樂。

利用TFIDF實時微博情感分類-樸素貝葉斯演算法

最近自己在做一個基於樸素貝葉斯演算法的微博情感分類，首先樸素貝葉斯演算法的基本推到我這裡就不細說了。分類中我們一般會進行下面幾個步驟： 1 對我們的語料庫（訓練文字）進行分詞 2 對分詞之後的文字進行TF-IDF的計算（TF-IDF介紹可以參考這邊文章http://

基於keras 的 python情感分析案例IMDB影評情感分析

（來源-魏貞原老師的深度學習一書）情感分析是自然語言處理中很重要的一個方向，目的是讓計算機理解文字中包含的情感資訊。在這裡將通過IMDB(網際網路電影資料庫)收集的對電影評論的資料集，分析某部電影是一部好電影還是一部不好的電影，藉此研究情感分析問題。 1.匯入資料為了便於在模型訓練中

各大微博使用分析

新浪微博新浪微博是國內較早開始做微博的，當然最早是飯否和嘰歪，都倒掉了。從功能點來看，新浪微博沒什麼亮點。但是在運營上，新浪在部落格方面的優勢在微博上發揮出來了，繼續發揚了新浪微博的名人效應，依靠名人吸引眼球和使用者。比如地產名人、影視名人直到IT名人等各行業的名人

小程式·雲開發實戰 - 迷你微博

0. 前言本文將手把手教你如何寫出迷你版微博的一行行程式碼，迷你版微博包含以下功能： Feed 流：關注動態、所有動態傳送圖文動態搜尋使用者關注系統點贊動態個人主頁使用到的雲開發能力：雲資料庫雲端儲存雲函式雲呼叫沒錯，幾乎是所有的雲開發能力。也就是說，讀完這篇實戰，你就相當於完

Hadoop單點部署與案例開發（微博用戶數據分析）

環境搭建 hadoop 數據分析微博用戶一、環境搭建1、Hadoop運行環境搭建1.1 安裝虛擬機（1）下載並安裝VMware虛擬機軟件。（2）創建虛擬機，實驗環境虛擬機配置如下圖所示。（3）安裝Ubuntu系統，安裝結果如下圖所示。1.2 配置JDK環境下載並安裝JDK，安裝結束後需對

第2次作業：微博案例分析

研究我不感受 tex .com 正是可能組成新用戶第一部分產品 1.1 產品名稱及使用平臺本次我選擇的產品名稱是微博，使用平臺為IOS。 1.2 選擇該產品進行分析的原因微博，顧名思義就是微型博客的簡稱，是一種通過關註機制分享簡短

科學蹭熱點：用python獲取熱門微博評論並進行情感分析

在我埋頭學習mysql、scrapy、django準備下一波吹水的時候，有人說，你去爬下老薛的微博呀，還能蹭個熱點，這讓勤(mo)奮(mo)學(kou)習(jiao)的我停下了寄幾敲程式碼的手。然後我趕緊去關注了一下最近老薛的新聞…在感受了劇情的複雜和案情的撲朔迷離之後…我默默地學習瞭如

利用500萬條微博語料對微博評論進行情感分析

最近身邊的人都在談論一件事：10月8日中午的一條微博，引發了一場微博的軒然大波。導致微博癱瘓的原因是全球超人氣偶像明星鹿晗發了一條“大家好，給大家介紹一下，這是我女朋友@關曉彤”。這條微博並@關曉彤。資料分析，可以在這裡自取！截止目前，鹿晗的這條微博已經被轉發1

用python對鹿晗、關曉彤微博進行情感分析哭著學習學習~

前言：本文主要涉及知識點包括新浪微博爬蟲、python對資料庫的簡單讀寫、簡單的列表資料去重、簡單的自然語言處理(snowNLP模組、機器學習)。適合有一定程式設計基礎，並對python有所瞭解的盆友閱讀。相信最近科技圈都在調侃一件事：10月8日中午的一條微博，引發了一場新浪微博使用者們(尤其是女性使用者

大資料雲端實驗室專案實戰-微博輿情大資料分析有感

　　大資料開發、只能硬體和圖形影象需求增長最快，需求人員最多。對微博資料分析平臺搭建，以及微博資料分析平臺數據儲存模組設計與實現。　　最好有一定軟體開發方面的知識功底，比如瞭解網站開發、OA開發、Linux作業系統引言、雲端實驗室環境基於開源的amb

如何科學地蹭熱點：用python爬蟲獲取熱門微博評論並進行情感分析

前言：本文主要涉及知識點包括新浪微博爬蟲、python對資料庫的簡單讀寫、簡單的列表資料去重、簡單的自然語言處理(snowNLP模組、機器學習)。適合有一定程式設計基礎，並對python有所瞭解的盆友閱讀。甩鍋の宣告 1.本資料節選自新浪熱門

用python對鹿晗、關曉彤微博進行情感分析

前言：本文主要涉及知識點包括新浪微博爬蟲、python對資料庫的簡單讀寫、簡單的列表資料去重、簡單的自然語言處理(snowNLP模組、機器學習)。適合有一定程式設計基礎，並對python有所瞭解的盆友閱讀。相信最近科技圈都在調侃一件事：10月8日中午的一條微

Python微博評論進行情感分析

最近身邊的人都在談論一件事：10月8日中午的一條微博，引發了一場微博的軒然大波。導致微博癱瘓的原因是全球超人氣偶像明星鹿晗發了一條“大家好，給大家介紹一下，這是我女朋友@關曉彤 ‘’。這條微博並@關曉彤。資料分析，可以在這裡自取！ l 關曉彤的這條微博轉發67652，回覆873532，點贊：22604

實戰案例-微博情感分析