bag_of_words------英文情感分類問題

阿新 • • 發佈：2018-11-10

本次練習訓練集只使用了有標註的資料，未標註的資料未使用，後續會更新~~

import os
import re
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup

from sklearn.feature_extraction.text import CountVectorizer     #計數
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix                    #評估準則
import nltk
from nltk.corpus import stopwords


'''
讀取訓練資料
'''
datafile = os.path.join('H:/word2vect_3data/labeledTrainData.tsv')
df = pd.read_csv(datafile,sep='\t',escapechar='\\')
# print('Number of reviews:{}'.format(len(df)))

# df = pd.read_csv('H:/word2vect_3data/labeledTrainData.tsv',sep='\t',escapechar='\\')
# print(len(df))

'''
對影評資料做以下處理：
    1、去掉html標籤
    2、移除標點
    3、切分成詞/token
    4、去掉停用詞
    5、重組成新的句子
'''
def display(text,title):
    print(title)
    print("\n----------分割線----------\n")
    print(text)

raw_example = df.review[0]
# display(raw_example,'原始資料')
#
# example = BeautifulSoup(raw_example,'html.parser').get_text()       #去除其中的html標籤
#
# example_letters = re.sub(r'[^a-zA-Z]',' ',example)             #用空格替換example中所有非字母的項，re.sub用於替換字串中的匹配項
# # display(example_letters,'去掉標籤和非字母項後')
#
# words = example_letters.lower().split()                         #小寫歸一化後分詞
#
# words_stop = [w for w in words if w not in stopwords.words('english')]
# display(words_stop,"去除停用詞")

#將以上處理定義在一起

eng_stopwords = set(stopwords.words('english'))
def clean_text(text):
    text = BeautifulSoup(text,'html.parser').get_text()
    text = re.sub(r'[^a-zA-Z]',' ',text)
    words = text.lower().split()
    words = [w for w in words if w not in eng_stopwords]
    return  ' '.join(words)             #' '中間有空格，不然所有字元都無間隔的連在一起了
'''
構建新特徵
'''
df['clean_review'] = df.review.apply(clean_text)

'''
轉換為bag_of_words特徵形式
'''
vectorizer = CountVectorizer(max_features=5000)         #取top5000
train_data_features = vectorizer.fit_transform(df.clean_review).toarray()
# print(train_data_features.shape)                    #輸出為‘(25000, 5000)’

'''
訓練分類器
'''
forest = RandomForestClassifier(n_estimators=100)
forest = forest.fit(train_data_features,df.sentiment)

'''
在訓練集上進行predict
'''
predict_values = confusion_matrix(df.sentiment,forest.predict(train_data_features))
# print(predict_values)

'''
讀取測試資料進行處理
'''
datafile_test = os.path.join('H:/word2vect_3data/testData.tsv')
df_test = pd.read_csv(datafile_test,sep='\t',escapechar='\\')
#對測試集文件進行同樣的處理
df_test['clean_review'] = df_test.review.apply(clean_text)
test_data_feature = vectorizer.fit_transform(df_test.clean_review).toarray()
test_pre = forest.predict(test_data_feature)
output = pd.DataFrame({'id':df_test.id,'sentiment':test_pre})
output.to_csv('H:/word2vect_3data/submission.csv')

bag_of_words------英文情感分類問題

本次練習訓練集只使用了有標註的資料，未標註的資料未使用，後續會更新~~ import os import re import numpy as np import pandas as pd from bs4 import BeautifulSoup from sklearn.featu

Spark2.0 特征提取、轉換、選擇之二：特征選擇、文本處理，以中文自然語言處理(情感分類)為例

true 方便 linear value taf 文檔 ota ati inter 特征選擇 RFormula RFormula是一個很方便，也很強大的Feature選擇（自由組合的）工具。輸入string 進行獨熱編碼（見下面例子country）輸入數值型轉換為dou

######好好好，本質#####基於LSTM搭建一個文字情感分類的深度學習模型:準確率往往有95%以上

基於情感詞典的文字情感分類傳統的基於情感詞典的文字情感分類，是對人的記憶和判斷思維的最簡單的模擬，如上圖。我們首先通過學習來記憶一些基本詞彙，如否定詞語有“不”，積極詞語有“喜歡”、“愛”，消極詞語有“討厭”、“恨”等，從而在大腦中形成一個基本的語料庫。然後，我們再對輸入的句子進行最直接

NLP情感分析之情感分類

情感分析與情感分類情感分析（sentiment analysis）是近年來國內外研究的熱點，其任務是幫助使用者快速獲取、整理和分析相關評價資訊，對帶有情感色彩的主觀性文字進行分析、處理、歸納和推理。情感分析包含較多的任務，如情感分類（sentiment classification）、觀

深度學習情感分類常用方法（綜述）

論文原文：Deep Learning for Sentiment Analysis: A Survey 原文地址：https://arxiv.org/ftp/arxiv/papers/1801/1801.07883.pdf （1）文件級情感分類：主要方法如下圖所示：（2）語句級情感分類

基於樸素貝葉斯算法的情感分類

set 求最大值記錄變焦 def ... rop ros 結果環境 win8, python3.7, jupyter notebook 正文什麽是情感分析?(以下引用百度百科定義) 情感分析（Sentiment analysis），又稱傾向性分析，意見抽取（Opi

RNN，LSTM用於情感分類問題

1、詞袋定義和keras自帶分詞和編碼工具詞袋定義 n-gram: 是從一個句子中提取的 N 個（或更少）連續單詞的集合 “The cat sat on the mat.”分解為2-gram： {"The", "The cat", "cat", "c

【NLP】【八】基於keras與imdb影評資料集做情感分類

【一】本文內容綜述 1. keras使用流程分析（模型搭建、模型儲存、模型載入、模型使用、訓練過程視覺化、模型視覺化等） 2. 利用keras做文字資料預處理【二】環境準備 1. 資料集下載：http://ai.stanford.edu/~amaas/data/sentiment/

[原始碼和文件分享]Python實現基於AdaBoost演算法的微博情感分類系統

摘要隨著網際網路的快速發展，各類社交媒體平臺如微信、QQ等也與日俱增，而微博更是集成了傳統網站、論壇、部落格等的優點，並加上了人與人之間的互動性、關係親密程度等多種智慧演算法，並以簡練的形式讓資料爆發性的傳播，促進了人與人之間的交流。網民可以通過微博來分享自己的生活，同時抒發自己的喜怒哀樂。

Python--基於樸素貝葉斯演算法的情感分類

環境 win8, python3.7, jupyter notebook 正文什麼是情感分析?(以下引用百度百科定義) 情感分析（Sentiment analysis），又稱傾向性分析，意見抽取（Opinion extraction），意見挖掘（Opinion mining），情感挖掘（Sentiment

教程｜百行Python程式碼訓練情感分類器，機器之心！

情感分析是一種流行的文字分析技術，用來對文字中的主觀資訊進行自動識別和分類。它被廣泛用於量化觀點、情感等通常以非結構化方式記錄的資訊，而這些資訊也因此很難用其他方式量化。情感分析技術可被用於多種文字資源，例如調查報告、評論、社交媒體上的帖子等。 &n

自然語言處理課程作業中文文字情感分類

摘要：20世紀初以來，文字的情感分析在自然語言處理領域成為了研究的熱點，吸引了眾多學者越來越多的關注。對於中文文字的情感傾向性研究在這樣一大環境下也得到了顯著的發展。本文主要是基於機器學習方法的中文文字情感分類，主要包括：使用開源的Markup處理程式對XML檔案進行分析處理、中科院計算所開源的中文分詞處理

Keras + LSTM + 詞向量情感分類/情感分析實驗

背景簡介本人是深度學習入門的菜菜菜鳥一枚… 利用LSTM + word2vec詞向量進行文字情感分類/情感分析實驗，吸收了網上的資源和程式碼並嘗試轉化為自己的東西~ 實驗環境 win7 64位系統 Anaconda 4.3.0 , Python

tensorflow1: nn與cnn實現情感分類

0.資料集以及執行環境資料集的地址：情緒分析的資料集，能稍微看懂英文就應該知道如何下載了執行環境：Windows10，IDE：pycharm或者是Linux0.資料預處理"0","1467810369","Mon Apr 06 22:19:45 PDT 2009","NO_Q

TensorFlow練手專案一：使用迴圈神經網路(RNN)實現影評情感分類

使用迴圈神經網路(RNN)實現影評情感分類作為對迴圈神經網路的實踐，我用迴圈神經網路做了個影評情感的分類，即判斷影評的感情色彩是正面的，還是負面的。選擇使用RNN來做情感分類，主要是因為影評是一段文字，是序列的，而RNN對序列的支援比較好，能夠“記憶”前

文字情感分類---搭建LSTM（深度學習模型）做文字情感分類的程式碼

來源：http://mp.weixin.qq.com/s?__biz=MzA3MDg0MjgxNQ==&mid=2652391534&idx=1&sn=901d5e55971349697e023f196037675d&chksm=84da48

基於cnn的情感分類

情感分類是情感分析裡面一個重要的方向。今天嘗試用3層的cnn進行情感分類。cnn模型是基於tensorflow實現訓練集來自語料：http://tcci.ccf.org.cn/conference/2012/pages/page10_dl.html 實驗結果：三歲知老

kaggle之電影文字情感分類

電影文字情感分類這個任務主要是對電影評論文字進行情感分類，主要分為正面評論和負面評論，所以是一個二分類問題，二分類模型我們可以選取一些常見的模型比如貝葉斯、邏輯迴歸等，這裡挑戰之一是文字內容的向量化，因此，我們首先嚐試基於TF-IDF的向量化方法，然後嘗

python--電影評論文字情感分類

為了記錄kaggle學習心得。參考了大神文章。1.http://www.cnblogs.com/lijingpeng/p/5787549.html2.python機器學習及實戰from sklearn.datasets import fetch_20newsgroupsX,

Tensorflow實現微博的評論情感分類模型

學習研究專案：基於微博評論的資料探勘與情感分析專案簡介學習卷積神經網路，迴圈神經網路在實際環境下的應用，提升實踐能力，瞭解深度學習在自然語言處理方面的進展 cnn_for_text_classify 具備較強的自動關鍵詞提取能力，在酒店評論測試集

bag_of_words------英文情感分類問題

相關推薦