word2vec 對影評情感進行預測

阿新 • • 發佈：2019-01-01

上篇用了countvectorize進行文字embling,忽視了文字詞中上下文的語義。因此這裡用到了word2vec。

word2vec訓練詞向量。

import os
import re
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup
import nltk.data
from gensim.models.word2vec import Word2vec

def load_dataset(name,nrows=None):
    datasets={
        "unlabeled_train":"unlabelTrainData.tsv",
        "labeled_train":"labeledTrainData.tsv",
        "test":"testData.tsv"
    }
    if name not in datasets:
        raise ValueError(name)
    data_file=os.path.join("..","data",datasets[name])
    df=pd.read_csv(data_File,sep="\t",escapechar="\\",nrows=nrows)
    return df

讀入無標籤資料

用於訓練生成word2vec詞向量

df = load_dataset('unlabeled_train')

eng_stopwords = {}.fromkeys([ line.rstrip() for line in open('../stopwords.txt')])

def clean_text(text, remove_stopwords=False):
    text = BeautifulSoup(text, 'html.parser').get_text()
    text = re.sub(r'[^a-zA-Z]', ' ', text)
    words = text.lower().split()
    if remove_stopwords:
        words = [w for w in words if w not in eng_stopwords]
    return words

tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

def print_call_counts(f):
    n=0
    def wrapped(*args,**kwargs):
        nonlocal n
        n+=1
        if n%1000=1:
            print("method {} called {} times.format(f._name_,n))
        return f(*args,**kwargs)
    return wrapped
@print_call_counts
def split_sentences(review):
    saw_sentences=tokenizer.tokenize(review.strip())
    sentences=[clean_text(s) for s in raw_sentences if s]
    return sentences
%time sentences = sum(df.review.apply(split_sentences), [])

gensim的word2vec訓練詞嵌入模型

max_features=300
min_word_count=10
num_workers=4
context=10
downsampling=1e-3
model_name="{} features_{}minwords_{}context.model".format(num_features,min_word_count,context)

#model
model=word2vec.Word2vec(sentences,workers=num_workers,size=num_faetures,min_count=min_word_count,window=context.sample=downsampling)
#初始化
model.init_sims(replace=True)
model.save(os.path.join("..","models",model_name))

檢視訓練的詞向量的結果

model.most_similar("man")
#結果為
[('woman', 0.6256189346313477),
 ('lady', 0.5953349471092224),
 ('lad', 0.576863169670105),
 ('person', 0.5407935380935669),
 ('farmer', 0.5382746458053589),
 ('chap', 0.536788821220398),
 ('soldier', 0.5292650461196899),
 ('men', 0.5261573791503906),
 ('monk', 0.5237958431243896),
 ('guy', 0.5213091373443604)]


model.most_similar("queen")

Out[11]:
[('princess', 0.6749982833862305),
 ('maid', 0.6223365068435669),
 ('bride', 0.6201028227806091),
 ('belle', 0.6200867891311646),
 ('temple', 0.6171057224273682),
 ('stripper', 0.608874499797821),
 ('catherine', 0.6072724461555481),
 ('eva', 0.6019693613052368),
 ('dancer', 0.594109833240509),
 ('sylvia', 0.5933606624603271)]


model.most_similar("awful")


Out[12]:
[('terrible', 0.7551683187484741),
 ('atrocious', 0.7340768575668335),
 ('horrible', 0.7315883040428162),
 ('dreadful', 0.7080680131912231),
 ('abysmal', 0.7010548114776611),
 ('horrendous', 0.6951696872711182),
 ('appalling', 0.691646933555603),
 ('horrid', 0.6708598136901855),
 ('amateurish', 0.6481891870498657),
 ('embarrassing', 0.6306308507919312)]

讀入以上訓練好的word2vec模型

model_name = '300features_40minwords_10context.model'
model = Word2Vec.load(os.path.join('..', 'models', model_name))

#對label_train進行操作
df=load_dataset("labeled_train")
def to_review_vector(review):
    words=clean_text(review,remove_stopwords=True)
    array=np.array([model[w] for w in words if w in model])
    return pd.Series(array.mean(axis=0))#word2vec得到文字各個詞的維度後，進行求平均得到文字的向量

train_data_features=df.review.apply(to_review_vector)

建立分類器並預測

forest = RandomForestClassifier(n_estimators = 100, random_state=42)
forest = forest.fit(train_data_features, df.sentiment)
df = load_dataset('test')
test_data_features = df.review.apply(to_review_vector)
result = forest.predict(test_data_features)
output = pd.DataFrame({'id':df.id, 'sentiment':result})
output.to_csv(os.path.join('..', 'data', 'Word2Vec_model.csv'), index=False)


#以下為結果
           id        sentiment
0       12311_10       1
1       8348_2         0
2       5828_4         0
3       7186_2         0
4       12128_7        1

到此，程式結束。

運用了word2vec使得文字的上下文關聯語義得以儲存。

雖然WORD2VEC表示的詞向量不僅考慮了詞之間的語義資訊，還壓縮了維度。但是，有時候當我們需要得到sentence/Document的向量時，雖然可以直接將sentence/Document中所有詞的向量取均值作為sentence/Document的向量表示，但是這樣會忽略了單詞之間的排列順序對句子或文字資訊的影響。所以引出了word2vec的延伸doc2vec

word2vec 對影評情感進行預測

上篇用了countvectorize進行文字embling,忽視了文字詞中上下文的語義。因此這裡用到了word2vec。 word2vec訓練詞向量。 import os import re import numpy as np import pandas as pd f

[譯]使用遞迴神經網路（LSTMs）對時序資料進行預測

原文地址：A Guide For Time Series Prediction Using Recurrent Neural Networks (LSTMs) 原文作者：Neelabh Pant 譯文出自：掘金翻譯計劃本文永久連結：github.com/xitu/gold-m

根據手機引數對手機價格進行預測

#---------------------------config資料夾---------------------- import os import pandas as pd # 資料集路徑 dataset_path = './data' # 輸出集路徑 outpu

Scikit-Learn（sklearn）中的LinearRegression（線性迴歸）對波士頓房價進行預測

線性迴歸 y=wx+b from sklearn import datasets from sklearn.linear_model import LinearRegression loaded_data = datasets.load_boston() data_X = loade

利用迴歸樹對Boston房價進行預測，並對結果進行評估

from sklearn.cross_validation import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.tree import DecisionT

使用三種不同的核函式（迴歸）對Boston房價進行預測，同時對測試資料做出預測

from sklearn.datasets import load_boston from sklearn.svm import SVR from sklearn.cross_validation import train_test_split from sklearn.m

分別用6種迴歸方法對波士頓房價進行預測

1.匯入模組 import numpy as np import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt %matplotlib i

利用word2vec對關鍵詞進行聚類

繼上次提取關鍵詞之後，專案組長又要求我對關鍵詞進行聚類。說實話，我不太明白對關鍵詞聚類跟新聞推薦有什麼聯絡，不過他說什麼我照做就是了。按照一般的思路，可以用新聞ID向量來表示某個關鍵詞，這就像廣告推薦系統裡面用使用者訪問類別向量來表示使用者一樣，然後就可以用kmeans的方法進

【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（下）

上一篇中我們簡單的介紹了利用線性迴歸分析並預測波士頓房價資料集，那麼在這一篇中，將使用相同的模型來對紅酒資料集進行分析。 1 基本要求利用線性迴歸，對紅酒資料集進行分析。資料集下載地址。 2 完整程式碼 #-*- codin

【自然語言處理】預測電影影評情感的深度學習詞袋模型

翻譯自外網：https://machinelearningmastery.com/deep-learning-bag-of-words-model-sentiment-analysis/ 教程概述： 1.電影評論集 2.資料準備 3.詞包表示法 4.情感分析模型 1.電

使用Tensorflow自定義一個線性分類器對‘良/惡性乳腺癌腫瘤’進行預測

1 Tensorflow作為一個開源框架，在深度學習與機器學習方面有著很大的應用。對於Tensorflw就不作介紹，僅僅對其應用簡單的實現一下利用tensorflow自定義一個線性分類器對‘良/惡性乳腺癌腫瘤’進行預測2 程式碼實現及結果截圖#coding:utf-8#

【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（上）

本篇筆記是《從自然語言處理到機器學習入門》課程第三次作業的上篇，主要是復現了老大課上講的利用線性迴歸對波士頓房價進行預測的實驗。在下篇中，將利用該模型對紅酒資料集進行線性迴歸分析。 1 基本要求利用提供的波士頓房價資料，對其進行分析。資

DL開源框架Caffe | 用訓練好的模型對資料進行預測

一句話理解Caffe：　　Caffe的萬丈高樓（Net）是按照我們設計的圖紙（prototxt），用很多磚塊（Blob）築成一層層（Layer）樓房，最後通過某些手段（Solver）進行簡裝修（Train）/精裝修（Finetune）實現的，另外每個樓層都可

使用RNN進行imdb影評情感識別--use RNN to sentiment analysis

原創帖子，轉載請說明出處一、RNN神經網路結構 RNN隱藏層神經元的連線方式和普通神經網路的連線方式有一個非常明顯的區別，就是同一層的神經元的輸出也成為了這一層神經元的輸入。當然同一時刻的輸出是不可能作為這個時刻的輸入的。所以是前一個時刻（t-1）的輸出作為這個時

Restful接口對操作系統進行操作

服務器接口數據庫操作系統 python 在產品開發過程中，有時候需要web端對服務器進行操作，如修改ip、重啟設備、關機等。前後端交互有很多方法，常見的有web端直接調用系統命令、通過數據庫交互和Restful接口交互。直接調用系統命令最簡單，但是最不安全，基本上沒人會使用；數據

對現有輸入法進行評價——搜狗

效果比較 mage 向導自己軟件修改 com 滿足我現在使用的為搜狗輸入法：下面從四個角度來分析它的使用情況：在此聲明，僅屬於個人看法，沒有任何詆毀或打廣告的意思一、用戶界面： 1）搜狗的用戶導航可有多種選擇，顏色、樣式會定期更新，推出新產品，滿足大

git 對 Microsoft Word 進行版本控制

dcl code 版本控制系統 documents custom ec2 adobe pen you 　　昨天中國高校發生了一件駭人聽聞的事情，聽說不少高校的校園網用戶連接校園網被勒索病毒給黑了，重要文件全部被加密，必須要支付贖金才能解密，具體新聞可以參見：http://w

開機狀態下對磁盤進行分區，分區工具disktool、diskgenuis.cn

blank .cn 狀態麻煩開機狀態人的 title nbsp 查找前一陣子，一朋友，公司給配的電腦中只有一個磁盤分區，又不想再麻煩網管，就問我有沒有辦法。經過查找後，推薦使用兩個開機狀態下也可以完成分區的工具 disktool 分區工具（可以對系統盤進行分區，但

對shenfenzheng號進行掩碼處理

對shenfenzheng號進行掩碼處理1.實現代碼如下 /** * 對shenfenzheng號進行掩碼處理 * @param stirng $idCard 原始shenfenzheng號 * @return string 掩碼後的shenfenzheng號 */ func

如何對網站關鍵詞進行合理布局？

之前不能影響 borde 其他帶來得到網站seo 比較網站關鍵詞優化是做網站seo優化的至關重要的步驟，如果你網站的關鍵詞布局、關鍵詞運營、關鍵詞設置、關鍵詞挑選沒有做好，那樣會導致你後期優化效果乏力，不能得到理想的優化成效。所以網站關鍵詞優化不單單只是簡單的挑

word2vec 對影評情感進行預測

word2vec訓練詞向量。

讀入無標籤資料

gensim的word2vec訓練詞嵌入模型

檢視訓練的詞向量的結果

讀入以上訓練好的word2vec模型

建立分類器並預測

相關推薦