IMDB影評資料集預處理(使用word2vec)

阿新 • • 發佈：2020-07-25

資料集下載：https://github.com/jiangxinyang227/textClassifier/blob/master/data/rawData/labeledTrainData.tsv

開啟看下labeledTrainData.tsv資料的樣子：

第一列是id識別符號，第二列是情感評價，包含正面和負面的，第三列是相關語句。

讀取資料集：

import pandas as pd
from bs4 import BeautifulSSoup
path="/content/drive/My Drive/textClassifier/data/rawData/"
with open(path+"unlabeledTrainData.tsv 
","r") as fp:
  unlabeledTrain=[line.strip().split("\t") for line in fp.readlines() if len(line.strip().split("\t"))==2]
with open(path+"labeledTrainData.tsv","r") as fp:
  labeledTrain=[line.strip().split("\t") for line in fp.readlines() if len(line.strip().split("\t"))==3]

將資料放入到pands的DataFrame中，需要注意的是資料中的第一行是列的名稱

unlabel = pd.DataFrame(unlabeledTrain[1: ], columns=unlabeledTrain[0])
label = pd.DataFrame(labeledTrain[1: ], columns=labeledTrain[0])

將影評中的所有特殊字元替換為“ ”,並且全部轉換為小寫

def cleanReview(subject):
　　 # 資料處理函式
    beau = BeautifulSoup(subject)
    newSubject = beau.get_text()
    newSubject = newSubject.replace(" 
\\", "").replace("\'", "").replace('/', '').replace('"', '').replace(',', '').replace('.', '').replace('?', '').replace('(', '').replace(')', '')
    newSubject = newSubject.strip().split(" ")
    newSubject = [word.lower() for word in newSubject]
    newSubject = " ".join(newSubject)
    
    return newSubject
    
unlabel["review"] = unlabel["review"].apply(cleanReview)
label["review"] = label["review"].apply(cleanReview)

# 將有標籤的資料和無標籤的資料合併
newDf = pd.concat([unlabel["review"], label["review"]], axis=0) 
# 儲存成txt檔案
newDf.to_csv("/content/drive/MyDrive/textClassifier/data/preProcess/wordEmbdiing.txt", index=False)

使用gensim中的word2vec API來訓練模型。

class gensim.models.word2vec.Word2Vec(sentences=None, corpus_file=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=0.001, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5, ns_exponent=0.75, cbow_mean=1, hashfxn=<built-in function hash>, iter=5, null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000, compute_loss=False, callbacks=(), max_final_vocab=None)

主要引數介紹如下：

　　　　1)sentences：我們要分析的語料，可以是一個列表，或者從檔案中遍歷讀出（word2vec.LineSentence(filename) ）。

　　　　2)size：詞向量的維度，預設值是100。這個維度的取值一般與我們的語料的大小相關，如果是不大的語料，比如小於100M的文字語料，則使用預設值一般就可以了。如果是超大的語料，建議增大維度。

　　　　3)window：即詞向量上下文最大距離，window越大，則和某一詞較遠的詞也會產生上下文關係。預設值為5，在實際使用中，可以根據實際的需求來動態調整這個window的大小。

　　　　　如果是小語料則這個值可以設的更小。對於一般的語料這個值推薦在[5；10]之間。

　　　　4) sg：即我們的word2vec兩個模型的選擇了。如果是0，則是CBOW模型；是1則是Skip-Gram模型；預設是0即CBOW模型。

　　　　5) hs：即我們的word2vec兩個解法的選擇了。如果是0，則是Negative Sampling；是1的話並且負取樣個數negative大於0，則是Hierarchical Softmax。預設是0即Negative Sampling。

　　　　6)negative：即使用Negative Sampling時負取樣的個數，預設是5。推薦在[3,10]之間。這個引數在我們的演算法原理篇中標記為neg。

　　　　7)cbow_mean：僅用於CBOW在做投影的時候，為0，則演算法中的 $x_{w}$

　　　　8) min_count：需要計算詞向量的最小詞頻。這個值可以去掉一些很生僻的低頻詞，預設是5。如果是小語料，可以調低這個值。

　　　　9)iter：隨機梯度下降法中迭代的最大次數，預設是5。對於大語料，可以增大這個值。

　　　　10)alpha：在隨機梯度下降法中迭代的初始步長。演算法原理篇中標記為 $η$

　　　　11)min_alpha: 由於演算法支援在迭代的過程中逐漸減小步長，min_alpha給出了最小的迭代步。
執行結果：

參考：https://www.cnblogs.com/jiangxinyang/p/10207273.html

IMDB影評資料集預處理(使用word2vec)

資料集下載：https://github.com/jiangxinyang227/textClassifier/blob/master/data/rawData/labeledTrainData.tsv

資料集預處理之歸一化

為什麼要資料歸一化Feature Scaling 由於原始資料值的範圍差異很大，因此在某些機器學習演算法中，如果沒有歸一化，目標函式將無法正常工作。例如，許多分類器通過歐幾里得距離來計算兩點之間的距離。如果其中一個

WMT14 en-de翻譯資料集預處理步驟

fairseq提供了一份wmt14英德數翻譯據集的預處理指令碼，簡單結合其程式碼分析一下其處理步驟：

微表情資料集預處理

c++復現資料集預處理過程，參考原始碼： https://github.com/genbing99/SoftNet-SpotME extraction_preprocess.py

KDD CUP99資料集預處理（Python實現）

目錄 KDD CUP99資料集預處理 1、資料集下載 2、KDD99網路入侵檢測資料集介紹 3、基於KDD99資料集的入侵檢測分析

python匯入dat資料_電影影評資料集實戰分析1：匯入資料

技術標籤：python匯入dat資料python匯入scikit-learn資料集 1 瞭解資料資料來自kaggle，共包括三個檔案：

使用scikit-learn對資料進行預處理

技術標籤：資料分析人工智慧資料探勘機器學習大資料歡迎關注”生信修煉手冊”!

TypeError: 'module' object is not callable (pytorch在進行MNIST資料集預覽時出現的錯誤)

在使用pytorch在對MNIST資料集進行預覽時,出現了TypeError: \'module\' object is not callable的錯誤:

關於Pytorch的MNIST資料集的預處理詳解

關於Pytorch的MNIST資料集的預處理詳解 MNIST的準確率達到99.7% 用於MNIST的卷積神經網路（CNN）的實現，具有各種技術，例如資料增強，丟失，偽隨機化等。

【2】TensorFlow光速入門-資料預處理（得到資料集）

本文地址：https://www.cnblogs.com/tujia/p/13862351.html 系列文章：【0】TensorFlow光速入門-序

C#中的深度學習（二）：預處理識別硬幣的資料集

在文章中，我們將對輸入到機器學習模型中的資料集進行預處理。這裡我們將對一個硬幣資料集進行預處理，以便以後在監督學習模型中進行訓練。在機器學習中預處理資料集通常涉及以下任務:

c# 預處理識別硬幣的資料集

自然語言處理--keras實現一維卷積網路對IMDB 電影評論資料集構建情感分類器

技術標籤：自然語言處理卷積神經網路python情感分析nlp 為什麼在 NLP 分類任務中選擇 CNN 呢？ 1.CNN神經網路可以像處理影象一樣處理文字並“理解”它們 2.主要好處是高效率 3.在許多方面，由於池化層和卷積核大

判別分析--資料預處理（劃分訓練集和測試集）

資料集我們選用kknn軟體包中的miete資料集進行演算法演示，該資料集記錄了1994年慕尼黑的住房租金標準中的一些有趣變數，比如房子的面積、是否有浴室、是否有中央供暖、是否供應熱水等，這些都影響並決定著租金的高

什麼是機器學習的特徵工程？【資料集特徵抽取（字典，文字TF-Idf）、特徵預處理（標準化，歸一化）、特徵降維（低方差，相關係數，PCA）】

2.特徵工程 2.1 資料集 2.1.1 可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/

Pytorch 資料載入與資料預處理方式

資料載入分為載入torchvision.datasets中的資料集以及載入自己使用的資料集兩種情況。

pytorch 影象中的資料預處理和批標準化例項

目前資料預處理最常見的方法就是中心化和標準化。中心化相當於修正資料的中心位置，實現方法非常簡單，就是在每個特徵維度上減去對應的均值，最後得到 0 均值的特徵。

pytorch資料預處理錯誤的解決

出錯： Traceback (most recent call last): File \"train.py\",line 305,in <module> train_model(model_conv,criterion,optimizer_conv,exp_lr_scheduler)

python資料預處理方式 :資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都

python資料預處理 :資料抽樣解析

何為資料抽樣：抽樣是資料處理的一種基本方法，常常伴隨著計算資源不足、獲取全部資料困難、時效性要求等情況使用。

IMDB影評資料集預處理(使用word2vec)

相關推薦