重新實現關於Mikolov的整合文字分類實驗（詳細過程）-

阿新 • • 發佈：2019-01-21

前言：為了實現文字分類，將一個文字內容確定的分為積極或者消極，我們採用了Mikolov的文字分類方法，通過他在試驗中的方法實現文字的二值分類。本文旨在如何重現他論文中實現的分類實驗。論文參看Mikolov的ENSEMBLE OF GENERATIVE AND DISCRIMINATIVE TECHNIQUES FOR SENTIMENT ANALYSIS OF MOVIE REVIEWS

總的來說這次實驗是磕磕絆絆，從配置環境，到改指令碼命令，最後達到理想的實驗結果。此文作為總結，將包含過程中使用到的方法、技術，以備後來使用。本文將分為四個部分來進行記錄，將完成實驗的總體步驟重新的合理部署一下，整個實驗進行下來預計在3到5個小時，安裝系統，下載相關檔案要1個多小時，訓練資料分類資料要2個多小時左右。在虛擬機器上進行實驗可能需要8個小時或者更多。

一、實驗準備

本文實驗重現的文章是Mikolov的關於Clssification的一篇Paper。Mikolov在文章中提供了他情緒分析-文字分類的實驗程式碼，程式碼是在Linux環境下執行的，所以我們需要配置一個完整的適合該實驗的環境。程式碼運用到了python，gcc環境，以及一些已有的演算法分類器。由於他的程式碼是用到什麼就下載什麼，所以有的時候會出現下載錯誤的問題導致實驗無法繼續，所以我們需要事先下載好一些實驗用到的演算法包。以下將說明我們需要準備的一切工作：

1、Linux系統iso映象（我使用的是Ubuntu14.04.3）

2、Liblinear-1.96.zip壓縮包（我將提供在附件當中）百度即可下載

3、rnnlm-0.3e.tgz壓縮包（我將提供在附件當中，此包經常會下載丟失，所以需要先下載好）百度即可下載

4、python numpy環境包，在http://sourceforge.net/projects/numpy/files中下載numpy包

5、虛擬機器VMWare或者一臺裝了Linux的電腦（起初我用的是虛擬機器，但是效率太低。所以最後借了一臺電腦重新裝了Ubuntu系統重新走了一遍該實驗，實驗效率瞬間提高）

二、Ubuntu下的環境配置

在虛擬機器上安裝系統或者裝Linux系統我就不在此過多贅述，不是重點。

1、進入Ubuntu系統，調出終端Ctrl+Alt+T

2、輸入sudo passwd回車會提示你輸入你設定的系統密碼，然後繼續回車，此處自己設定新的root許可權密碼。

3、輸入sudo apt-get install gcc/sudo apt-get install g++，下載並且安裝gcc/g++環境。

4、將我們事先準備好的numpy包拷貝到系統中並且解壓，通過cd命令進入解壓後的路徑，輸入命令

sudo python setup.py install安裝此包（注意空格），在此之前需要鍵入sudo apt-get install python-dev安裝此包。

5、安裝vim，輸入sudo apt-get install vim

6、現在開始設定github的SSHkey，因為指令碼中呼叫了github中的專案倉庫中的程式碼。在終端中輸入ssh-keygen

然後系統提示你儲存SSH的位置，此時我們敲三次回車預設通過。然後系統會生成一個sshKey的檔案儲存在~/.ssh/id_rsa.pub。此時我們鍵入命令 vim ~/.ssh/id_rsa.pub開啟檔案，全選檔案中的字元，從ssh -rsa開始到最後一個字元，複製到我們新建的.md檔案中暫作儲存。

接著拷貝.ssh/id_rsa.pub檔案內的所以內容，將它粘帖到github帳號管理中的新增SSH key介面中。

開啟github帳號管理中的新增SSH key介面的步驟如下：

1. 登入github

2. 點選右上方的Accounting settings圖示

3. 選擇 SSH key

4. 點選 Add SSH key

在出現的介面中填寫SSH key的名稱，填一個你自己喜歡的名稱即可，然後將上面拷貝的~/.ssh/id_rsa.pub檔案內容粘帖到key一欄，在點選“add key”按鈕就可以了。

新增過程github會提示你輸入一次你的github密碼。

新增完成後再次執行git clone就可以成功克隆github上的程式碼庫了。

三、實驗步驟

1、將Mikolov提供的iclr15檔案拷貝到Ubuntu系統當中。將我們準備好的Liblinear和rnnlm包拷貝到Ubuntu當中以備使用。

2、接下來我們修改一些指令碼程式碼，因為原始程式碼會刪除一些下載好的包，我們需要這些包所以需要修改。

首先進入iclr15/scripts，找到data.sh指令碼開啟，將其中包含rm的移除命令程式碼全部刪除或者用#註釋掉。

進入install_liblinear.sh檔案，將wget一行程式碼刪除或者註釋掉，同時將rm命令程式碼刪除或者註釋掉。

進入rnnlm.sh檔案，將wget一行程式碼刪除或者註釋掉，同時將rm命令程式碼刪除或者註釋掉。

進入paragraph.sh檔案，將rm命令程式碼刪除或者註釋掉。

3、在iclr15資料夾所在目錄建立一個新的資料夾命名為iclr15_run，在其中建立rnnlm資料夾。然後將liblinear包拷貝到iclr15_run目錄下，將rnnlm包拷貝到rnnlm資料夾中。

4、調出終端，用cd命令進入到iclr15資料夾，鍵入chmod +x oh_my_go.sh。然後鍵入./oh_my_go.sh開始實驗。

5、整個實驗過程是，在斯坦福網站下載訓練資料（影評資料），將下載好的分類資料分配到train，test，unsup資料夾中以備使用，呼叫rnnlm演算法模型訓練資料，並且測試資料。呼叫word2vec（作者基於此提出的paragraphVec分類方法）訓練並測試資料。呼叫NB-SVM演算法模型訓練並測試資料，通過ensenmble整合測試效果，得出各個整合情況的評分。同時將整合的權重顯示出來。更細緻的整合過程此處沒有討論。

四、實驗結果

五、關於訓練好的分類器的使用

此處我用於測試的分類器使用的是Mikolov已經提出很久的rnnlm的分類器。當模型訓練好之後，模型的相關引數會儲存在後綴為xxx.output.txt的檔案中，其中前面的xxx是你訓練的模型儲存的名字。

再次用此模型訓練時在模型根目錄下鍵入命令:./rnnlm -train train -valid valid -rnnlm model -hidden 15 -rand-seed 1 -debug 2 -class 100 -bptt 4 -bptt-block 10 -direct-order 3 -direct 2 -binary

測試檔案時在模型根目錄下鍵入命令:./rnnlm -rnnlm model -test test -debug 0 -nbest > modelScore

其中 -train：訓練檔案

-valid：校驗集的名稱（一般為訓練檔案中的一小部分）

-rnnlm：輸出模型的名稱

-hidden：隱含層神經元個數

-debug：控制開關，設定值不同會提供一些輸出，設為2會輸出執行時引數。

-bptt：控制通過環反向傳播錯誤。

-class：指定單詞的分類。100表示分為100類。

-test：測試檔案。

-rand-seed：指定隨機種子，用來初始化網路的權值的，比如指定為1,那麼內部會執行srand(1)，網路的權值會初始化為一堆隨機小數，如果你指定為2,那麼網路會被初始化為另一堆不同於值為1的隨機小數。

-direct-order：這個引數是指定rnn中me（最大熵模型）部分特徵的階數。最大是不會超過20的，超過20也會自動指定為20。

-binary：這個引數如果沒有，則預設為text方式，區別在於binary是用二進位制方式儲存資料，text是以ascii方式，對於大量的浮點數來說，binary能更省檔案大小，但是缺點是用檔案開啟，裡面都是亂碼。

-direct：這個引數的含義就比較技術細節了，它來指定網路輸入層到輸出層所存放權值的一維陣列的大小，並且單位是一百萬，比如現在指定的值為2,其內部大小是2000000。

重新實現關於Mikolov的整合文字分類實驗（詳細過程）-

重新實現關於Mikolov的整合文字分類實驗（詳細過程）-

文字分類實驗（多分類）

Android Studio 快速實現上傳專案到Github（詳細步驟）

儲存過程、觸發器和使用者自定義函式實驗（儲存過程）

[spark程序]統計人口平均年齡（本地文件）（詳細過程）

2018護網杯的pwn簽到題（詳細過程）

第一次在VS2010下MFC採用ADO方式連線ACCESS資料庫（詳細過程）

如何使用BERT實現中文的文字分類（附程式碼）

[深度應用]·Keras實現Self-Attention文字分類（機器如何讀懂人心）

使用條件隨機場模型解決文字分類問題（附Python程式碼）

《機器學習》周志華學習筆記第七章貝葉斯分類器（課後習題）python 實現

Asp.net Core 使用Jenkins + Dockor 實現持續整合、自動化部署（二）：部署

Asp.net Core 使用Jenkins + Dockor 實現持續整合、自動化部署（一）：Jenkins安裝

文字分類概述（nlp）

Spark MLlib實現的中文文字分類–Naive Bayes

教程 | 用Scikit-Learn實現多類別文字分類

R語言：實現文字分析例項（基礎篇）

文字分類實戰（一）—— word2vec預訓練詞向量

文字分類實戰（四）—— Bi-LSTM模型文字分類實戰（一）—— word2vec預訓練詞向量

文字分類實戰（七）—— Adversarial LSTM模型文字分類實戰（一）—— word2vec預訓練詞向量

重新實現關於Mikolov的整合文字分類實驗（詳細過程）-

相關推薦