運行DrQA實例

阿新 • • 發佈：2018-08-27

自然 -c family .json layer to do flatten o-c parser

運行DrQA實例

如按照<DrQA安裝手冊>成功運行 bash ./download.sh 後，我們將得到完整的DrQA項目，接下來我們將通過訓練一個實例去了解DrQA系統。我們的工程只用到了DrQA的閱讀理解部分，所以實際操作可能和DrQA官網上有些不一樣，但是流程是一致的，主要分為數據處理、訓練並生成模型、利用模型進行交互這三個部分。

　　1.數據處理

　　運行python prepro.py.

　　數據處理是我們需要了解最為詳細的部分（事實上我們在模型訓練的部分無需做太多的改動。）

　　（1）flatten_json：

　　 flatten_json的作用是將實際數據進行解析，並將訓練集處理為

row（id_, context, question, answer, answer_start, answer_end），驗證集處理為(id_, context, question, answer)。其中的answer_start, answer_end分別表示問題在文本中起始的位置與結束的位置。這部分的代碼需要根據實際需要去更改，原工程的訓練集與驗證集放在SQuAD下，可以在loadDataset下方的trn_file = ‘SQuAD/xxxx‘；dev_file = ‘SQuAD/xxxx‘進行修改。

　　（2）init：

　　init是初始化的地方，spacy之類的tokenizer

就在此處初始化；由於我們的工程借助到哈工大的pyltp，所以 Segmentor，Postagger，NamedEntityRecognizer的model導入也在此處進行。

　　（3）annotate：

　　annotate是將導入的數據處理成基本特征的部分。返回的參數格式是(id_, context_tokens, context_features, context_tags,context_ents,question_tokens, context, context_token_span，id, context, question）。其中context_tags、context_ents

分別是詞性標識和命名實體標識；context_features則由match_origin, match_lower, match_lemma, context_tf組成，其中match_lower, match_lemma在中文自然語言分析中是沒有的；而context_token_span則是標識每個詞在文段中的位置。

（4）build_vocab和to_id

　　這部分將會把每個詞語與詞向量文件相互對應，將每個詞轉換為詞向量中的ID。原系統的詞向量是在glove中的glove.840B.300d.txt，有5.6G那麽大，每個詞的維度都為300，可以在如下代碼處自定義詞向量文件的位置和每個詞的維度。在轉換好後，原來的每個詞語都將被標記為一個ID，通過這個ID便可以檢索其對應的300維向量。

　　parser.add_argument(‘--wv_file‘, default=‘glove/glove.840B.300d.small.txt‘,help=‘path to word vector file.‘)

　　parser.add_argument(‘--wv_dim‘, type=int, default=300,help=‘word vector dimension.‘)

　　接下來就是寫入文件的部分，在提示saved to disk後，文件將被存到SQuAD/sample.msgpack中，然後便可以用其進行訓練。在預處理過程中有可能會報缺少__init__.py，這時可以嘗試建立一個空的__init__.py在drqa目錄下。

　　2.訓練

　　運行python train.py.

訓練這部分比較復雜，train會調用model.py，layers.py，rnn_reader.py這些文件去進行訓練，會耗費大量的時間，在trian裏面有參數設定的說明。如:

　　parser.add_argument(‘-e‘, ‘--epochs‘, type=int, default=40)

　　parser.add_argument(‘-bs‘, ‘--batch_size‘, type=int, default=32)

　　parser.add_argument(‘-rs‘, ‘--resume‘, default=‘best_model.pt‘,
　　help=‘previous model file name (in `model_dir`). ‘
　　‘e.g. "checkpoint_epoch_11.pt"‘)
　　parser.add_argument(‘-ro‘, ‘--resume_options‘, action=‘store_true‘,
　　help=‘use previous model options, ignore the cli and defaults.‘)
　　parser.add_argument(‘-rlr‘, ‘--reduce_lr‘, type=float, default=0.,
　　help=‘reduce initial (resumed) learning rate by this factor.‘)

　　運行時候可能會報缺少cuda，可以通過註釋model中的#‘torch_cuda_state‘: torch.cuda.get_rng_state() 。

　　訓練得到的每個checkpoint和best model都會被存到models文件夾下。需要註意的是，每次開始訓練時，train都會去加載原有的model，因此在采用不同數據集進行計算時候會出現維度不匹配的錯誤,因此我們需要把models裏的文件及時遷移。

　　3.交互

　　運行python scripts/reader/interactive.py --model /path/to/model

　　這裏的 model 便是我們之前計算得出的模型；如果忽略就會使用默認的模型。

　　如果要在數據集上執行模型預測，則運行如下代碼：

　　python scripts/reader/predict.py /path/to/format/B/dataset.json --model /path/to/model

　　同樣，官網也給出了很多的參數

　　--reader-model Path to trained Document Reader model.

　　--retriever-model Path to Document Retriever model (tfidf).

　　--doc-db Path to Document DB.

　　--tokenizers String option specifying tokenizer type to use (e.g. ‘corenlp‘).

　　--candidate-file List of candidates to restrict predictions to, one candidate per line.

　　--no-cuda Use CPU only.

　　--gpu Specify GPU device id to use.

　　至此，我們便跑完了一整個DrQA的流程。

運行DrQA實例

自然 -c family .json layer to do flatten o-c parser 運行DrQA實例如按照<DrQA安裝手冊>成功運行 bash ./download.sh 後，我們將得到完整的DrQA項目，接下來我們將通過訓練一個實例

運行DrQA實例

運行DrQA實例

運行DrQA實例

WPF 設置只能運行一個實例

vue.js學習筆記1——安裝及創建並運行vue實例

聊一聊Vue實例與生命周期運行機制

WPF防止重復運行實例

Windows下用cmd命令實例講解yii2.0在php命令行中運行的步驟

C#中用管理員身份運行程序代碼實例

C#運行時通過字符串實例化類對象

Zabbix利用JMX監控多實例Tomcat運行狀態

selenum threding多線程運行實例

ACE在linux下的安裝和實例運行詳細步驟

java中檢測-在運行時指定對象是否是特定類的一個實例---關鍵字 instanceof

php-fpm多實例運行

react介紹、環境搭建、demo運行實例

解決任務計劃程序未啟動任務，因為相同任務的實例正在運行的問題

Inno Setup安裝程序單例運行

python+selenium+unitest用例失敗重運行

Linux(centos 6.5) 調用java腳本以及定時運行的腳本實例及配置文件具體解釋

運行用例時，報錯Unknow Error：Element xxx is not clickable……的解決方法

計算程序運行的時間（以求得1-10000之間的素數為例）

運行DrQA實例

運行DrQA實例

相關推薦