QA(二)：利用Attention機制，帶著問題閱讀

摘要

本文介紹一種結合 math-LSTM 和Pointer Net利用end-end的來解決QA問題的方式

模型

最主要的還是 match-LSTM：有兩個句子，一個是前提，另外一個是假設，match-LSTM序列化的經過假設的每一個詞，然後預測前提是否繼承自假設。

簡單的說：帶著問題去閱讀原文，然後用得到的資訊去回答問題

先利用LSTM閱讀一遍passage，得到輸出的encoding 序列
然後帶著question的資訊，重新將passage的每個詞輸入LSTM，再次得到passage的encoding資訊。但是這次的輸入不僅僅只有passage的資訊，還包含這個詞和question的關聯資訊，它和qustion的關聯資訊的計算方式就是我們在seq2seq模型裡面最常用的attention機制。

然後將資訊輸入answer模組，生成答案

下面介紹詳細的模型

1. 預處理層LSTM Preprocessing層

首先對文字和問題分別單獨用LSTM進行單向的encoder

Hp=LSTM(P)Hq=LSTM(Q)
Hp∈R[l,p],Hq∈R[l,q]
l 是LSTMcell的隱藏層大小，p和q分別是文字passage 和問題question的長度
程式碼很簡單，兩個序列分別經過LSTM序列模型，就得到encoder向量。

lstm_cell_question = tf.nn.rnn_cell_impl.BasicLSTMCell(l, state_is_tuple=True 
)
encoded_question, q_rep = tf.nn.dynamic_rnn(lstm_cell_question, question,masks_question,dtype=tf.float32)

lstm_cell_passage = tf.nn.rnn_cell_impl.BasicLSTMCell(l, state_is_tuple=True)
encoded_passage, p_rep = tf.nn.dynamic_rnn(lstm_cell_passage, passage,masks_passage, dtype=tf.float32)

2. Match-LSTM 層

帶著qustion來閱讀passage，利用的是利用了 Bahdanau Attention機制機制，具體可以見該論文。

但是為了詳細描述，在這裡還是詳細的描述一遍：

整體的思路可以看作我們在decoder passage，我們聚焦的是qustion向量：
hri=LSTM(zi,hri−1)

由attention機制我們可以知道，這裡的zi是融合passage的input和對qustion的attention資訊：

zi=[hpif(Hq)]

Hp是prcess層利用LSTM將passage預處理後得到的，
第i個詞的向量為hpi∈Rl，我們在hpi之後加一個qustion相關的資訊，

令：f(Hq)=Hqαi

其中αi是文字passage裡面的第i個詞，首先計算第i個詞和question裡面每一個詞的相關性權重

αi就是attention的alignment model：

Gi=tanh(WqHq+(Wphpi+Wrhri−1+bp)⨂eQ)αi=softmax(wtGi+b⨂eQ)

# tensorflow 裡面有現成的BahdanauAttention類
match_lstm = BahdanauAttention(l, q)

這樣我們就得到了αi

這樣我們可以完整的迭代這個序列模型：

hri=LSTM(zi,hri−1)

同理我們將passage倒敘，可以得到倒敘的LSTM模型

hri^=LSTM(zi^,hri−1^)

我們令forward和backward得到的轉檯矩陣分別為Hr,Hr^, 我們把兩個矩陣直接連線起來得到最終的狀態矩陣

Hr=[HrHr^]
Hr∈R[2l,p]

# LSTM Cell
cell = BasicLSTMCell(l, state_is_tuple=True)
lstm_attender = AttentionWrapper(cell, match_lstm)
reverse_encoded_passage = _reverse(encoded_passage)

# bi-dir LSTM
output_attender_fw, _ = tf.nn.dynamic_rnn(lstm_attender, encoded_passage, dtype=tf.float32, scope="rnn")
output_attender_bw, _ = tf.nn.dynamic_rnn(lstm_attender, reverse_encoded_passage, dtype=tf.float32, scope="rnn")

output_attender_bw = _reverse(output_attender_bw)

# concat
output_attender = tf.concat([output_attender_fw, output_attender_bw], axis=-1)

3. Answer Pointer

Answer Pointer的思想是從Pointer Net得到的，
它將Hr作為輸入，生成答案有兩種方式：
1. sequence，自動生成答案序列, 序列裡面的詞是從passage裡面選取出來的
2. boundary，答案從passage裡面擷取，模型生成的是開始和結束下標

Sequence

假設我們的答案序列為：
a=(a1,a2,...)
其中ai為選擇出來答案的詞在原文passage裡面的下標位置，

QA(二)：利用Attention機制，帶著問題閱讀

摘要

模型

1. 預處理層LSTM Preprocessing層

2. Match-LSTM 層

3. Answer Pointer

Sequence

QA(二)：利用Attention機制，帶著問題閱讀

[Java]I/O底層原理之二：Socket工作機制

使用jmeter+ant進行接口自動化測試(數據驅動)之二：利用apache-ant執行測試用例並生成HTML格式測試報告

Python3網絡爬蟲(二)：利用urllib.urlopen向有道翻譯發送數據獲得翻譯結果

“陶華碧”該不該融資系列之二：坐莊的方程式，錯誤的市值管理是怎樣毀滅創業者的

pytorch實現self-attention機制，並可視化

深入理解JVM虛擬機器(二)：垃圾回收機制

區塊鏈共識技術二：pos共識機制

python實戰二：使用CSV資料繪製帶資料標誌的折線圖（matplotlib）

Python練習題4（列表去重）：[5,3,4,'ok',4,3,'abc',8,52,'ok']去除列表中重複內容方法一：使用set 方法二：不使用set，自己寫方法

python3：利用切片操作，實現一個trim()函式，去除字串首尾的空格

JAVA實驗二：利用二維陣列（double[]）實現一個矩陣類：Matrix的相乘、轉置、相加等

html5學習筆記二：利用canvas繪製簡單圖形

pytorch筆記：09)Attention機制

避免超時方法二：優化資料輸入，淺談getchar，cin，scanf，fread

【微服務】之二：從零開始，輕鬆搞定SpringCloud微服務系列--註冊中心（一）

【機器學習】【seq2seq模型與attention機制，Beam Search】

漫談計算攝像學 (二)：利用光場實現“先拍照後對焦”

學習筆記之Python 切片：利用切片操作，實現一個trim()函式，去除字串首尾的空格

python練習六十二：文件處理，往文件中所有添加指定的前綴

QA(二)：利用Attention機制，帶著問題閱讀

摘要

模型

1. 預處理層LSTM Preprocessing層

2. Match-LSTM 層

3. Answer Pointer

Sequence

相關推薦