《A Self-Attention Setentence Embedding》閱讀筆記及實踐

阿新 • • 發佈：2019-02-15

演算法原理

本文利用self-attention的方式去學習句子的embedding，表示為二維矩陣，而不是一個向量，矩陣中的每一行都表示句子中的不同部分。模型中使用了self-attention機制和一個特殊的regularization term。
這裡寫圖片描述
假設我們有一個句子 $S$ , 包含 $n$ 個單詞

S = (w_{1}, w_{2}, w_{3}, . . ., w_{n})

每個

w_{i}

都是

d

維的詞向量，所以

S

是一個二維的矩陣，形狀為(n,d)。

上圖中的圖(a)是整個模型的流程，圖(b)是計算self-attention的過程。具體的。為了得到單詞之間的相關性，使用雙向LSTM處理這個句子:

\vec{h_{t}} = \vec{L S T M} (w_{t}, \vec{h_{t - 1}}) \overset{\leftarrow}{h_{t}} = \overset{\leftarrow}{L S T M} (w_{t}, \overset{\leftarrow}{h_{t + 1}})

將

\vec{h_{t}}

和

\overset{\leftarrow}{h_{t}}

級連在一起，得到隱狀態(hidden state)

h_{t}

。讓每一個單向LSTM隱狀態單元數是

u

，那麼

H

的形狀就是

(n, 2 u)

H = (h_{1}, h_{2}, . . ., h_{n})

我們的目的是為了將變長的句子編碼成固定長度的向量或者矩陣。可以使用

H

中

n

個LSTM隱向量的線性組合來表示。因此我們引入了self-attention機制。
所謂的self-attention，就是不同的詞有不同的重要性，這個重要性也是根據單詞和句子本身計算得到的。上圖中的圖(b)解釋了self-attention的計算過程. 將整個LSTM的隱狀態作為輸入，輸出權重向量

a

a = s o f t m a x (w_{s 2} t a n h (W_{s 1} H^{T}))

其中

W_{s 1}

權重矩陣的形狀是

(d_{a}, 2 u)

，

w_{s 2}

是長度為

d_{a}

的一維向量。因為

H

的形狀是

(n, 2 u)

,得到向量

a

的最終長度為

n

,因為

s o f t m a x

函式可以保證最終和為1，最後將LSTM的隱狀態

H

和計算得到的

a

向量加權求和，就可以得到句子的表示

m

這種向量表示一般專注於句子的某個方面。為了實現attention的多樣性, 即我們想提取出

r

個不同的attention，不同的attention方案可以學習到不同側重點的句子表示，可以用如下公式計算：

A = s o f t m a x (W_{s 2} t a n h (W_{s 1} H^{T}))

《A Self-Attention Setentence Embedding》閱讀筆記及實踐

演算法原理

《A Self-Attention Setentence Embedding》閱讀筆記及實踐

Representation Learning: A Review and New Perspectives閱讀筆記

《Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network》閱讀筆記

《Systems Performance》閱讀筆記及收穫

《An Attentive Survey of Attention Models》閱讀筆記

《自控力》讀書筆記及實踐

OpenCV文件閱讀筆記-brief Creates a window官方解析及例項

QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION 論文閱讀筆記

Look into Person: Joint Body Parsing & Pose Estimation Network and A New Benchmark閱讀筆記

Person Re-identification 系列論文筆記（二）：A Discriminatively Learned CNN Embedding for Person Re-identification

《Self-Protection of Android Systems from Inter-component Communication Attacks》論文閱讀筆記

3D點雲資料分析：pointNet++論文分析及閱讀筆記

【論文閱讀筆記】Deep Learning based Recommender System: A Survey and New Perspectives

A CONVERSATIONAL NEURAL LANGUAGE MODEL FOR SPEECH RECOGNITION IN DIGITAL ASSISTANTS文獻閱讀筆記

論文閱讀筆記十八：ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

基於深度self-attention的字符集語言模型（transformer）論文筆記

論文閱讀筆記3——基於域適應弱監督學習的目標檢測Cross-Domain Weakly-Supervised Object Detection through Progressive Domain A

閱讀筆記之——《Multi-level Wavelet-CNN for Image Restoration》及基於pytorch的復現

Qt文件閱讀筆記-QPropertyAnimation官方解析及例項

Qt文件閱讀筆記-windowOpacity官方解析及例項（兩種方法使得程式漸變出現）