NRE論文總結：Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

阿新 • • 發佈：2019-01-09

acl論文閱讀（Attention-Based Bidirectional Long Short-Term Memory Networks for
Relation Classification，中科大自動化所 Zhou ACL 2016）

資料集詳情

SemEval-2010 Task 8 dataset

training
8,000 sentences
testing
2,717 sentences
validation
randomly select 800 sentence

演算法

blstm+attention機制，使用BLSTM對句子建模，並使用word級別的attention機制。

引數

rate
1.0
minibatch size
10
L2 regularization strength
10−5
the dropout rate
embedding layer：0.3
LSTM layer： 0.3
the penultimate layer：0.5
Other parameters in our model are initialized randomly

效果

此論文所使用的方法F1值可以達到84.0，目前所有方法中最高的F1值為84.3（BLSTM (Zhang et al., 2015)），但此方法的缺陷是需要手動構造特徵，而此論文是把資料灌入模型，不需要手動提特徵。

演算法詳情

Input Layer：將原始句子輸入該層，x_i:句子中的每個單詞,T:句子中單詞個數
embedding層：將每一個單詞對映到一個低維向量，e_i：每個詞的向量，可以是word2vec的結果；
LSTM層：利用BLSTM模型從step(2)中得到高階特徵；
attention層：產生一個權重向量，並與LSTM的每一個時間點上word-level特徵相乘得到sentence-level特徵向量；
output層：將得到的senten-level特徵向量用於關係分類。

疑惑

論文對lstm正反向結果的處理（即上文中的第三步）
和之前直接把lstm的最終正反向輸出直接拼接相比，作者這裡是把每一個單詞的前饋輸出與反饋輸出逐個元素求和得到的向量作為最後的輸出，關於這一塊文中並沒有給出具體解釋。

Attention機制中權重的處理
和隨機初始化不同的是，本論文中的權重和lstm層的輸出有關，文中沒有具體解釋這樣做的原因。

程式碼

沒有找到論文的原始碼，從github找到一份類似思想的指令碼進行除錯，指令碼除錯過程。

其他

論文理解的不透，程式碼也處於很弱的階段，且行且珍惜，祝自己保持初心！

NRE論文總結：Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

acl論文閱讀（Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification，中科大自動化所 Zhou ACL 2016）資料集詳情 SemEval-2010 Ta

[ACL2016]Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

關係分類在自然語言處理領域是一個很重要的語義處理任務，目前state-of-the-art system非常依賴於lexical resources 比如WordNet或者dependency parser 和NER. 還有一個挑戰是重要資訊不知道在句中的什麼位

Attention-Based Bidirectional Long Short-Term Memory for Relation Classification雙向lstm實體關係分類

本文章主要內容為關係分類的重大挑戰是一個短文字的重要資訊的位置並不確定提出的attention雙向lstm；attention在許多部落格都有相關解釋，這裡不作說明，雙向lstm是對單向lstm做的改進，要通過上下文資訊對當前lstm神經元做影響；

Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks-paper

1 introduction Most models for distributed representations of phrases and sentences—that is, models where realvalued vectors are u

論文筆記：Long Short-Term Memory

LongShort-Term Memory 摘要通過recurrent BP方式來學著儲存隨時間間隔變化的資訊會花費很長的時間。我們引進了新奇的，有效的，基於梯度的方法：LSTM（至少在1997年的時候這麼評價還算公正）。且能夠解決一些標籤比較長的分

(zhuan) Attention in Long Short-Term Memory Recurrent Neural Networks

have step points degree paper exc issues arr decision Attention in Long Short-Term Memory Recurrent Neural Networks by Jason Brownlee on

Long short-term memory 論文小記

這是Hochreiter（1997）的一篇老論文，我為了一睹lstm的原創遺風而讀。本來想看看最樸素最正宗的lstm模型，結果卻發現在本文中作者並未提出一種特有的模型。文章很長，並不打算翻譯。下面是我的一些總結和見解，純粹小菜鳥的個人觀點，大家多多指正，非常歡迎

CNN Long Short-Term Memory

model = Sequential() # define CNN model model.add(TimeDistributed(Conv2D(...)) model.add(TimeDistributed(MaxPooling2D(...))) model.add(TimeDi

RNN--長短期記憶(Long Short Term Memory, LSTM)

長短期記憶(Long Short Term Memory, LSTM) 是一種 RNN 特殊的型別，可以學習長期依賴資訊。記住長期的資訊在實踐中是 LSTM 的預設行為，而非需要付出很大代價才能獲得的能力！ LSTM 單元和普通 RNN 單元的區別在標準的 RNN 中，

非監督特徵學習與深度學習（十五）--------長短記憶（Long Short Term Memory，LSTM）

LSTM LSTM概述長短記憶(Long Short Term Memory,LSTM)是一種 RNN 特殊的型別，可以學習長期依賴資訊,它引入了自迴圈的巧妙構思，以產生梯度長時間持續流動的路徑，解決RNN梯度消失或爆炸的問題。在手寫識別、

Long Short-Term Memory（LSTM）

迴圈神經網路（Recurrent Neural Network，RNN）可以通過許多不同的方式建立，但就像幾乎所有函式都可以被認為是前饋網路，基本上任何涉及迴圈的函式可以被認為是一個迴圈神經網路。它的基本結構以及其展開的理解如下圖所示：同一網路被視為展開的計算圖，其中每個節點現在

吳恩達Deeplearning.ai 第五課 Sequence Model 第一週------Long Short Term Memory(LSTM)

這一節主要講解了LSTM單元 LSTM和GRU略有區別，可以說是一種更加通用的GRU模型在LSTM中，c<t>不再等於a<t>，因此原來公式中的c<t-1>要改成a<t-1>，同時在LSTM中，也沒有了Γ

【論文閱讀】Beyond Short Snippets: Deep Networks for Video Classification

【論文閱讀】Beyond Short Snippets: Deep Networks for Video Classification 之前3DCNN網路的論文算是記錄完了，雖然最近又出了幾篇，但是時間有限，很快要去實習去了，剩下的以後有時間再講吧。本篇論文算是CNN+LSTM網路結構

長短期記憶網路（Long Short-Term Memory，LSTM）及其變體雙向LSTM和GRU

LSTM（Long Short-Term Memory）長短期記憶網路，是一種時間遞迴神經網路，適合於處理和預測時間序列中間隔和延遲相對較長的重要事件。LSTM是解決迴圈神經網路RNN結構中存在的“梯度消失”問題而提出的，是一種特殊的迴圈神經網路。最常見的一個例子就是：當我們

Long-Short Term Memory(長短時記憶模型)

長短期記憶（Long-Short Term Memory, LSTM）是一種時間遞迴神經網路(RNN)，論文首次發表於1997年。由於獨特的設計結構，LSTM適合於處理和預測時間序列中間隔和延遲非常長的重要事件。 LSTM的表現通常比時間遞迴

論文總結：Freeway：自適應地隔離大象流和老鼠流在不同的路徑上傳輸

摘要-今天的資料使用者之間的網路資源競爭非常激烈，長壽命的大象流和延遲敏感的老鼠流之間的競爭非常激烈。對於這兩類流來說，分別實現高吞吐量和低延遲的目標需要妥協，目前還沒有成功的研究是因為沒有區別對待大象流和老鼠流，而都當成一種流量進行路由。當前的資料中心通常採用基於CLOS的拓撲結構，例如FAT樹、

論文閱讀：Attention to Scale: Scale-aware Semantic Image Segmentation

注意力機制其實就是對feature map做加權，且加權的權重在訓練的時候學習的。很多語義分割網路融合了多尺度（多解析度）的特徵，但方法不盡相同。一種常見的結構是SPP（Spatial Pooling Pyramid），另一種方法則是使用不同解析度的分

論文總結： 2009-Pedestrian Detection: A Benchmark

參考文獻：Dollar P, Wojek C, Schiele B, et al. Pedestrian detection: A benchmark[J]. Proc Cvpr, 2009:304-311. 論文的主要貢獻： 1. 介紹了Calte

『論文閱讀』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling

來自於論文：《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》基於attention的encoder-decoder網

論文閱讀：Combining volumetric dental CT and optical scan data for teeth modeling

【論文資訊】 Combining volumetric dental CT and optical scan data for teeth modeling 2015 CAD contribution： CT結合網格，新穎協同分割，graph-cut

NRE論文總結：Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

資料集詳情

演算法

引數

效果

演算法詳情

疑惑

程式碼

其他

相關推薦