keras實現attention based sequence to sequence model(首稿)

阿新 • • 發佈：2019-02-03

class AttentionGRU(GRU):

  def __init__(self, atten_states, states_len, L2Strength, **kwargs):
    '''
    :param atten_states: previous states for attention
    :param states_len: length of state
    :param L2Strength: for regularization
    :param kwargs: for GRU
    '''
    self.p_states = atten_states
    self.states_len = states_len
    self.size = kwargs['units' 
]
    self.L2Strength = L2Strength
    super(AttentionGRU, self).__init__(**kwargs)

  def build(self, input_shape):
    input_dim = input_shape[-1]
    input_length = input_shape[1]
    self.W1 = self.add_weight(shape = (self.units + input_dim, 1),
                              initializer = 'random_uniform' 
,
                              regularizer=l2(self.L2Strength),
                              trainable = True)
    self.b1 = self.add_weight(shape=(1,),
                              initializer = 'zero',
                              regularizer=l2(self.L2Strength),
                              trainable= True 
)
    self.W2 = self.add_weight(shape=(self.units + input_dim, self.units),
                              initializer='random_uniform',
                              regularizer=l2(self.L2Strength),
                              trainable=True)
    self.b2 = self.add_weight(shape=(self.units,),
                              initializer='zero',
                              regularizer=l2(self.L2Strength),
                              trainable=True)

    super(AttentionGRU, self).build(input_shape)

  def step(self, inputs, states):
    h, _ = super(AttentionGRU, self).step(inputs, states)

    alfa = K.repeat(h, self.states_len) # alfa = [batch_size, states_len, units]
    alfa = K.concatenate([self.p_states, alfa], axis = 2) # alfa = [batch_size, states_len, 2*units]
    scores = K.tanh(K.dot(alfa, self.W1) + self.b1) # scores = [batch_size, states_len, 1]
    scores = K.softmax(scores) 
    scores = K.reshape(scores, (-1, 1, self.states_len)) # scores = [batch_size, 1, states_len]
    attn = K.batch_dot(scores, self.p_states) # attn = [batch_size, 1, units]
    attn = K.reshape(attn, (-1, self.units))  # attn = [batch_size, units]

    h = keras.layers.concatenate([h, attn]) # h = [batch_size, 2*units]
    h = K.dot(h, self.W2) + self.b2 # h = [batch_size, units] 
    return h, [h]

  def compute_output_shape(self, input_shape):
    return input_shape[0], self.units

需要把encoder的states傳給引數atten_states，然後就當Keras裡標準的GRU用就好了。因為是GRU不是LSTM，所以step裡計算方式和論文裡有點不一樣。units是hidden size，這裡假設encoder和decoder的hidden size一樣。

keras實現attention based sequence to sequence model(首稿)

class AttentionGRU(GRU): def __init__(self, atten_states, states_len, L2Strength, **kwargs): ''' :param atten_states: pr

Sequence to Sequence 實現機器翻譯（keras demo）

最近在研究對話機器人，剛好看了幾篇論文，參考keras demo理解。原理請參考： - Sequence to Sequence Learning with Neural Networks https://arxiv.org/abs/1409.32

AliMe Chat: A Sequence to Sequence and Rerank based Chatbot Engine論文筆記

摘要阿里小蜜是開放域的問答系統，是檢索式問答系統和生成式問答系統的結合體。框架直接上流程圖，比較清晰使用者輸入一個問題q，先採用IR(Information Retrieval)模型檢索出一些資料庫中的QA對作為候選，然後採用attentive Seq2Seq模型對上述

NLP中Sequence-to-Sequence model程式碼詳解

在NLP領域，sequence to sequence模型有很多應用，比如機器翻譯、自動應答機器人等。在看懂了相關的論文後，我開始研讀TensorFlow提供的原始碼，剛開始看時感覺非常晦澀，現在基本都弄懂了，我在這裡主要介紹Sequence-to-Sequen

論文筆記-Sequence to Sequence Learning with Neural Networks

map tran between work down all 9.png ever onf 大體思想和RNN encoder-decoder是一樣的，只是用來LSTM來實現。 paper提到三個important point： 1）encoder和decoder的LSTM

Seq2Seq sequence-to-sequence模型簡介

enc art 翻譯文本序列聊天機器人問題 .net 自動問答 Sequence-to-sequence (seq2seq) 模型。突破了傳統的固定大小輸入問題框架開創了將DNN運用於翻譯、聊天(問答)這類序列型任務的先河並且在各主流語言之間的相互翻譯，和語

TensorFlow中Sequence-to-Sequence樣例程式碼詳解

　　在NLP領域，sequence to sequence模型有很多應用，比如機器翻譯、自動應答機器人等。在看懂了相關的論文後，我開始研讀TensorFlow提供的原始碼，剛開始看時感覺非常晦澀，現在基本都弄懂了，我在這裡主要介紹Sequence-to-Sequence Models用到

機器翻譯模型之Fairseq：《Convolutional Sequence to Sequence Learning》

近年來，NLP領域發展迅速，而機器翻譯是其中比較成功的一個應用，自從2016年穀歌宣佈新一代谷歌翻譯系統上線，神經機器翻譯（NMT，neural machine translation）就取代了統計機器翻譯（SMT，statistical machine translation），在翻譯

【論文閱讀】Sequence to Sequence Learning with Neural Networks

看論文時查的知識點前饋神經網路就是一層的節點只有前面一層作為輸入，並輸出到後面一層，自身之間、與其它層之間都沒有聯絡，由於資料是一層層向前傳播的，因此稱為前饋網路。 BP網路是最常見的一種前饋網路，BP體現在運作機制上，資料輸入後，一層層向前傳播，然後計算損失函式，得到損失函式的殘差

Sequence to Sequence Learning with Neural Networks

用神經網路進行序列到序列的學習摘要 1.介紹 2.模型 3.實驗 3.1 Dataset details 3.2 Decoding and Rescoring 3.3 Reversing the Source Sent

Facebook的Fairseq模型詳解(Convolutional Sequence to Sequence Learning)

1. 前言近年來，NLP領域發展迅速，而機器翻譯是其中比較成功的一個應用，自從2016年穀歌宣佈新一代谷歌翻譯系統上線，神經機器翻譯（NMT，neural machine translation）就取代了統計機器翻譯（SMT，statistical machine translation），在翻譯質量上面

Convolutional Sequence to Sequence Learning筆記

摘要：序列到序列學習的流形方法對映輸入序列到一個變長輸出序列通過迴圈神經網路。我們引入一個完全依賴於卷積神經網路的架構。和迴圈模型相比，所有元素計算可以並行化更好利用GPU並且當非線性的兩固定並不依賴於輸入長度時更容易優化。簡介：和迴圈層相比，卷積層對固

（翻譯）Sequence to Sequence Learning with Neural Networks

2 模型 RNN，給定一個輸入序列（x1,x2，…，xT），RNN通過迴圈計算下面的式子得到一個輸出序列（y1,y2,…,yT）如何一個input和output是對應的，比如輸入單詞，輸出是詞性，就可以用RNN對映，本文是解決輸入輸出之間沒有對應關

基於CNN的Seq2Seq模型-Convolutional Sequence to Sequence Learning

Seq2seq是現在使用廣泛的一種序列到序列的深度學習演算法，在影象、語音和NLP，比如：機器翻譯、機器閱讀、語音識別、智慧對話和文件摘要生成等，都有廣泛的應用。Seq2Seq模由encoder和decoder兩個部分來構成，假設模型的訓練樣本為（X,Y），encode

keras實現attention(還不太懂)

from keras import backend as K from keras.engine.topology import Layer from keras import initializers, regularizers, constraints c

深度學習方法（八）：自然語言處理中的Encoder-Decoder模型，基本Sequence to Sequence模型

歡迎轉載，轉載請註明：本文出自Bin的專欄blog.csdn.net/xbinworld。技術交流QQ群：433250724，歡迎對演算法、技術感興趣的同學加入。 Encoder-Decoder（編碼-解碼）是深度學習中非常常見的一個模型框架，比如無監督演

論文復現Sequence to sequence learning with neural networks

Sequence to sequence learning with neural networks <模型彙總-7>基於CNN的Seq2Seq模型-Convolutional Sequence to Sequence Learning Sequence

Convolutional Sequence to Sequence Learning 論文筆記

目錄簡介 Position Embeddings GLU or GRU Convolutional Block Structure Multi-step Attention

Sequence to Sequence Learning with Neural Networks論文閱讀

[論文下載](https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf) ![](https://s2.ax1x.com/2020/03/05/3TxBrt.png#shadow) 作者

Sutskever2014_Sequence to Sequence Learning with Neural Networks

INFO: Sutskever2014_Sequence to Sequence Learning with Neural Networks ABSTRACT Use one LSTM to read the input sequence, one timestep at a

keras實現attention based sequence to sequence model(首稿)

相關推薦