RNN for Image caption

阿新 • • 發佈：2019-01-27

RNN for image caption

v1:只記錄整體過程，沒有數學推理過程，沒有圖，寫的很隨便，全憑剛做完cs231n-assignment3的RNN第一感覺寫的

2017-12-31

具體的推導過程和一些細節，後邊看心情再補吧

圖示

訓練

輸入

features

多來自卷積神經網路提取的影象特徵，如AGG,GoogleNet等其他網路

captions

大多來自手動標註

訓練過程

需要訓練的變數：

Wxh, Whh, b, Why, bhy

與上圖基本對應，不過上圖把偏置b給省了

這些變數在RNN傳播中的每一步是共用的

所以，這些變數的梯度變化，受每一步的共同影響

下邊的對應關係：Wxh - Wx,Whh - Wh,b - b,Why - W_vocab, by - vocab

Word embedding matrix：W_emed

這是，詞跟詞向量對應的一個矩陣

這個矩陣也是要訓練得到的，具體是什麼，要跟訓練集有關

一個圖片對應的caption是由一個T維向量構成的，T維向量的每一個元素i，代表的詞對應的詞向量就是W_emed第i行代表的向量

正向傳播

下面是一次輸入N個數據集的一次前向傳播過程,其中
1. features：NxH
2. caption：T維向量
3. caption_in = caption[0:T-1]
4. caption_out = caption[1:T]

整體框架

#首先對features，和caption進行處理，
#這個仿射變換affine_forward不是太理解，似乎只是多了一步,彷彿是避免讓features直接作為輸入輸入到網路中，但暫時說不出為什麼
h0,h0_cache = affine_forward(features, W_proj, b_proj)
#下面就是將每個caption_in中的單詞變成詞向量,T-1維變成T-1 x H維
#N個數據，就是 N x T-1 變成 N x T-1 x H維
data,word_cache = word_embedding_forward(captions_in,W_embed)# 

#下邊執行rnn的前向傳播過程，再這個過程中，每一步都會有兩個輸出
#一個是對應的y,也就是這個位置對應的caption的單詞，這也是loss的來源
#第二個是輸出下一個時間應該接受的狀態
hidden_states,cache_rnn_forward = rnn_forward(data,h0,Wx,Wh,b)
#下邊兩步就是計算損失
#最後輸出的loss是損失，dx是 dloss/dscores 也就是loss相對於得分的梯度，是反向傳播的起點
scores,cache_affine = temporal_affine_forward(hidden_states,W_vocab, b_vocab)
loss,dx = temporal_softmax_loss(scores, captions_out, mask, verbose=False)

* rnn_forward(data,h0,Wx,Wh,b) *

如下圖，再每個單元重複執行 rnn_step_forward(x, prev_h, Wx, Wh, b)
1. 其中x是由序列決定的，每次輸入當前應該序列輪到的單詞
2. prev_h是前一個單元的輸出
3. Wx,Wh,b是每個單元公用的

直接輸入一序列的資料，返回每個隱藏層的狀態

def rnn_step_forward(x, prev_h, Wx, Wh, b):
    next_h = np.tanh(np.dot(x,Wx) + np.dot(prev_h,Wh) + b)
    cache = (Wx, Wh, x,b, prev_h,next_h)
    return next_h,cache

反向傳播

整體框架

流程基本就是正向傳播過程每一步都反向來一遍

需要注意的是
1. 反向傳播的起點為前向傳播給出的dx
2. 由哪些是需要訓練的,確定反向傳播的終點

#
dhidden_states,grads['W_vocab'], grads['b_vocab'] = temporal_affine_backward(dx,cache_affine)
ddata,dh0,grads['Wx'],grads['Wh'],grads['b'] = rnn_backward(dhidden_states,cache_rnn_forward)
grads['W_embed'] = word_embedding_backward(ddata,word_cache)
_,grads['W_proj'],grads['b_proj'] = affine_backward(dh0,h0_cache)

rnn_backward(data,h0,Wx,Wh,b)

如下圖，基本是每個單元重複執行 rnn_step_backward(x, prev_h, Wx, Wh, b)

但要注意rnn_backward中dWx、dWh 、db是由每一步的梯度累加得到的，就像前邊提到的一樣

def rnn_backward(dh, cache):

    Wx, Wh, x, b,prev_h ,next_h= cache[0]
    #Wx, Wh, x, h0,h,b = cache[0]

    N,T,H = np.shape(dh)
    D,_ = Wx.shape   
    dx = np.zeros([N,T,D])
    dprev_h = np.zeros_like(prev_h)
    dWh = np.zeros_like(Wh)
    dWx = np.zeros_like(Wx)
    db = np.zeros_like(b)

    for i in range(T)[-1::-1]:#dx[:,0,:] == d1
        dnext_h = dprev_h + dh[:,i,:]      
        dx[:,i,:], dprev_h, dWxi, dWhi, dbi = rnn_step_backward(dnext_h, cache[i])
        dnext_h = dh[:,i,:]
        dWx = dWx + dWxi
        dWh = dWh + dWhi
        db = db + dbi
    dh0 = dprev_h
    return dx, dh0, dWx, dWh, db

def rnn_step_backward(dnext_h, cache):

    dx, dprev_h, dWx, dWh, db = None, None, None, None, None
    Wx, Wh, x, b,prev_h ,next_h= cache
    der = 1.0 - next_h**2  
    middle = der*dnext_h
    dx = middle.dot(Wx.T)
    dprev_h = middle.dot(Wh.T)
    dWx = x.T.dot(middle)
    dWh = prev_h.T.dot(middle)
    db = middle.sum(axis = 0)

    return dx, dprev_h, dWx, dWh, db

測試過程

輸入

基本流程就是將，正向傳播的過程實現一邊

但還有一些細節

後邊補充吧

RNN for Image caption

RNN for image caption v1:只記錄整體過程，沒有數學推理過程，沒有圖，寫的很隨便，全憑剛做完cs231n-assignment3的RNN第一感覺寫的 20

image caption解讀系列（二）：《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Capt》

本文主要是在這篇部落格的基礎上結合程式碼進行分析。文章依然採用了encoder-decoder的框架。作者認為decoder的時候非視覺詞多依賴的是語義資訊而不是視覺資訊。而且，在生成caption的過程中，非視覺詞的梯度會誤導或者降低視覺資訊的有效性。因此，本文提出

image caption項目調研及實踐

one challenge 比較相同版本實現維數安裝方法 mach image caption, 或者說叫image story teller，就是用一句話把一張圖片的內容描述出來。比較先進的是以下這篇論文所描述的方法： Vinyals, Oriol, et a

Deep Neural Network for Image Classification: Application

cal pack 分享圖片 his exp params next min super When you finish this, you will have finished the last programming assignment of Week 4, and a

Ai challenger 2017 image caption小結

oss 提升適合 pytorch 改進 ack https 修改 bottom 參加了今年的ai challenger 的image caption比賽，最終很幸運的獲得了第二名。這裏小結一下。 Pytorch 越來越火了。。前五名有三個pytoch

SegNet:A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

題目精確 ctu 記錄 aries vol log engine unet 論文英文原文網址：https://arxiv.org/abs/1511.00561 SegNet也是圖像分割的經典網絡，論文的題目可以了解到，SegNet是一個有深度的，帶卷

自適應註意力機制在Image Caption中的應用

bcd 情報 cpc gpl ice ive 放大 pcf contex 在碎片化閱讀充斥眼球的時代，越來越少的人會去關註每篇論文背後的探索和思考。在這個欄目裏，你會快速 get 每篇精選論文的亮點和痛點，時刻緊跟 AI 前沿成果。點擊本文底部的「閱讀原文」即刻

Deep Residual Learning for Image Recognition

ant PE ear network sub cit test error inpu Kaiming HeXiangyu ZhangShaoqing RenMicrosoft Research {kahe, v-xiangz, v-shren, jiansun}@micr

SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation 筆記小結

arc 概率圖插值推理相關分割場景 xiv 忽略原文鏈接：https://arxiv.org/pdf/1511.00561.pdf github（tensorflow）:https://github.com/aizawan/segnet 基於SegNet的鋼鐵

論文閱讀筆記《The Contextual Loss for Image Transformationwith Non-Aligned Data》（ECCV2018 oral）

github 區域偏移 org nbsp 修改 transfer style 但是目錄：相關鏈接方法亮點相關工作方法細節實驗結果總結與收獲相關鏈接論文：https://arxiv.org/abs/1803.02077 代碼：https://

對Image caption的一些理解(看圖說話)

1. 背景在計算機視覺中，影象分類和目標檢測任務是比較成熟的領域，已經應用到實際的產品領域。而“看圖說話”要實現的功能是，給定一張影象，計算機能告訴我們圖片的內容，顯然，這會使一個比較複雜的任務，因為它涉及到了如下的子任務： 1）檢測影象中的目標； 2）目標的屬性，比如

invertible Conditional GANs for image editing

github程式碼為https://github.com/Guim3/IcGAN 通常GAN的生成網路輸入為一個噪聲向量z,文獻的創新點是,利用一個encoder網路,對輸入影象提取得到一個特徵向量z,將特徵向量z,以及需要轉換的目標attribute向量y串聯輸入生成網路,得到生成

Exploring Models and Data for Image Question Answering 論文翻譯

這項工作旨在解決基於影象的問答（QA）與新模型和資料集的問題。在我們的工作中，我們建議使用神經網路和視覺語義嵌入，而不需要諸如物件檢測和影象分割之類的中間階段來預測關於影象的簡單問題的答案。我們的模型比現有影象質量保證資料集上的唯一公佈結果好1.8倍。我們還提出了一種問題生成演算法，該演算法將

【論文翻譯】ResNet論文中英對照翻譯--（Deep Residual Learning for Image Recognition）

【開始時間】2018.10.03 【完成時間】2018.10.05 【論文翻譯】ResNet論文中英對照翻譯--（Deep Residual Learning for Image Recognition）【中文譯名】深度殘差學習在影象識別中的應用【論文連結】https://arx

機器學習與深度學習系列連載：第二部分深度學習（十一）卷積神經網路 2 Why CNN for Image？

卷積神經網路 2 Why CNN 為什麼處理圖片要用CNN？原因是：一個神經元無法看到整張圖片能夠聯絡到小的區域，並且引數更少圖片壓縮畫素不改變圖片內容 1. CNN 的特點卷積：一些卷積核遠遠小於圖片大小；同樣的pat

ResNet: Deep Residual Learning for Image Recognition詳解

Deep Residual Learning for Image Recognition 這是一篇2015年何凱明在微軟團隊提出的一篇大作，截止目前其論文引用量達12000多次。摘要網路比較深的模型比較難以訓練。作者提出了一個殘差學習的框架來減輕模型的訓練難度，

「Computer Vision」Notes on Scale Normalization for Image Pyramids

QQ Group: 428014259 Sina Weibo：小鋒子Shawn Tencent E-mail：[email protected] http://blog.csdn.net/dgyuanshaofeng/article/details/83834327 [1]

《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its...》論文閱讀之CRNN

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition paper: CRNN 翻譯：CRNN

Keras下實現 Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising

使用Keras實現 Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising 這篇文章。 generator_data.py import glob import os import

Deep Residual Learning for Image Recognition（譯）

轉載自：http://blog.csdn.net/wspba/article/details/57074389 僅供參考，如有翻譯不到位的地方敬請指出。論文地址：Deep Residual Learning for Image Recognition 摘要越深的

RNN for Image caption

RNN for image caption

訓練

輸入

訓練過程

需要訓練的變數：

正向傳播

整體框架

反向傳播

整體框架

測試過程

輸入

相關推薦