CS231n-2017 第10講迴圈神經網路

阿新 • • 發佈：2019-01-05

一、迴圈神經網路與應用場景

考察一個輸入序列 $x_{1}, x_{2}, \dots$

  , x n x_1, x_2, \cdots, x_n

x_{1}, x_{2}, \dots, x_{n}

，迴圈神經網路每次會結合上一次的網路狀態

h_{t-1}

和本次輸入

x_t

，更新網路狀態為

h_t

，並根據需要輸出結果

y_t

。迴圈神經網路的前向傳播的數學表達如下：

$h_t = f_W(h_{t-1}, x_t) = \mathrm{tanh}(W_{hh}h_{t-1}+W_{xh}x_t), \quad y_t = W_{hy}h_t$

其結構和應用情形如下。

1. 一(輸入)對多(輸出)：影象標註，即輸入一幅影象，輸出關於這幅影象的描述。

圖 1. 迴圈神經網路之一對多

2. 多對一：情感分析。

圖 2. 迴圈神經網路之多對一 ###### 3. 多對多：機器翻譯。

圖 3. 迴圈神經網路之多對多 ###### 4. 多對多：視訊分類。

圖 4. 迴圈神經網路之多對多

二、迴圈神經網路的反向傳播

迴圈神經網路的反向傳播過程有幾種不同的方式，視輸入序列的長度而定。

利用全序列計算損失函式，計算梯度，然後進行反向傳播。
將整個序列劃分為小段，對每一小段計算前向與反向傳播的結果。每小段輸入時都重置網路狀態。
將整個序列劃分為小段，但針對每小段處理時，不重置網路狀態，而沿用上一小段產生的狀態。

三、影象標註

由卷積網路生成影象特徵向量，用作迴圈卷積網路的狀態初始值。然後使用起始識別符號<START>作為第一個字詞，啟動網路，每次生成一個用於描述影象的詞(從事先給定的相簿中選取)，並將該詞替代起始識別符號，作為迴圈網路層的輸入。
使用注意力模型的影象標註：使用卷積神經網路產生一組與影象相關的特徵向量，每一個可能與影象的某部分相關。迴圈神經網路每一次輸出，除了輸出用於描述影象的單詞外，還會輸出在那組特徵向量上的概率分佈，依據概率分佈對影象的那組特徵進行加權，所得結果作為下一步的輸入。

四、迴圈神經網路的改進：長短時記憶網路

考慮迴圈神經網路的反向傳播過程。對於隱藏狀態求導，由於每一層的梯度流都會引入一個係數矩陣 $W$ 的相乘操作，因此很容易出現梯度爆炸或梯度消失的現象。

對於梯度爆炸，可採用梯度截斷方法，即當梯度超過一定門限後，強制使得梯度不在增大。
對於梯度消失，則需要改進迴圈神經網路的結構——即引入門控制單元的長短時記憶網路。

圖 5. 對隱藏狀態求導會引入係數矩陣的相乘

長短時記憶網路的一個單元模組中包含四個控制門，由之來控制單元狀態 $c_t$ 和網路狀態 $h_t$ ：

f(oget)-gate: 遺忘門，控制著是否消除本次單元狀態 $c_t$ 的影響。
i(nput)-gate: 輸入門，標識著本次輸入。
g(ate)-gate: 門(原諒這個奇怪的命名，課程的講授者也不清楚這個字元具體的指代)，控制著本次輸入的影響程度。
o(utput)-gate: 輸出門，標識著輸出。

該網路前向傳播的數學表達為：

$\begin{array}{lll} \left[ \begin{array}{c} i \\ f \\ o \\ g \end{array} \right] & = & \left[ \begin{array}{c} \sigma \\ \sigma \\\sigma \\ \tanh \end{array} \right]W\left[ \begin{array}{c} h_{t-1} \\x_t \end{array} \right]\\ \\ c_t &=& f\odot c_{t-1}+i\odot g\\ \\ h_t &=& o\odot \tanh(c_t) \end{array}$

對單元狀態求導時，只會包含一個與f-gate的輸出的逐元素的相乘操作，不會引入矩陣相乘操作，會極大緩解梯度消失的現象。

圖 6. 對單元狀態求導的梯度流圖示

CS231n-2017 第10講迴圈神經網路

一、迴圈神經網路與應用場景考察一個輸入序列 x 1

CS231n-2017 第9講卷積神經網路的各種架構

1. LeNet-5: LeCun et al., 1998, 5層網路結構為(Conv為卷積層，Pool為池化層，FC為全連線層)： Conv — Pool — Conv — Pool — FC — FC — FC 卷積核尺寸為5x5，跨立間隔為1；池化層尺寸為

CS231n-2017 第6講訓練網路(上)

訓練網路模型所需要做的功課有：訓練過程能夠正常啟動前置條件：設定啟用函式、資料預處理、權重係數初始化、網路正則化策略、梯度校驗等。訓練過程動態監測：學習曲線監測、引數更新、超引數的優化選擇。模型評估與改進：模型整合。本節與下一節將描述如上內容。一.

第8章迴圈神經網路

迴圈神經網路 P213的程式碼 # coding:utf-8 # 2018/10/26 15:32 # huihui # ref: import numpy as np X = [1, 2] state = [0.0, 0.0] w_cell_state = np.

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第八課迴圈神經網路

課程概要 1、傳統語言模型 2、迴圈神經網路 3、例項（python） 4、RNN處理的一些技巧 5、針對其他任務的序列模型 6、總結一、傳統語言模型語言模型可以計算一些系列的單詞的概率P（w1，…,wT) 可以用來進行機器翻譯單詞順序：p(the

CS231n-2017 第13講生成模型

一、監督學習與非監督學習、生成模型監督學習給定資料 x

CS231n-2017 第12講視覺化與理解

一、卷積神經網路首層與末層輸出的視覺化與理解 1. 首層的輸出首層輸出的視覺化及解釋已在第二課中闡述，概述而言，其反應了影象中的邊、角、紋理等基礎結構特徵。 2. 末層輸出卷積神經網路的最後一層輸出，為影象的最終用於分類的特徵。對於這些特徵的解讀可從如下角度進行。

CS231n-2017 第11講目標檢測與影象分割

一、語義分割將一張圖片中的畫素按類別區分。示例如下：圖 1. 語義分割示例語義分割不區分同類事物的不同例項。語義分割的思路：使用滑動窗方法，每次取影象的一部分，使用神經網路判斷此部分的中心畫素屬於

CS231n-2017 第8講使用PyTorch

一. PyTorch文件連線 Tutorial: https://pytorch.org/tutorials/beginner/former_torchies_tutorial.html Layers: https://pytorch.org/docs/nn.html

深度學習網路tensorflow第四講__神經網路優化

√神經網路待優化的引數：神經網路中所有引數w 的個數 + 所有引數 b 的個數例如：輸入層隱藏層輸出層在該神經網路中，包含 1 個輸入層、1個隱藏層和 1 個輸出層，該神經網路的層數為 2 層。在該神經網路中，引數的個數是所有引數 w 的個數加上所有引數 b 的總數，第一層引數用三行四列的二階張量

深度學習花書學習筆記第十章序列建模：迴圈神經網路

展開計算圖就是將迴圈圖展開成展開圖而已。迴圈神經網路就是如上網路，將某一層不斷重複，輸出重新作為輸入的一部分。雙向RNN 應用於上下文環境都影響結果的場景，如語音識別，文章翻譯等基於編碼-解碼的序列到序列架構可以將可變長度的輸入轉

tensorflow基本教程10：RNN迴圈神經網路對於手寫體識別預測

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data #this is data mnist=input_data.read_data_sets("MNIST_data",one_

CS231n 卷積神經網路與計算機視覺 10 卷積神經網路學了些什麼？

本章是Stanford cs231n正在草擬的一章，主要將ConvNets視覺化，進一步理解卷積神經網路。 1 視覺化啟用值和第一層權重啟用值最直接的視覺化就是展示網路在向前傳播時的啟用值，ReLU 為啟用函式的網路中開始時啟用值一般是點狀物比較多比較分散，但是

迴圈神經網路教程第四部分-用Python和Theano實現GRU/LSTM迴圈神經網路

作者：徐志強連結：https://zhuanlan.zhihu.com/p/22371429 來源：知乎著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。本篇教程的程式碼在Github上。這裡是迴圈神經網路教程的最後一部分，前幾部分別是：本篇中我們將學習LSTM（長短項記憶）網路和G

迴圈神經網路教程第四部分用Python 和 Theano實現GRU/LSTM RNN

在本文中，我們將瞭解LSTM（長期短期記憶體）網路和GRU（門控迴圈單元）。 LSTM是1997年由Sepp Hochreiter和JürgenSchmidhuber首次提出的，是當下最廣泛使用的NLP深度學習模型之一。 GRU，首次在2014年使用，是一個

第五週：迴圈神經網路

# 第五週：迴圈神經網路 ## 視訊學習 ### 緒論 #### 1. 迴圈神經網路的應用語音問答、視覺問答、機器翻譯、股票預測、作詞機、作詩、仿寫論文及程式碼、**影象理解** #### 2. 迴圈神經網路 vs 卷積神經網路 - RNN核心問題：上下文關係（時序） - 迴圈神經網路與卷

Keras學習（五）——RNN迴圈神經網路分類

本篇文章主要介紹通過RNN實現MNIST手寫資料集分類。示例程式碼： import numpy as np from keras.datasets import mnist from keras.utils import np_utils from keras.models impor

吳恩達機器學習（第十章）---神經網路的反向傳播演算法

一、簡介我們在執行梯度下降的時候，需要求得J(θ)的導數，反向傳播演算法就是求該導數的方法。正向傳播，是從輸入層從左向右傳播至輸出層；反向傳播就是從輸出層，算出誤差從右向左逐層計算誤差，注意：第一層不計算，因為第一層是輸入層，沒有誤差。二、如何計算設為第l層，第j個的誤差。

吳恩達機器學習（第九章）---神經網路

神經網路是非線性的分類演算法。模擬人類的神經系統進行計算。 1、原因當特徵數很大的時候（比如100個），那麼在假設函式的時候要考慮太多項，包含x1x2,x1x3,x2x3等等，不能僅僅單個考慮x1,x2等，這樣一來，在擬合過程中的計算量就會非常大。 2、基本概念其中，藍色的

【火爐煉AI】深度學習004-Elman迴圈神經網路

【火爐煉AI】深度學習004-Elman迴圈神經網路 (本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) Elman神經網路是最早的迴圈神經網路，由Elman於1990年提出，又稱為SRN（Simp

CS231n-2017 第10講 迴圈神經網路

一、迴圈神經網路與應用場景

1. 一(輸入)對多(輸出)：影象標註，即輸入一幅影象，輸出關於這幅影象的描述。

2. 多對一：情感分析。

二、迴圈神經網路的反向傳播

三、影象標註

四、迴圈神經網路的改進：長短時記憶網路

相關推薦

CS231n-2017 第10講迴圈神經網路

1. 一(輸入)對多(輸出)：影象標註，即輸入一幅影象，輸出關於這幅影象的描述。