tensorflow學習教程(十二)隨時間反向傳播BPTT

阿新 • • 發佈：2018-12-30

1、概述

上一節介紹了BP，這一節就簡單介紹一下BPTT。

2、網路結構

RNN正向傳播可以用上圖表示，這裡忽略偏置。

上圖中，

x(1:T)表示輸入序列，

y(1:T)表示輸出序列，

Y(1:T)表示標籤序列，

ht表示隱含層輸出，

st表示隱含層輸入，

zt表示經過啟用函式之前的輸出層輸出。

3、前向傳播

忽略偏置的前向傳播過程如下：

st=Uht-1+Wxt

ht=f(st)

zt=Vht

yt=f(zt)

其中，f是啟用函式。U、W、V三個權重在時間維度上是共享的。

每個時刻都有輸出，所以每個時刻都有損失，記t時刻的損失為Et,那麼對於樣本x(1:T)來說，

總損失，使用交叉熵做損失函式，則

3、反向傳播BPTT

跟BP類似，想求哪個權值對整體誤差的影響就用誤差對其求偏導。

3.1、E對V的梯度

根據鏈式法則有，

其中，

所以，

3.2、E對U的梯度

這個是BPTT與BP之所以不同的地方，因為不止t時刻隱含層與U有關，之前所有的隱含層都跟U有關。所以有，

其中，

假設

則

3、梯度爆炸和梯度消失

用鏈式法則求損失E對U的梯度為，

其中，

定義

則為，如果，則當 t-k→∞時，→∞，會造成系統不穩定，這就是所謂的梯度爆炸問題。相反，如果，則當 t-k→∞時，

，這就是梯度消失問題。因此，雖然簡單的迴圈神經網路理論上可以建立長時間間隔的依賴關係，但是由於梯度爆炸或梯度消失問題，實際上只能解決短週期的依賴關係。為了解決這個問題，一個很好的解決方案是引入“門機制”來控制資訊的累計速度，並可以選擇遺忘之前積累的資訊，這就是長短時記憶神經網路LSTM，下一節再學習這個。

tensorflow學習教程(十二)隨時間反向傳播BPTT

1、概述上一節介紹了BP，這一節就簡單介紹一下BPTT。 2、網路結構 RNN正向傳播可以用上圖表示，這裡忽略偏置。上圖中， x(1:T)表示輸入序列， y(1:T)表示輸出序列， Y(1:T)表示標籤序列， ht表示隱含層輸出， st表示隱含層輸入

akka學習教程(十二) Spring與Akka的整合

akka系列文章目錄概述近年來隨著Spark的火熱，Spark本身使用的開發語言Scala、用到的分散式記憶體檔案系統Tachyon（現已更名為Alluxio）以及基於Actor併發程式設計模型的Akka都引起了大家的注意。瞭解過Akk

Tensorflow學習教程------實現lenet並且進行二分類

-i ase vector 一個隊列 label ide def shuffle img #coding:utf-8 import tensorflow as tf import os def read_and_decode(filename): #根據文件名生成

Tensorflow深度學習之十二：基礎圖像處理之二

fcm 數字 ssi port con tty .net term file Tensorflow深度學習之十二：基礎圖像處理之二 from：https://blog.csdn.net/davincil/article/details/76598474 首先放出

tensorflow學習筆記（二十八）：collection tensorflow學習筆記（二十八）：collection

tensorflow學習筆記（二十八）：collection 2016年12月27日 11:53:06 閱讀數：11346 tensorflow collection tensorflow的collection提供一個

tensorflow學習筆記十：Ubuntu 16.04 上安裝 CUDA 7.5/8.0 超詳細教程

2017/1/5 更新本篇文章是基於之前安裝CUDA 7.5的經驗寫的，但因為最近更新TensorFlow 到了r0.12版本，官方提示該版本TensorFlow 和CUDA 8.0 & cudnnv5.1 配合的最好，所以又卸了CUDA 7.5，重新裝了一遍

Tensorflow深度學習之十二：基礎影象處理之二

首先放出原始影象： 1、影象的翻轉 import tensorflow as tf import cv2 # 這裡定義一個tensorflow讀取的圖片格式轉換為opencv讀取的圖片格式的函式 # 請注意： # 在tensorflow中，一個畫素

tensorflow學習筆記（二十六）：構建TF程式碼

如何構建TF程式碼 batch_size: batch的大小 mini_batch: 將訓練樣本以batch_size分組 epoch_size: 樣本分為幾個min_batch num_epoch : 訓練幾輪讀程式碼的時候應該關注的幾部分

tensorflow學習筆記（二十二）：Supervisor

如何使用Supervisor 在不使用Supervisor的時候，我們的程式碼經常是這麼組織的 variables ... ops ... summary_op ... merge_all_su

Mysql學習之十二：JDBC連接數據庫之DriverManager方法

url state 種類 delet rom 條件管理系 ont into JDBC連接數據庫 ?創建一個以JDBC連接數據庫的程序，包括7個步驟： 1、載入JDBC驅動程序：在連接數據庫之前。首先要載入想要連接的數據庫的驅動到JVM

tensorflow學習筆記（二）

example initial turn rate mnist pac rac test mode import tensorflow as tfimport numpy as npimport mathimport tensorflow.examples.tutorial

python基礎學習（十二）

四種 b- zip int idl eight 正常 ppr 執行方法模塊前面有簡單介紹如何使用import從外部模塊獲取函數並且為自己的程序所用： >>> import math >>> math.sin(0) #sin為正

Tensorflow學習教程------變量

cnblogs logs -1 glob sig clas 學習教程 cloc variables 　　代碼 #coding:utf-8 import tensorflow as tf x = tf.Variable([1,2]) a = tf.constant([3,

Tensorflow學習教程------softmax簡單介紹

教程 com png images image es2017 數值一個 softmax 　　做機器學習的同誌們應該對這個都不陌生，這裏簡單舉個例子。一般來說，使用softmax函數來將神經元輸出的數值映射到0到1之間，這樣神經元輸出的值就變為了一個概率值。

Tensorflow學習教程------過擬合

模型 float softmax 一個返回之間 zeros 函數 size 回歸：過擬合情況 / 分類過擬合防止過擬合的方法有三種： 1 增加數據集 2 添加正則項 3 Dropout,意思就是訓練的時候隱層神經元每次隨機抽取部分參與訓練。部分不參與最

Tensorflow學習教程------tensorboard網絡運行和可視化

predict 運行 optimizer ace 127.0.0.1 hot 瀏覽器中 test tdd tensorboard可以將訓練過程中的一些參數可視化，比如我們最關註的loss值和accuracy值，簡單來說就是把這些值的變化記錄在日誌裏，然後將日誌裏的這些數據可

linux系統學習第十二天-<<工程師技術>>

linux工程師技術 linux管理員技術 linux雲計算工程師深圳雲計算王森雲計算運維工程師虛擬化概述 ? Virtualization 資源管理 – x個物理資源 --> y個邏輯資源 – 實現程度:完全、部分、硬件輔助(CPU) 手動新建一臺虛擬機：

web全棧學習教程（二）：本系列教程介紹

系列教程 trap soft 切圖 think html4 style pes html 一、發布周期計劃2-3天發一篇，半年左右完成。二、教程大綱 web全棧介紹與優勢分析本系列教程介紹切圖與圖片介紹 html4.01 html5 css2.0 css3 頁面布

odoo10學習筆記十二：web controller

gpo 原始的 -s 系列 http 上下文環境 boolean quest 指向原文地址：http://www.cnblogs.com/ygj0930/p/7151551.html 一：路由 odoo.http.route(route=None, **kw) 裝飾器可以

大數據學習之十二——MapReduce代碼實例：關聯性操作

reducer equal 學習 obj actor 對應關系關系 exceptio ted 1.單表關聯 "單表關聯"要求從給出的數據中尋找所關心的數據，它是對原始數據所包含信息的挖掘。實例描述給出child-parent（孩子——父母）表，要求輸出grandchil

tensorflow學習教程(十二)隨時間反向傳播BPTT

1、概述

2、網路結構

3、前向傳播

3、反向傳播BPTT

3、梯度爆炸和梯度消失

相關推薦