sp5.1 Recurrent Neural Networks

阿新 • • 發佈：2018-11-15

3 Sequence models & Attention mechanism.note http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 時間序列資料是指在不同時間點上收集到的資料，這類資料反映某一事物現象等隨時間的變化狀態或程度。序列模型可用於序列資料sequence data 都算監督學習比如語音識別輸入輸出都是序列。對於音樂生成，輸出是序列而輸入是整數比如音樂型別甚至空集也可以視訊物體運動識別輸入是序列模型輸出是個整數

Named entity recognition 識別一句話中名字在哪輸入的時間序列模型用x^t表示位置在句子裡就是第幾個單詞輸出也一樣 Tx和Ty表示總長度可以相同可以不相同看你要什麼這裡識別一句話每個單詞所以兩者長度相同

這樣表示不太好 X^<I>表示這個序列的第幾個單詞

X^i表示第幾個訓練樣本

x^i t 表示第i個樣本的第t個單詞

第i個樣本的序列長度

怎樣表示單詞？首先建立字典一般長度為30-50000 商業3萬-5萬也許百萬用在字典裡的位置表示序列裡單個單詞 one-hot方式編碼不再詞表中的單詞用unk表示 unknow 整個x就是一個很大的稀疏矩陣了

對於不在詞表中的用個unk表示為什麼不用以前標準的神經網路？

對於人名判斷舉例：為什麼不用以前的DNN？使用標準神經網路表現不好：比如每個單詞看成一個特徵屬性輸入進去 1 每個樣本比如句子長度不一樣雖然可以設個最大長度不夠的用0啥的填充但是仍然不好 2 並不共享文字在不同位置上學到的特徵 3 特別大啊比如用的是幾萬長度的字典每個特徵值不就是幾萬了再乘以一句話的單詞數量很大比如每個one-hot是一萬然後每句話 10個單詞這一下子就是 10W了輸入進去這裡的最後輸出是判斷這t個單詞哪個是人名 RNN 每層只是一個單詞x<1> 每個單詞對應一個輸出Y 一個迴圈使用的是相同的w權數第二個單詞就用了前一個單詞傳過來的引數這樣子一句話單詞數不管多少都可以了缺點是隻用了前面的資訊沒用後面的比如第二例子泰迪熊就不是人名 waa、wax都是相同的最後一個迴圈圖相當於前面展開的，有些論文這樣畫

用相同的W_ax 水平啟用值W_aa 輸出Y是 W_ya BRNN雙向傳播神經網路向前傳播： g(上一步的a0 * Waa + 當前x * Wxx+b)

Waa 就是對應隱藏層的啊這裡假設他是100維的 Wax是對應one-hot的這裡假設一萬維原本是隱藏層Waa100*100 * a 100*1=100*1 + Wax 100*10000 * X 10000*1的=100*1 + b 上面兩個合成一個矩陣運算左右劃線公式是一樣的啊把Waa Wax 水平放在一起就是Wa 兩者一個100*100 一個100*10000 水平放在一起這樣是100* 10100 把a和X垂直放在一起啊兩者一個100*1 一個 10000*1 這樣是10100*1

Wax(100,10000) * Xt（10000，m）=100*m 同時處理m個樣本的一步 Waa(100 , 100)* at(100,m)=100 *m 兩者相加+ba

Wya(?,100) * 1 00*1 waa wax矩陣水平放置【，】矩陣豎著放 a1不是一個數字啊假設設定a是100維的隱藏層 x1這裡設每個單詞one-hot是10000維的

反向傳播：從最最右上角的損失函式最終值來反向回來

Wax往前傳吧 Waa Wya都一樣往前傳的這裡第一行loss是單個單詞的其實就是交叉熵這是個二分類問題啊要不0要不1 真實標籤

不同型別的RNN：多對多（輸入輸出長度一樣比如識別人名）多對一（整個句子對應一個輸出比如識別情感）

一對多（給個型別音樂生成）前一個輸出也給下個另外一種多對多（輸入輸出長度不同翻譯）

—————————————————————————— 序列生成：比如語音識別/機器翻譯兩句話很相似判斷哪個概率大利用語言模型來判斷相當於用概率打分了在整個語境下接下來每個句子的概率這裡每個單詞以Y表示

1 建立語言模型 1 需要一個語料庫corpus 數量很大的英語句子 2 將一個樣本（句子）裡的單詞onehot 句子結尾可以加EOS標記詞不在裡面還用UNK

3構建RNN，讓xt=y(t-1) 就是把上一步的真實值傳進來當做當前步驟的x 其實這裡y就是監督學習裡籤值下面算出來都是y^ 實際算出來值

這裡y1 y2都指的是單詞都是one-hot 有時候會產生unk 要是避免的話若是出現就繼續進行取樣直到不出現 2取樣：對於訓練好的模型進行取樣看他學到了什麼這裡每個Y就是個softmax過得10000維每個單詞概率根據這些概率大小隨機選一個作為下一個輸入原本是真實單詞這樣子就隨機生成了一個句子

SAMPLE取樣

D 是以概率分佈隨機取樣的不是取樣最高概率那個

y也可以是基於字元的（字母）優點：不會產生unk 但是這樣子會產生太長依賴關係也不如基於單詞的好。但可能隨著計算機效能變好可能會用基於字母的

—————————————————————— 其實梯度消失一直存在之前的標準網路什麼的都有這個問題不過在這裡比較突出不管你用sigmoid 還是tanh都容易出現這個問題兩者影象幾乎一樣啊一個是0-1 一個是-1到1 梯度消失比較難解決vanishing gradients：缺點存在梯度消失就會很難影響前面的層比如前面是cats 後面應該是were 但是RNN其實不太擅長這件事距離比較遠的依賴關係更多受到最近距離幾個層的影響

梯度爆炸指數級的用梯度修剪gradient clipping：縮放梯度向量設個閥值讓其不溢位不爆炸這裡直接讓10 -10作為上下邊界了

梯度消失比較麻煩用下面的網路可以有更遠的依賴

梯度消失解決方法利用下面模型方法： GRU Gated Recurrent Unit門控制迴圈單元改變了RNN的隱藏層來應對RNN梯度消失的問題使前後依賴關係大了) 原本RNN是這樣的

現在有個新變數C作為記憶單元，把a的值賦予它在GRU中兩者相等在LSTMS中不同 C^t在每一步驟更新Ct 而用γ門來決定是否更新 γ門代表更新門（0-1之間）用sigmoid啟用根據影象知道一般要不接近0 要不接近1

假設記憶細胞被記為0或1表示這個單詞是單數或者複數假設單數1 如下文的cat 會一直記著Ct 則一直記到was那裡。門的作用就是什麼時候更新Ct的值，在was那裡就變回了不用再記著了 γ不更新時候是接近0的所以Ct約等於=ct-1的一直都大致相等這裡只是個例子讓ct=1 其實c可以是任意設定的維度啊！！！！γ門和a相同維度再看圖理解就是前一步有a^t-1 c^t-1傳進來用當前步X^t 輸進去算一個Chat^t 和門然後門和他相乘決定是否更新C 紫色部分紫色部分C也傳下一步而且softmax來算yhat 門一般非常接近0 （是個sigmoid）有利於保持記憶細胞C 這裡Ct是個任意維的比如100維的門也一樣其實這裡一百維直覺可以理解為每一個數可能都記憶不同的關係比如有的單複數有的時態等

全GRU多了個r門來算計Ct-1和下一項CT多大相關性尼瑪第一個式子變了沒注意看

LSTM長短時記憶網路有了單獨的記憶們和遺忘門可能比GRU更有效和通用：其實GRU是最新提出的像簡化版LSTM 能用於更大的網路讓很多偏導連乘起來不會太大也不會太小解決了爆炸或者T梯度消失的問題多了遺忘門和輸出門這樣關於記憶細胞C 就成更新門*當前算出的C + 遺忘門*上一步C at不直接等於ct 而是輸出門 * 上面算出來的Ct

其實就是之前y=wa+b 啟用傳給下一個現在程式設計把用遺忘和更新門變成了C a原本也是直接傳給下一個現在用了輸出門

最常用的版本輸出門裡多了個00000000000000000000000000000000000000000000000. 。。//。//。0/'“？ ”000000000000000000000000000000000000000

y=softmax(w*a+b)000000

Long Short Term 網路—— 一般就叫做 LSTM ——是一種 RNN 特殊的型別，可以學習長期依賴資訊。LSTM 由Hochreiter & Schmidhuber (1997)提出，並在近期被Alex Graves進行了改良和推廣。在很多問題，LSTM 都取得相當巨大的成功，並得到了廣泛的使用。 LSTM 通過刻意的設計來避免長期依賴問題。記住長期的資訊在實踐中是 LSTM 的預設行為，而非需要付出很大代價才能獲得的能力！所有 RNN 都具有一種重複神經網路模組的鏈式的形式。在標準的 RNN 中，這個重複的模組只有一個非常簡單的結構，例如一個 tanh 層。

模型3 之前單向的對於人名識別就容易出問題

雙向神經網路：不僅可以獲取以前資訊也可獲得未來資訊前面幾種都是單向的

增加了反向迴圈變成了無向圖缺點是需要完整的資料序列語音識別系統的話需要使用者把一句話說完才可以而不是邊說邊出這裡還可以用GRU LSTM

模型4 深層迴圈神經網路：多個RNN疊起來一般沒多少層不像卷積啥的幾層一般

a【】橫著算一層 a等於X傳進去算加上橫向同層穿過來的 a可能就兩三層，上面又多加了幾層是為了算Y 他們之間橫向不連線

sp5.1 Recurrent Neural Networks

3 Sequence models & Attention mechanism.note http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 時間序列資料是指在不同時間點上收集到的資料，這類資料反映某一事物現象等隨時間的變化

DeepLearning.ai作業:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）（1）

title: ‘DeepLearning.ai作業:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）（1）’ id: dl-ai-5-1h1 tags: dl.ai homework categories: AI Deep

DeepLearning.ai筆記:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）

title: ‘DeepLearning.ai筆記:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）’ id: dl-ai-5-1 tags: dl.ai categories: AI Deep Learning date: 2

DeepLearning.ai作業:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）（2）

title: ‘DeepLearning.ai作業:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）（2）’ id: dl-ai-5-1h2 tags: dl.ai homework categories: AI Deep

DeepLearning.ai作業:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）（3）

title: ‘DeepLearning.ai作業:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）（3）’ id: dl-ai-5-1h3 tags: dl.ai homework categories: AI Deep

Recurrent Neural Networks Tutorial, Part 1 – Introduction to RNNs學習筆記

介紹-什麼是RNN 1.RNN的主要思想是利用序列資訊。 The idea behind RNNs is to make use of sequential information. In a traditional neural network we assu

【論文筆記1】RNN在影象壓縮領域的運用——Variable Rate Image Compression with Recurrent Neural Networks

一、引言隨著網際網路的發展，網路圖片的數量越來越多，而使用者對網頁載入的速度要求越來越高。為了滿足使用者對網頁載入快速性、舒適性的服務需求，如何將影象以更低的位元組數儲存（儲存空間的節省意味著更快的傳輸速度）並給使用者一個低解析度的thumbnails（縮圖）的previ

(zhuan) Attention in Long Short-Term Memory Recurrent Neural Networks

have step points degree paper exc issues arr decision Attention in Long Short-Term Memory Recurrent Neural Networks by Jason Brownlee on

論文筆記-Personal Recommendation Using Deep Recurrent Neural Networks in NetEase

use clas max onf 一位 url base 輸入 ont 思路：利用RNN對用戶瀏覽順序建模，利用FNN模擬CF，兩個網絡聯合學習 RNN網絡結構：輸出層的state表示用戶瀏覽的某一頁面，可以看做是一個one-hot表示，state0到3是依次瀏覽的

CS231n筆記 Lecture 10, Recurrent Neural Networks

provided per last bin BE ner karp targe 結構 Recaption on CNN Architecture Although Serena is very beautiful, Justin is a better lecturer.

Recurrent Neural Networks, LSTM, GRU

state map github apt algo mali ads assets cit Refer to : The Unreasonable Effectiveness of Recurrent Neural Networks Recurrent Neural Net

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

network 測試 eee 分享 The 因此進行最大變化 [1] Z. Zhou, Y. Huang, W. Wang, L. Wang, T. Tan, Ieee, See the Forest for the Trees: Joint Spatial and

sp5.1 Recurrent Neural Networks

sp5.1 Recurrent Neural Networks

DeepLearning.ai作業:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）（1）

DeepLearning.ai筆記:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）

DeepLearning.ai作業:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）（2）

DeepLearning.ai作業:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）（3）

Recurrent Neural Networks Tutorial, Part 1 – Introduction to RNNs學習筆記

【論文筆記1】RNN在影象壓縮領域的運用——Variable Rate Image Compression with Recurrent Neural Networks

(zhuan) Attention in Long Short-Term Memory Recurrent Neural Networks

論文筆記-Personal Recommendation Using Deep Recurrent Neural Networks in NetEase

CS231n筆記 Lecture 10, Recurrent Neural Networks

Recurrent Neural Networks, LSTM, GRU

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

論文筆記：Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

Sentiment Analysis with Recurrent Neural Networks in TensorFlow 利用TensorFlow迴歸神經網路進行情感分析 Pluralsigh

機器學習與深度學習系列連載：第二部分深度學習（十）卷積神經網路 1 Convolutional Neural Networks

sp1.1-1.2 Neural Networks and Deep Learning

sp1.3-1.4 Neural Networks and Deep Learning

Recurrent Neural Networks by Example in Python

讀書筆記26：adding attentiveness to the neurons in recurrent neural networks

Protein Secondary Structure Prediction Using Cascaded Convolutional and Recurrent Neural Networks筆記

sp5.1 Recurrent Neural Networks

相關推薦