1. 程式人生 > 其它 >神經網路與深度學習[邱錫鵬] 第六章習題解析

神經網路與深度學習[邱錫鵬] 第六章習題解析

6-1

三者都是典型的神經網路模型。
卷積神經網路是對前饋神經網路增加捲積層和池化層。
延時神經網路是對前饋神經網路增加延時器。
迴圈神經網路是對前饋神經網路增加自反饋的神經元。

延時神經網路和迴圈神經網路是給網路增加短期記憶能力的兩種重要方法。

卷積神經網路和迴圈神經網路的區別在迴圈層上。
卷積神經網路沒有時序性的概念,輸入直接和輸出掛鉤;迴圈神經網路具有時序性,當前決策跟前一次決策有關。
舉個例子,進行手寫數字識別的時候,我們並不在意前一個決策結果是什麼,需要用卷積神經網路;(影象識別)
而自然語言生成時,上一個詞很大程度影響了下一個詞,需要用迴圈神經網路。(自然語言處理)

6-2

推導公式(6.40)和公式(6.41)中的梯度。
基本和(6.39)的公式一致。
主要差別在於Zk對於Uij和Zk對於Wij、Bij的偏導上。

6-3

原因:

其中6.34的誤差項為6-2中的德爾塔t,k
解決方法:
增加門控機制,例如:長短期記憶神經網路(LSTM)。

6-4(我透)

推導LSTM網路中引數的梯度,並分析其避免梯度消失的效果。

6-5(我透)

推導GRU網路中引數的梯度,並分析其避免梯度消失的效果。

6-6

增加深度的方法是:增加同一時刻網路輸入到輸出之間的路徑Xt->Yt(Xt->Ht或者Ht->Yt)
常見結構除了堆疊迴圈神經網路,還有雙向迴圈神經網路、遞迴神經網路、圖神經網路等。

6-7[..]

當遞迴神經網路的結構退化為線性序列結構時,遞迴神經網路就等價於簡單迴圈網路