1. 程式人生 > >殘差網絡(Residual Network)

殘差網絡(Residual Network)

現象 希望 image 得到 問題 過擬合 發現 學習 初始

一、背景

1)梯度消失問題

我們發現很深的網絡層,由於參數初始化一般更靠近0,這樣在訓練的過程中更新淺層網絡的參數時,很容易隨著網絡的深入而導致梯度消失,淺層的參數無法更新。

技術分享圖片

可以看到,假設現在需要更新b1,w2,w3,w4參數因為隨機初始化偏向於0,通過鏈式求導我們會發現,w1w2w3相乘會得到更加接近於0的數,那麽所求的這個b1的梯度就接近於0,也就產生了梯度消失的現象。

2)網絡退化問題

舉個例子,假設已經有了一個最優化的網絡結構,是18層。當我們設計網絡結構的時候,我們並不知道具體多少層次的網絡時最優化的網絡結構,假設設計了34層網絡結構。那麽多出來的16層其實是冗余的,我們希望訓練網絡的過程中,模型能夠自己訓練這五層為恒等映射,也就是經過這層時的輸入與輸出完全一樣。但是往往模型很難將這16層恒等映射的參數學習正確,那麽就一定會不比最優化的18層網絡結構性能好,這就是隨著網絡深度增加,模型會產生退化現象。它不是由過擬合產生的,而是由冗余的網絡層學習了不是恒等映射的參數造成的。

殘差網絡(Residual Network)