梯度下降演算法中的Adagrad和Adadelta

Adagrad

與梯度下降不同的是，更新規則中，對於學習率不在設定固定的值，每次迭代過程中，每個引數優化時使用不同的學習率。
假設某次迭代時刻t，gt,i=∇θJ(θi)是目標函式對引數的梯度，普通的隨機梯度下降演算法，對於所有的θi都使用相同的學習率，因此迭代到第t次時，某一個引數向量θi的變化過程如下：

θt+1,i=θt,i−η⋅gt,i
而在Adagrad的更新規則中，學習率 η 會隨著每次迭代而根據歷史梯度的變化而變化。
θt+1,i=θt,i−ηGt+ϵ−−−−−√⋅gt,i
Gt∈Rd×d是一個對角矩陣，每個對角線位置i,i的值累加到t次迭代的對應引數

θi 梯度平方和。ϵ是平滑項，防止除零操作，一般取值1e−8。為什麼分母要進行平方根的原因是去掉平方根操作演算法的表現會大打折扣。

Adadelta

為了避免前文提到的問題，削弱單調猛烈下降的減少學習率，Adadelta產生了1。Adadelta限制把歷史梯度累積視窗限制到固定的尺寸w，而不是累加所有的梯度平方和。
Adagrad的一大優勢時可以避免手動調節學習率，比如設定初始的預設學習率為0.01，然後就不管它，另其在學習的過程中自己變化。當然它也有缺點，就是它計算時要在分母上計算梯度平方的和，由於所有的引數平法必為正數，這樣就造成在訓練的過程中，分母累積的和會越來越大。這樣學習到後來的階段，網路的更新能力會越來越弱，能學到的更多知識的能力也越來越弱，因為學習率會變得極其小，為了解決這樣的問題又提出了Adadelta演算法。
梯度和是遞迴的定義成歷史梯度平方的衰減平均值。動態平均值E

[g2]t僅僅取決於當前的梯度值與上一時刻的平均值：

E[g2]t=γE[g2]t−1+(1−γ)g2t
γ類似於衝量項，大約在0.9附近。需要說明的是，現在將SGD更新的引數變化向量

梯度下降演算法中的Adagrad和Adadelta

Adagrad

Adadelta

梯度下降演算法中的Adagrad和Adadelta

對梯度下降演算法的理解和實現

優化梯度下降演算法 Momentum、RMSProp(Root mean square propagation)和Adam( Adaptive Moment Estimation)

梯度下降、線性迴歸演算法中的梯度下降、為什麼要用梯度下降演算法。

邏輯迴歸中如何應用梯度下降演算法與損失函式

機器學習3 邏輯斯提回歸和梯度下降演算法

斯坦福cs231n學習筆記（11）------神經網路訓練細節（梯度下降演算法大總結/SGD/Momentum/AdaGrad/RMSProp/Adam/牛頓法）

吳恩達機器學習學習筆記之二：代價函式和梯度下降演算法

斯坦福CS229機器學習課程筆記一：線性迴歸與梯度下降演算法

梯度下降演算法過程詳細解讀

吳恩達機器學習課程筆記02——處理房價預測問題（梯度下降演算法詳解）

機器學習之--梯度下降演算法

線性迴歸梯度下降演算法 overshot the minimun現象

gradient descent梯度下降演算法的優化

監督學習-梯度下降演算法

訓練過程--梯度下降演算法（SGD、adam等）

梯度下降演算法(1) - Python實現

一系列梯度下降演算法

梯度下降隨機梯度下降演算法

梯度下降演算法原理介紹

梯度下降演算法中的Adagrad和Adadelta

Adagrad

Adadelta

相關推薦