神經網路優化：指數衰減計算平均值(滑動平均)

阿新 • • 發佈：2018-11-09

Polyak平均會平均優化演算法在引數空間訪問中的幾個點。如果t次迭代梯度下降訪問了點 $(\theta ^{(1)},...,\theta^{(t)})$ ,那麼Polyak平均演算法的輸出是 $\widehat{\theta}^{(t)}=\frac{1}{t}\sum_{i}\theta ^{(i)}$ 。

當應用Polyak平均於非凸問題時，通常會使用指數衰減計算平均值：

$\widehat{\theta }^{(t)} = \alpha \widehat{\theta}^{(t-1)}+(1-\alpha ) \theta ^{(t)}$

1. 用滑動平均估計區域性均值

　　滑動平均(exponential moving average)，或者叫做指數加權平均(exponentially weighted moving average)，可以用來估計變數的區域性均值，使得變數的更新與一段時間內的歷史取值有關。

　　變數 $v$ 在t時刻記為 $v_{t}$ ， $\theta _{t}$ 為變數v在t時刻的取值，即在不使用滑動平均模型時 $v_{t}=\theta _{t}$ ，在使用滑動平均模型後， $v_{t}$ 的更新公式如下：

$v^{(t)} = \alpha {v}^{(t-1)}+(1-\alpha ) \theta ^{(t)}$ (1)

　　上式中， $\alpha \in [0,1)$ 。 $\alpha =0$ 相當於沒有使用滑動平均。

　　假設起始 $v^{0}=0$ ， $\alpha=0.9$ ，之後每個時刻，依次對變數v進行賦值，不使用滑動平均和使用滑動平均結果如下：

表 1

t	不使用滑動平均模型，即給v直接賦值 $\theta$	使用滑動平均模型，按照公式(1)更新v	使用滑動平均模型，按照公式(2)更新v
0	0	/	/
1	10	1	10
2	20	2.9	13.6842
3	10	3.61	13.3210
4	0	3.249	9.4475
5	10	3.9241	9.5824
6	20	5.53169	11.8057
7	30	7.978521	15.2932
8	5	7.6806689	13.4859
9	0	6.91260201	11.2844

圖 1：三種變數更新方式

　　Andrew Ng在Course 2 Improving Deep Neural Networks中講到，t時刻變數v的滑動平均值大致等於過去 $\frac{1}{1-\alpha }$ 個時刻θ值的平均。這個結論在滑動平均起始時相差比較大，所以有了Bias correction，將 $v^{(t)}$ 除以 $1-\alpha^{t}$ 修正對均值的估計。

　　加入了Bias correction後， $v^{(t)}$ 更新公式如下：

$v^{(t)} =\frac{ \alpha {v}^{(t-1)}+(1-\alpha ) \theta ^{(t)}}{1-\alpha ^{t}}$ (2)

t越大， $1-\alpha ^{t}$ 越接近1，則公式(1)和(2)得到的結果將越來越近。

　　當 $\alpha$ 越大時，滑動平均得到的值越和θ的歷史值相關。如果 $\alpha =0.9$ ，則大致等於過去10個θ值的平均；如果 $\alpha =0.99$ ，則大致等於過去100個θ值的平均。

　　滑動平均的好處：

佔記憶體少，不需要儲存過去10個或者100個歷史θ值，就能夠估計其均值。（當然，滑動平均不如將歷史值全儲存下來計算均值準確，但後者佔用更多記憶體和計算成本更高）

2. TensorFlow中使用滑動平均來更新變數（引數）

　　滑動平均可以看作是變數的過去一段時間取值的均值，相比對變數直接賦值而言，滑動平均得到的值在影象上更加平緩光滑，抖動性更小，不會因為某次的異常取值而使得滑動平均值波動很大，如圖 1所示。

　　TensorFlow 提供了 tf.train.ExponentialMovingAverage 來實現滑動平均。在初始化 ExponentialMovingAverage 時，需要提供一個衰減率（decay），即公式(1)(2)中的 $\alpha$ 。這個衰減率將用於控制模型的更新速度。ExponentialMovingAverage 對每一個變數（variable）會維護一個影子變數（shadow_variable），這個影子變數的初始值就是相應變數的初始值，而每次執行變數更新時，影子變數的值會更新為：

$shadowvariable=decay\times shadowvariable+(1-decay)\times variable$ (3)

公式(3)中的 shadow_variable 就是公式(1)中的 $v_{t}$ ，公式(3)中的 variable 就是公式(1)中的 $\theta _{t}$ ，公式(3)中的 decay 就是公式(1)中的 $\alpha$ 。

　　公式(3)中，decay 決定了影子變數的更新速度，decay 越大影子變數越趨於穩定。在實際運用中，decay一般會設成非常接近1的數（比如0.999或0.9999）。為了使得影子變數在訓練前期可以更新更快，ExponentialMovingAverage 還提供了 num_updates 引數動態設定 decay 的大小。如果在初始化 ExponentialMovingAverage 時提供了 num_updates 引數，那麼每次使用的衰減率將是：

$min\left \{ decay,1+numupdates/10+numupdates \right \}$ (4)

這一點其實和Bias correction很像。

3. 滑動平均為什麼在測試過程中被使用？

　　滑動平均可以使模型在測試資料上更健壯（robust）。“採用隨機梯度下降演算法訓練神經網路時，使用滑動平均在很多應用中都可以在一定程度上提高最終模型在測試資料上的表現。”

　　對神經網路邊的權重 weights 使用滑動平均，得到對應的影子變數 shadow_weights。在訓練過程仍然使用原來不帶滑動平均的權重 weights，不然無法得到 weights 下一步更新的值，又怎麼求下一步 weights 的影子變數 shadow_weights。之後在測試過程中使用 shadow_weights 來代替 weights 作為神經網路邊的權重，這樣在測試資料上效果更好。因為 shadow_weights 的更新更加平滑，對於隨機梯度下降而言，更平滑的更新說明不會偏離最優點很遠；對於梯度下降 batch gradient decent，我感覺影子變數作用不大，因為梯度下降的方向已經是最優的了，loss 一定減小；對於 mini-batch gradient decent，可以嘗試滑動平均，畢竟 mini-batch gradient decent 對引數的更新也存在抖動。

　　設 $decay=0.999$ ，一個更直觀的理解，在最後的1000次訓練過程中，模型早已經訓練完成，正處於抖動階段，而滑動平均相當於將最後的1000次抖動進行了平均，這樣得到的權重會更加robust。

References

Course 2 Improving Deep Neural Networks by Andrew Ng

http://www.cnblogs.com/wuliytTaotao/p/9479958.html

神經網路優化：指數衰減計算平均值(滑動平均)

1. 用滑動平均估計區域性均值

2. TensorFlow中使用滑動平均來更新變數（引數）

3. 滑動平均為什麼在測試過程中被使用？

References

神經網路優化：指數衰減計算平均值(滑動平均)

神經網路優化：病態矩陣與條件數

吳恩達改善深層神經網路引數：超引數除錯、正則化以及優化——優化演算法

神經網路高效能運算卷積計算優化 openblas GEMM 矩陣乘法優化 ncnn mobileNet-ssd shueezeNet-ssd

神經網路優化演算法：從梯度下降到Adam方法

基於神經網路的目標檢測論文之神經網路基礎：神經網路的優化方法

人工智慧實踐：TensorFlow筆記學習（四）—— 神經網路優化

神經網路壓縮剪枝量化嵌入式計算優化NCNN mobilenet squeezenet shufflenet

各種神經網路優化演算法：從梯度下降到Adam方法

神經網路優化演算法：Dropout、梯度消失/爆炸、Adam優化演算法，一篇就夠了！

神經網路優化（二） - 滑動平均

神經網路優化（二） - 搭建神經網路八股

神經網路優化（初始化權重）

深度神經網路優化論文總結

TensorFlow筆記-06-神經網路優化-損失函式,自定義損失函式,交叉熵

tensorflow之神經網路層：AveragePooling1D、average_pooling1d、Conv1D和conv1d

# [cs231n （八）神經網路總結：最小網路案例研究 ][1]

改善深層神經網路——優化演算法（6）

神經網路優化演算法二（正則化、滑動平均模型）

神經網路優化演算法一（梯度下降、學習率設定）

神經網路優化：指數衰減計算平均值(滑動平均)

1. 用滑動平均估計區域性均值

2. TensorFlow中使用滑動平均來更新變數（引數）

3. 滑動平均為什麼在測試過程中被使用？

References

相關推薦