weight decay（權值衰減）、momentum（沖量）和normalization

阿新 • • 發佈：2017-12-07

orm ans 好處 weight 相同流動其中來源 sgd

一、weight decay（權值衰減）的使用既不是為了提高你所說的收斂精確度也不是為了提高收斂速度，其最終目的是防止過擬合。在損失函數中，weight decay是放在正則項（regularization）前面的一個系數，正則項一般指示模型的復雜度，所以weight decay的作用是調節模型復雜度對損失函數的影響，若weight decay很大，則復雜的模型損失函數的值也就大。
二、momentum是梯度下降法中一種常用的加速技術。對於一般的SGD，其表達式為 $技術分享圖片$ , $技術分享圖片$ 沿負梯度方向下降。而帶momentum項的SGD則寫生如下形式：
$技術分享圖片$
$技術分享圖片$
其中 $技術分享圖片$ 即momentum系數，通俗的理解上面式子就是，如果上一次的momentum（即 $技術分享圖片$

）與這一次的負梯度方向是相同的，那這次下降的幅度就會加大，所以這樣做能夠達到加速收斂的過程。
三、normalization。如果我沒有理解錯的話，題主的意思應該是batch normalization吧。batch normalization的是指在神經網絡中激活函數的前面，將 $技術分享圖片$ 按照特征進行normalization，這樣做的好處有三點：
1、提高梯度在網絡中的流動。Normalization能夠使特征全部縮放到[0,1]，這樣在反向傳播時候的梯度都是在1左右，避免了梯度消失現象。
2、提升學習速率。歸一化後的數據能夠快速的達到收斂。
3、減少模型訓練對初始化的依賴。作者：陳永誌
鏈接：https://www.zhihu.com/question/24529483/answer/114711446
來源：知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請註明出處。

weight decay（權值衰減）、momentum（沖量）和normalization

orm ans 好處 weight 相同流動其中來源 sgd 一、weight decay（權值衰減）的使用既不是為了提高你所說的收斂精確度也不是為了提高收斂速度，其最終目的是防止過擬合。在損失函數中，weight decay是放在正則項（regularizatio

weight decay（權值衰減）、momentum（沖量）和normalization

weight decay（權值衰減）、momentum（沖量）和normalization

深度學習 --- Hopfield神經網路詳解（吸引子的性質、網路的權值的設計、網路的資訊儲存容量）

Codevs 1688 求逆序對（權值線段樹）

Codeforces 558E A Simple Task（權值線段樹）

異或和（權值樹狀陣列）

實現一個棧，要求實現Push（出棧）、Pop（入棧）、Min（返回最小值）的時間複雜度為O（1）

一種異常值檢測方法、原理（基於箱線圖）

bzoj3110: [Zjoi2013]K大數查詢（權值線段樹套區間線段樹）

iterator迭代器 || begin（）、end（）返回值型別

C++類的三種資料成員：常量（const）、靜態（static）、普通的賦值方式

jzoj5986. 【WC2019模擬2019.1.4】立體幾何題（權值線段樹）

【資料結構】實現一個棧，要求實現Push（出棧）、Pop（入棧）、Min（返回最小值的操作）的時間複雜度為O(1)

DQUERY】D-query（權值樹狀陣列或主席樹或莫隊）

評價訓練效果的值——精準度（precision）、召回率（recall）、準確率（accuracy）、交除並（IoU）

實現一個棧Stack，要求實現Push（出棧）、Pop（入棧）、 Min（返回最小值的操作）的時間複雜度為O(1)

實現一個棧Stack，要求實現Push（出棧）、Pop（入棧）、Min（返回最小值的操作）的時間複雜度為O(1)

（C語言）BinarySrearchTree二叉搜尋樹 --- 標準插入（遞迴，非遞迴）、遍歷（前，中，後序）、查詢（遞迴，非遞迴）、根插入遞迴（左旋，右旋）、最小最大值、刪除節點

【棧佇列】實現一個棧Stack，要求實現Push（出棧）、Pop（入棧）、Min（返回最小值的操作）的時間複雜度為O(1)

從矩陣（matrix）角度討論PCA（Principal Component Analysis 主成分分析）、SVD（Singular Value Decomposition 奇異值分解）相關原理

FSM（狀態機）、HFSM（分層狀態機）、BT（行為樹）的區別

weight decay（權值衰減）、momentum（沖量）和normalization

相關推薦