關於深度學習優化器【轉載以學習、回憶】

阿新 • • 發佈：2022-04-10

來源連結：https://mp.weixin.qq.com/s/kUE7NcTiQyYP-oWi0T_mbA

來源公眾號：阿柴的演算法學習日記

轉載以學習回憶

___________________________開始

原文此處有動圖。。。。

梯度下降是指，給定待優化的模型引數和目標函式後，演算法沿梯度

的相反方向更新來最小化。學習率a決定了每一時刻的更新步長。對於每一個時刻t，我們可以用下述步驟來描述梯度下降的流程。

1.計算目標函式的梯度

2.更新模型引數

梯度下降法目前主要分為三種方法,區別在於每次引數更新時計算的樣本資料量不同：批量梯度下降法(BGD, Batch Gradient Descent)，隨機梯度下降法(SGD, Stochastic Gradient Descent)及小批量梯度下降法(Mini-batch Gradient Descent)。

一：

批量梯度下降法 BGD

隨機梯度下降法 SGD

小批量梯度下降法 Mini-batch GD

注意紅箭頭目前的SGD預設是小批量梯度下降演算法

對於隨機梯度下降演算法，明視訊記憶體在以下缺點

選擇合適的learning rate比較困難，學習率太低會收斂緩慢，學習率過高會使收斂時的波動過大；
所有引數都是用同樣的learning rate；
SGD容易收斂到區域性最優，並且在某些情況下可能被困在鞍點。

二動量優化法

動量優化方法引入物理學中的動量思想，加速梯度下降，有Momentum和Nesterov兩種演算法。當我們將一個小球從山上滾下來，沒有阻力時，它的動量會越來越大，但是如果遇到了阻力，速度就會變小，動量優化法就是借鑑此思想，使得梯度方向在不變的維度上，引數更新變快，梯度有所改變時，更新引數變慢，這樣就能夠加快收斂並且減少動盪。

Momentum

【吳恩達裡邊的講解】

NAG（Nesterov accelerated gradient）

三自使用學習率優化演算法

AdaGrad
AdaDelta
RmsProp

又稱均方根傳遞。和動量一樣減小震盪，能利用大學習率，從而加速。

Adam

關於Adam的就看不懂了

Adam 本質實際上是Momentum和RMSprop結合在了一起

吳恩達講解視訊https://www.bilibili.com/video/BV1i741147Q5?p=20

要理解這些演算法要用【指數加權平均】

【理解指數加權平均】

【偏差修正】

當t增大無影響，初期修正了過小的缺點

【動量梯度下降法】

關於深度學習優化器【轉載以學習、回憶】

關於深度學習優化器【轉載以學習、回憶】

關於量化【轉載以學習、回憶】

學習率預熱linear warmup【轉載以學習、回憶】

AEDA:文字分類資料增強【轉載以學習、回憶】

關於CRF層的學習率【轉載以學習、回憶】

【學習筆記】Pytorch深度學習—優化器（二）

【學習筆記】Pytorch深度學習—優化器（一）

深度學習——優化器演算法Optimizer詳解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

關於Focal Loss【轉自以學習、回憶】

MySQL大表優化方案【轉載】

【多目標優化求解】基於matlab粒子群演算法求解多目標優化問題【含Matlab原始碼 992期】

【三維裝箱】基於matlab粒子群演算法求解三維裝箱優化問題【含Matlab原始碼 950期】

【三維裝箱】基於matlab求解三維裝箱優化問題【含Matlab原始碼 949期】

【遊戲】基於matlab GUI迴圈碼編譯碼器【含Matlab原始碼 692期】

【優化求解】基於matlab粒子群演算法求解充電站規劃優化問題【含Matlab原始碼 664期】

UOJ386【UNR #3】鴿子固定器【ad-hoc，連結串列】

【優化求解】基於matlab麻雀搜尋演算法求解3D無線感測器網路(WSN)覆蓋優化問題【含Matlab原始碼 599期】

【多目標優化求解】基於matlab蜻蜓演算法求解多目標優化問題【含Matlab原始碼 477期】

【多目標優化求解】基於matlab粒子群求解微電網多目標優化問題【含Matlab原始碼 444期】

【PID優化】基於matlab粒子群演算法PID控制器優化設計【含Matlab原始碼 1122期】

關於深度學習優化器【轉載以學習、回憶】

相關推薦