Keras SGD 隨機梯度下降優化器引數設定方式

阿新 • • 發佈：2020-06-22

SGD 隨機梯度下降

Keras 中包含了各式優化器供我們使用，但通常我會傾向於使用 SGD 驗證模型能否快速收斂，然後調整不同的學習速率看看模型最後的效能，然後再嘗試使用其他優化器。

Keras 中文文件中對 SGD 的描述如下：

keras.optimizers.SGD(lr=0.01,momentum=0.0,decay=0.0,nesterov=False)

隨機梯度下降法，支援動量引數，支援學習衰減率，支援Nesterov動量

引數：

lr：大或等於0的浮點數，學習率

momentum：大或等於0的浮點數，動量引數

decay：大或等於0的浮點數，每次更新後的學習率衰減值

nesterov：布林值，確定是否使用Nesterov動量

引數設定

Time-Based Learning Rate Schedule

Keras 已經內建了一個基於時間的學習速率調整表，並通過上述引數中的 decay 來實現，學習速率的調整公式如下：

LearningRate = LearningRate * 1/(1 + decay * epoch)

當我們初始化引數為：

LearningRate = 0.1
decay = 0.001

大致變化曲線如下（非實際曲線，僅示意）：

Keras SGD 隨機梯度下降優化器引數設定方式

當然，方便起見，我們可以將優化器設定如下，使其學習速率隨著訓練輪次變化：

sgd = SGD(lr=learning_rate,decay=learning_rate/nb_epoch,momentum=0.9,nesterov=True)

Drop-Based Learning Rate Schedule

另外一種學習速率的調整方法思路是保持一個恆定學習速率一段時間後立即降低，是一種突變的方式。通常整個變化趨勢為指數形式。

Keras SGD 隨機梯度下降優化器引數設定方式

對應的學習速率變化公式如下：

LearningRate = InitialLearningRate * DropRate^floor(Epoch / EpochDrop)

實現需要使用 Keras 中的 LearningRateScheduler 模組：

from keras.callbacks import LearningRateScheduler
# learning rate schedule
def step_decay(epoch):
 initial_lrate = 0.1
 drop = 0.5
 epochs_drop = 10.0
 lrate = initial_lrate * math.pow(drop,math.floor((1+epoch)/epochs_drop))
 return lrate

lrate = LearningRateScheduler(step_decay)

# Compile model
sgd = SGD(lr=0.0,nesterov=False)
model.compile(loss=...,optimizer=sgd,metrics=['accuracy'])

# Fit the model
model.fit(X,Y,...,callbacks=[lrate])

補充知識：keras中的BGD和SGD

關於BGD和SGD

首先BGD為批梯度下降，即所有樣本計算完畢後才進行梯度更新；而SGD為隨機梯度下降，隨機計算一次樣本就進行梯度下降，所以速度快很多但容易陷入區域性最優值。

折中的辦法是採用小批的梯度下降，即把資料分成若干個批次，一批來進行一次梯度下降，減少隨機性，計算量也不是很大。 mini-batch

keras中的batch_size就是小批梯度下降。

以上這篇Keras SGD 隨機梯度下降優化器引數設定方式就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

Keras SGD 隨機梯度下降優化器引數設定方式

SGD 隨機梯度下降 Keras 中包含了各式優化器供我們使用，但通常我會傾向於使用 SGD 驗證模型能否快速收斂，然後調整不同的學習速率看看模型最後的效能，然後再嘗試使用其他優化器。

帶動量的隨機梯度下降法_隨機梯度下降法介紹及其引數講解

技術標籤：帶動量的隨機梯度下降法演算法介紹簡單來說，梯度下降就是從山頂找一條最短的路走到山腳最低的地方。但是因為選擇方向的原因，我們找到的的最低點可能不是真正的最低點。如圖所示，黑線標註的路線

pytorch 實現在一個優化器中設定多個網路引數的例子

我就廢話不多說了，直接上程式碼吧！其實也不難，使用tertools.chain將引數連結起來即可

如何在keras中新增自己的優化器(如adam等)

本文主要討論windows下基於tensorflow的keras 1、找到tensorflow的根目錄如果安裝時使用anaconda且使用預設安裝路徑，則在 C:\\ProgramData\\Anaconda3\\envs\\tensorflow-gpu\\Lib\\site-packages\\tensorflow處可

自定義程式碼實現簡單的多元一次線性函式的隨機梯度下降

import numpy as np import random # 隨機選取樣本的一部分作為隨機樣本進行隨機梯度下降的小部分樣本,x為元樣本，row_size為隨機樣本的行數

隨機梯度下降

隨機梯度下降目錄隨機梯度下降影響搜尋全域性最小值的因素1.區域性最小值2.鞍點3.初始狀態4.學習率5.動量（如何逃離區域性極小值）求導數的方法autograd.grad()函式loss.backward()函式

深度學習2.0-16.隨機梯度下降之反向傳播演算法推導

文章目錄 1.啟用函式及其梯度1.sigmoid/Logistic2.Tanh-在RNN中使用較多3.relu-Rectified Linear Unit(整型的線性單元)

25-隨機梯度下降法

隨機梯度下降法 1. 概念我們之前學習的梯度下降法一直是要我們最優化的那個損失函式相應在某一點的

小批量隨機梯度下降

技術標籤：DeepLearning學習python深度學習演算法小批量隨機梯度下降在每一次迭代中，梯度下降使用整個訓練資料集來計算梯度，因此它有時也被稱為批量梯度下降（batch gradient descent）。

torch.optim.Adam優化器引數學習

1.引數 https://blog.csdn.net/ibelievesunshine/article/details/99624645 class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source]

Batch、Mini-batch和隨機梯度下降的區別和Python示例

原文地址：https://baijiahao.baidu.com/s?id=1665861710638558010&wfr=spider&for=pc 在研究機器學習和深度學習時出現的主要問題之一是梯度下降的幾種型別。在梯度下降的三種類型（Batch梯度下降、Mini-bat

梯度下降優化演算法綜述

本文翻譯自Sebastian Ruder的“An overview of gradient descent optimization algoritms”，作者首先在其部落格中發表了這篇文章，其部落格地址為：An overview of gradient descent optimization algoritms，之後