[Keras] SGD 隨機梯度下降優化器引數設定

阿新 • • 發佈：2019-02-04

SGD 隨機梯度下降

Keras 中包含了各式優化器供我們使用，但通常我會傾向於使用 SGD 驗證模型能否快速收斂，然後調整不同的學習速率看看模型最後的效能，然後再嘗試使用其他優化器。Keras 中文文件中對 SGD 的描述如下：

keras.optimizers.SGD(lr=0.01, momentum=0.0, decay=0.0, nesterov=False)
隨機梯度下降法，支援動量引數，支援學習衰減率，支援Nesterov動量
引數：

lr：大或等於0的浮點數，學習率

momentum：大或等於0的浮點數，動量引數

decay：大或等於0的浮點數，每次更新後的學習率衰減值

nesterov：布林值，確定是否使用Nesterov動量

引數設定

Time-Based Learning Rate Schedule

Keras 已經內建了一個基於時間的學習速率調整表，並通過上述引數中的 decay 來實現，學習速率的調整公式如下：

LearningRate = LearningRate * 1/(1 + decay * epoch)

當我們初始化引數為：

LearningRate = 0.1
decay = 0.001

大致變化曲線如下（非實際曲線，僅示意）：
Time-Based Learning Rate Schedule
當然，方便起見，我們可以將優化器設定如下，使其學習速率隨著訓練輪次變化：

sgd = SGD(lr=learning_rate, decay=learning_rate/ 
nb_epoch, momentum=0.9, nesterov=True)

Drop-Based Learning Rate Schedule

另外一種學習速率的調整方法思路是保持一個恆定學習速率一段時間後立即降低，是一種突變的方式。通常整個變化趨勢為指數形式。
Drop Based Learning Rate Schedule
對應的學習速率變化公式如下：

LearningRate = InitialLearningRate * DropRate^floor(Epoch / EpochDrop)

實現需要使用 Keras 中的 LearningRateScheduler 模組：

from keras.callbacks import LearningRateScheduler
# learning rate schedule 

def step_decay(epoch):
	initial_lrate = 0.1
	drop = 0.5
	epochs_drop = 10.0
	lrate = initial_lrate * math.pow(drop, math.floor((1+epoch)/epochs_drop))
	return lrate

lrate = LearningRateScheduler(step_decay)

# Compile model
sgd = SGD(lr=0.0, momentum=0.9, decay=0.0, nesterov=False)
model.compile(loss=..., optimizer=sgd, metrics=['accuracy'])

# Fit the model
model.fit(X, Y, ..., callbacks=[lrate])

[Keras] SGD 隨機梯度下降優化器引數設定

SGD 隨機梯度下降

引數設定

Time-Based Learning Rate Schedule

Drop-Based Learning Rate Schedule

參考資料

[Keras] SGD 隨機梯度下降優化器引數設定

隨機梯度下降分類器和回歸器

深度學習必備：隨機梯度下降（SGD）優化演算法及視覺化

監督學習：隨機梯度下降算法（sgd）和批梯度下降算法（bgd）

梯度下降法的三種形式BGD（批量梯度下降）、SGD（隨機梯度下降）以及MBGD（小批量梯度下降）

python實現隨機梯度下降(SGD)

批量梯度下降(BGD)、隨機梯度下降(SGD)以及小批量梯度下降(MBGD)的理解

學習筆記13：隨機梯度下降法（Stochastic gradient descent, SGD）

AdamOptimizer和隨機梯度下降法SGD的區別

線性收斂的隨機優化演算法之 SAG、SVRG（隨機梯度下降）

深度學習之（十一）Deep learning中的優化方法：隨機梯度下降、受限的BFGS、共軛梯度法

深度學習筆記之【隨機梯度下降（SGD）】

機器學習---用python實現最小二乘線性回歸並用隨機梯度下降法求解（Machine Learning Least Squares Linear Regression Application SGD）

對數幾率回歸法（梯度下降法，隨機梯度下降與牛頓法）與線性判別法(LDA)

感知機2 -- 隨機梯度下降算法

深度學習情感分析（隨機梯度下降代碼實現）

Hulu機器學習問題與解答系列 | 二十四：隨機梯度下降法

谷歌機器學習速成課程---降低損失 (Reducing Loss)：隨機梯度下降法

梯度下降隨機梯度下降批量梯度下降

sklearn的快速使用之五（隨機梯度下降）

[Keras] SGD 隨機梯度下降優化器引數設定

SGD 隨機梯度下降

引數設定

Time-Based Learning Rate Schedule

Drop-Based Learning Rate Schedule

參考資料

相關推薦