訓練過程中使用學習率衰減

阿新 • • 發佈：2018-11-27

隨機梯度下降演算法的效能與學習率有著直接的關係，這是因為學習率決定了引數移動到最優值時的速度。如果學習率過大很可能會越過最優值，如果學習率過小，優化的效率可能過低，收斂時間極長。那麼一個很好的解決方案就是學習率衰減——即學習率隨著訓練的進行逐漸衰減。

在訓練過程開始時，使用較大的學習率，這樣就能快速收斂；隨著訓練過程的進行，逐漸降低學習率，這樣有助於找到最優解。

目前兩種較為流行的學習率衰減方法為：（1）線性衰減（2）指數衰減

（一）學習率線性衰減：

根據epoch逐步降低學習率。

在Keras中是通過SGD類中的隨機梯度下降優化演算法實現的，這個類有一個decay衰減率引數。

decay=0時，對學習率沒有影響，非零時，學習率呈線性衰減。

公式為：

$LearningRate = LearningRate \ast \frac{1}{1+decay\ast epoch}$

在下面程式碼中，初始學習率設為0.1——這是一個較為高的值。decay設為0.005。

"""
學習率線性衰減
"""
from sklearn import datasets
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from keras.optimizers import SGD

#匯入資料
dataset = datasets.load_iris()
x=dataset.data
Y=dataset.target
#隨機種子
seed=7
np.random.seed(seed)

#構建模型函式
def create_model(init='glorot_uniform'):
    #構建模型
    model = Sequential()
    model.add(Dense(units=4, activation='relu', input_dim=4, kernel_initializer=init))
    model.add(Dense(units=6, activation='relu', kernel_initializer=init))
    model.add(Dense(units=3, activation='softmax', kernel_initializer=init))

    #模型優化
    learningrate = 0.1
    momentum = 0.9
    dacay_rate = 0.005
    #定義學習率衰減
    sgd = SGD(lr=learningrate, momentum=momentum, decay=dacay_rate, nesterov=False)
    #編譯模型
    model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])
    return model

epochs = 200
model = KerasClassifier(build_fn=create_model, epochs=epochs, batch_size=5, verbose=1)
model.fit(x, Y)

結果為：

Epoch 1/200
2018-11-05 15:05:48.177490: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX AVX2
2018-11-05 15:05:48.179412: I tensorflow/core/common_runtime/process_util.cc:69] Creating new thread pool with default inter op setting: 8. Tune using inter_op_parallelism_threads for best performance.

5/150 [>.............................] - ETA: 7s - loss: 1.0809 - acc: 0.4000
150/150 [==============================] - 0s 2ms/step - loss: 0.7938 - acc: 0.5800
Epoch 2/200

5/150 [>.............................] - ETA: 0s - loss: 0.2944 - acc: 0.8000
150/150 [==============================] - 0s 203us/step - loss: 0.4864 - acc: 0.6667
Epoch 3/200

5/150 [>.............................] - ETA: 0s - loss: 0.2835 - acc: 0.8000
150/150 [==============================] - 0s 213us/step - loss: 0.4922 - acc: 0.6533
Epoch 4/200

5/150 [>.............................] - ETA: 0s - loss: 0.5734 - acc: 0.6000
150/150 [==============================] - 0s 210us/step - loss: 0.4693 - acc: 0.7000

。。。。。。
Epoch 199/200

5/150 [>.............................] - ETA: 0s - loss: 0.4183 - acc: 0.6000
150/150 [==============================] - 0s 200us/step - loss: 0.4632 - acc: 0.6400
Epoch 200/200

5/150 [>.............................] - ETA: 0s - loss: 0.5556 - acc: 0.6000
150/150 [==============================] - 0s 247us/step - loss: 0.4639 - acc: 0.6333

（二）學習率指數衰減：

這種方法通常是通過在固定的epoch週期將學習速率降低50%來實現的。

在Keras中，使用LearningRateScheduler回撥，來實現學習率的指數衰減。函式將epoch數值作為一個引數，並將學習率返回到隨機梯度下降演算法中使用。

"""
學習率指數級衰減
"""
from sklearn import datasets
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from keras.optimizers import SGD
from keras.callbacks import LearningRateScheduler
from math import pow, floor

#匯入資料
dataset = datasets.load_iris()
x=dataset.data
Y=dataset.target
#隨機種子
seed=7
np.random.seed(seed)

#計算學習率
def step_decay(epoch):
    init_lrate = 0.1#初始學習率定為0.1（較高）
    drop = 0.5#學習率降低50%
    epochs_drop = 10#沒10個epochs降低一次
    lrate = init_lrate * pow(drop, floor(1 + epoch) / epochs_drop)
    return lrate

#構建模型函式
def create_model(init='glorot_uniform'):
    #構建模型
    model = Sequential()
    model.add(Dense(units=4, activation='relu', input_dim=4, kernel_initializer=init))
    model.add(Dense(units=6, activation='relu', kernel_initializer=init))
    model.add(Dense(units=3, activation='softmax', kernel_initializer=init))
    # 模型優化
    learningrate = 0.1
    momentum = 0.9
    dacay_rate = 0.0
    # 定義學習率衰減
    sgd = SGD(lr=learningrate, momentum=momentum, decay=dacay_rate, nesterov=False)
    # 編譯模型
    model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])
    return model

#學習率指數衰減回撥
lrate = LearningRateScheduler(step_decay)

epochs = 200
model = KerasClassifier(build_fn=create_model, epochs=epochs, batch_size=5, verbose=1, callbacks=[lrate])
model.fit(x,Y)

。。。。

Epoch 197/200

5/150 [>.............................] - ETA: 0s - loss: 1.0988 - acc: 0.0000e+00
150/150 [==============================] - 0s 207us/step - loss: 1.0986 - acc: 0.3333
Epoch 198/200

5/150 [>.............................] - ETA: 0s - loss: 1.0985 - acc: 0.4000
150/150 [==============================] - 0s 203us/step - loss: 1.0986 - acc: 0.3333
Epoch 199/200

5/150 [>.............................] - ETA: 0s - loss: 1.0986 - acc: 0.2000
150/150 [==============================] - 0s 200us/step - loss: 1.0986 - acc: 0.3333
Epoch 200/200

5/150 [>.............................] - ETA: 0s - loss: 1.0986 - acc: 0.4000
150/150 [==============================] - 0s 203us/step - loss: 1.0986 - acc: 0.3333

訓練過程中使用學習率衰減

隨機梯度下降演算法的效能與學習率有著直接的關係，這是因為學習率決定了引數移動到最優值時的速度。如果學習率過大很可能會越過最優值，如果學習率過小，優化的效率可能過低，收斂時間極長。那麼一個很好的解決方案就是學習率衰減——即學習率隨著訓練的進行逐漸衰減。在訓練過程開始時，使用較大的學習率，這樣就能

tensorflow在訓練過程中逐步減少學習率

# 宣告學習率為不可訓練 learning_rate = tf.Variable(float(learning_rate), trainable=False, dtype=tf.float32) #

TensorFlow之tf.nn.dropout()：防止模型訓練過程中的過擬合問題

AC -- 輸出 array 全連接 spa () 激活 odin 一：適用範圍：　　tf.nn.dropout是TensorFlow裏面為了防止或減輕過擬合而使用的函數，它一般用在全連接層二：原理：　　dropout就是在不同的訓練過程中隨機扔掉一部分神經元。也就是

DeepLearning tutorial（2）機器學習演算法在訓練過程中儲存引數

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

在訓練過程中加入Dropout

Dropout是在訓練過程中，隨機地忽略部分神經元——也就是說，在正向傳播的過程中，這些被忽略的神經元對下游神經元的貢獻效果暫時消失，在反向傳播中，這些神經元也不會有任何權值的更新。 Dropout的思想的出現，主要是為了解決過擬合的問題。雖然說採用組合方法，也就是訓練多個模型，能夠在一定程度上

SSD訓練過程中出現問題總結

Check failed: 0 == bottom[0]->count() % explicit_count (0 vs. 60) bottom count (209472) must be divisible by the product of the spe

caffe訓練過程中的視覺化

import matplotlib.pyplot as plt import caffe caffe.set_device(0) caffe.set_mode_gpu() # 使用SGDSolver，即隨機梯度下降演算法 solver = caffe

caffe訓練過程中，訓練中斷之後，如何接著訓練？

zxw.sh /home/tyn/Downloads/center_loss_caffe/build/tools/caffe train -solver face_solver.prototxt --snapshot=center_loss_model_iter_9000

機器學習torch程式碼訓練過程中常見bug解決經驗

1.out of memory THCudaCheck FAIL file=/tmp/luarocks_cutorch-scm-1-3726/cutorch/lib/THC/generic/THCStorage.cu line=66 error=2 : out of

Tensorflow GPU訓練過程中遇到的問題總結

錯誤型別：CUDA_ERROE_OUT_OF_MEMORYGPU的全部memory資源不能全部都申請，可以通過修改引數來解決：在session定義前增加config = tf.ConfigProto(allow_soft_placement=True)#最多佔gpu資源的70

解決Caffe訓練過程中loss不變問題

1.loss等於87.33不變 loss等於87.33這個問題是在對Inception-V3網路不管是fine-tuning還是train的時候遇到的，無論網路迭代多少次，網路的loss一直保持恆定。查閱相關資料以後發現是由於loss的最大值由FL

YOLO訓練視覺化訓練過程中的中間引數-解析

等待訓練結束後（有時還沒等結束模型就開始發散了），因此需要檢測各項指標（如loss）是否達到了我們期望的數值，如果沒有，要分析為什麼。視覺化訓練過程的中間引數可以幫助我們分析問題。視覺化中間引數需要用到訓練時儲存的log檔案： ./darknet detec

理解YOLOv2訓練過程中輸出引數含義

最近有人問起在YOLOv2訓練過程中輸出在終端的不同的引數分別代表什麼含義，如何去理解這些引數？本篇文章中我將嘗試著去回答這個有趣的問題。剛好現在我正在訓練一個YOLOv2模型，拿這個真實的例子來討論再合適不過了，下邊是我訓練中使用的 .cfg 檔案（你可以在cfg資料夾下找

caffe訓練過程中出現的錯誤

前兩天又在伺服器上裝了一遍caffe系統，遇到的錯誤。。。。真的想噴幾口老血決定將之後遇到的caffe訓練過程中的錯誤記錄下來，防止一遍一遍又一遍的百度， 1、 Check failed: top_shape[j] == bottom[i]->sha

寫給程式設計師的機器學習入門 (四) - 訓練過程中常用的技巧

這篇將會著重介紹使用 pytorch 進行機器學習訓練過程中的一些常見技巧，掌握它們可以讓你事半功倍。使用的程式碼大部分會基於上一篇最後一個例子，即根據碼農條件預測工資

在訓練的過程中降低學習率

moni 常常 itl monitor steps 形式 spa AC 結果隨著學習的進行，深度學習的學習速率逐步下降為什麽比固定的學習速率得到的結果更加準確？如上圖所示，曲線代表損失值，小球一開始位於(1)處，假設學習速率設置為 △ v，那麽根據梯度下降，損失

訓練過程--學習率與權重衰減

學習率主要是兩個方面：學習率的初始化和學習率的更新梯度更新的步長就是學習率學習率初始化 1）ReLu的線性不飽和啟用端著相對於Tanh的雙飽和端（經驗規則0.1），肯定要降量級。 2）b的學習率一般為w的兩倍；例如Caffe和Alex給的Mod

yolo的訓練和測試過程中踩過的坑

1.執行main.py,報錯：SyntaxError: Missing parentheses in call to 'print' 錯誤原因：因為安裝的是python3的版本但是這個程式是2.

關於《深度學習》書中，第十一章中學習率過低會導致訓練誤差高位擾動的問題的猜想

關於《深度學習》書中，第十一章中學習率過低會導致訓練誤差高位擾動的問題的猜想首先，凸問題中不存在，證明在二階偏導的情況下，即資料中有一個明顯的誤差下降方向時，不會造成這種情況。這裡就得到了兩個條件，非凸且學習率過低。過低，低到什麼程度，我們大膽猜測是由於低於了資料的擾動誤差，即觀測誤差

用自己的資料集訓練Mask-RCNN實現過程中的坑

本文僅僅是自己實現過程的筆記記錄，僅僅用來交流的。在網上大量蒐集資料後，實現Mask-RCNN，但是過程中還是出現了很多很多的問題，所以將過程記錄如下，方便日後學習。一、實驗前準備 1. COCO資料集 COCO的全稱是Common Objects in COn

訓練過程中使用學習率衰減

相關推薦