優化梯度下降演算法 Momentum、RMSProp(Root mean square propagation)和Adam( Adaptive Moment Estimation)

阿新 • • 發佈：2018-11-25

https://blog.csdn.net/To_be_to_thought/article/details/81780397闡釋Batch Gradient Descent、Stochastic Gradient Descent、MiniBatch Gradient Descent具體原理。

對於梯度下降演算法，當引數特別多時容易發現，速度會變慢，需要迭代的次數更多。優化速度與學習率、梯度變化量息息相關，如何自適應地在優化過程中調整學習率和梯度變化有利於加快梯度下降的求解過程，比如在陡峭的地方變化的梯度大一點，學習率大一點等等。

下面三種演算法都是基於指數加權移動平均法考慮前面梯度對當前梯度的影響來對梯度、學習率作調整，從而更快收斂。

動量梯度下降演算法（Momentum）：

前向均方根梯度下降演算法 RMSProp(Root mean square propagation)：

自適應估計演算法（Adam）

以上演算法流程均參考吳恩達老師《改善深層神經網路》視訊內容，謝謝老師的仔細講解！

下面演算法實現和測試：

import numpy as np
import math
import matplotlib.pyplot as plt

#批量梯度下降法求最小值解 所有矩陣運算一律將ndarray轉為matrix，以矩陣形式儲存的向量一律轉為列形式（n行一列的矩陣）
#alpha為學習速率，eps為一個特別小接近於0的值，迴圈種終止條件：1.達到最大迭代次數   2.損失函式變化量小於eps
#x_matrix為樣本集資料，y_list為真實值標籤
def Gradient_Descent(x_matrix,y_list,alpha,max_iter,eps):
    m,n=np.shape(x_matrix)
    #x_matrix=normalize(x_matrix)
    y_matrix=np.matrix(y_list).T
    new_X=np.matrix(np.ones((m,n+1)))
    theta=np.matrix(np.random.rand(n+1)).T#隨機生成待求引數列向量,theta行數等於new_X的列數
    for i in range(m):
        new_X[i,1:n+1]=x_matrix[i,0:n]
    last_cost=0   #上一次損失函式值，初值為0
    index=0
    loss_record=[]
    cost=cost_function(new_X,y_matrix,theta)
    while abs(last_cost-cost)>eps and index<=max_iter:
        last_cost=cost
        theta[0]=theta[0]-alpha*1/m*sum(new_X*theta-y_matrix)
        theta[1:n+1]=theta[1:n+1]-alpha*1/m*sum(new_X.T*(new_X*theta-y_matrix))
        cost=cost_function(new_X,y_matrix,theta)
        index+=1
        loss_record.append(cost)
        print(str(index)+" "+str(abs(last_cost-cost)))
    return theta,loss_record

#動量梯度下降
#alpha為學習率 beta為加權係數 max_iter為最大迭代次數 eps1為損失函式變化量閾值 eps2為梯度變化的閾值
def GD_Momentum(X,y,alpha,beta,max_iter,eps1,eps2):
    m,n_features = X.shape
    new_X = np.column_stack((X,np.ones(m)))
    theta = np.random.random(n_features+1)
    init = np.zeros(n_features+1) #指數加權移動平均法的v初值
    itera = 0
    loss_record = []
    last_cost = 0 #上一輪計算的theta對應的損失函式值
    cost = cost_function(new_X,y,theta) #當前引數向量theta下的損失函式值
    loss_record.append(cost)
    while itera < max_iter and abs(cost-last_cost) > eps1:
        last_cost = cost
        gradient = np.dot(new_X.T,(np.dot(new_X,theta)-y))
        v=beta * init[:] + (1-beta) * gradient
        theta[:] = theta[:]-alpha*1/m*v
        init[:] = v[:]
        cost = cost_function(new_X,y,theta)
        print("loss function:"+str(cost))
        itera += 1
        loss_record.append(cost)
    return theta,loss_record

#Root Mean Square Propagation的梯度下降法
#alpha為全域性學習率 beta為衰減速率 max_iter為最大迭代次數 eps1為損失函式變化量閾值 eps2為微小擾動1e-8
def GD_RMSprop(X,y,alpha,beta,max_iter,eps1,eps):
    m,n_features = X.shape     #m為樣本數，n_features為特徵數
    new_X = np.column_stack((X,np.ones(m)))
    theta = np.random.random(n_features+1)
    init_S = np.zeros(n_features+1)   #指數加權移動平均法的v初值
    itera = 0
    loss_record = []
    last_cost = 0 #上一輪計算的theta對應的損失函式值
    cost = cost_function(new_X,y,theta) #當前引數向量theta下的損失函式值
    loss_record.append(cost)
    while itera<max_iter and abs(cost-last_cost)>eps1:
        last_cost = cost
        gradient = np.dot(new_X.T,(np.dot(new_X,theta)-y))
        mean_square = beta * init_S[:] + (1-beta) * np.square(gradient)
        theta[:] = theta[:]-alpha * 1/m * gradient/(np.sqrt(mean_square)+eps)
        init_S[:] = mean_square[:]
        cost=cost_function(new_X,y,theta)
        print("loss function:"+str(cost))
        itera += 1
        loss_record.append(cost)
    return theta,loss_record

# Adaptive Moment Estimation的梯度下降法
# alpha為全域性學習率 beta1為v的衰減速率向量，一般取0.9  beta2為S的衰減速率向量，一般取0.9 max_iter為最大迭代次數 eps1為損失函式變化量閾值 eps2為微小擾動1e-8
# v和S初值為0
def GD_Adam(X,y,alpha,beta1,beta2,max_iter,eps1,eps2):
    m,n_features = X.shape               #m為樣本數，n_features為特徵數
    new_X = np.column_stack((X,np.ones(m)))
    theta = np.random.random(n_features+1)
    init_v = np.zeros(n_features+1)      #指數加權移動平均法的初值
    init_S = np.zeros(n_features+1)
    itera = 0
    loss_record = []
    last_cost = 0 #上一輪計算的theta對應的損失函式值
    cost = cost_function(new_X,y,theta) #當前引數向量theta下的損失函式值
    loss_record.append(cost)
    while itera < max_iter and abs(cost-last_cost) > eps1:
        last_cost = cost
        gradient = np.dot(new_X.T,(np.dot(new_X,theta)-y))
        v = beta1 * init_v[:] + (1-beta1) * gradient
        S = beta2 * init_S[:] + (1-beta2) * np.square(gradient)
        v_corrected = v / (1 - np.power(beta1,itera+1)) #偏差矯正
        S_corrected = S / (1 - np.power(beta2,itera+1))
        theta[:] = theta[:] - alpha * 1/m * v_corrected / (np.sqrt(S_corrected) + eps2)
        init_v[:] = v_corrected[:]
        init_S[:] = S_corrected[:]
        cost = cost_function(new_X,y,theta)
        print("loss function:"+str(cost))
        itera += 1
        loss_record.append(cost)
    return theta,loss_record

測試程式碼：

X,y_list = file2matrix('H:/Machine Learning in Action/Ch08/ex0.txt')
y = np.reshape(y_list,len(y_list))
theta4,record4=GD_Momentum(X,y,0.01,0.9,1000,1e-10,1e-9)
theta5,record5 = GD_RMSprop(X,y,0.1,0.9,100000,1e-10,1e-8)
theta6,record6 = GD_Adam(X,y,0.1,0.9,0.9,500000,1e-10,1e-8)
plt.plot(np.arange(1,len(record5)+1),record5)

引數求解結果都比較接近，損失函式衰減圖這裡就不展示了！

優化梯度下降演算法 Momentum、RMSProp(Root mean square propagation)和Adam( Adaptive Moment Estimation)

https://blog.csdn.net/To_be_to_thought/article/details/81780397闡釋Batch Gradient Descent、Stochastic Gradient Descent、MiniBatch Gradient Descent具體原理。

斯坦福cs231n學習筆記（11）------神經網路訓練細節（梯度下降演算法大總結/SGD/Momentum/AdaGrad/RMSProp/Adam/牛頓法）

神經網路訓練細節系列筆記：通過學習，我們知道，因為訓練神經網路有個過程: <1>Sample 獲得一批資料； <2>Forward 通過計算圖前向傳播，獲得loss； <3>Backprop 反向傳播計算梯度，這

梯度下降、線性迴歸演算法中的梯度下降、為什麼要用梯度下降演算法。

梯度梯度是一個向量。函式上某點的梯度的方向：導數最大的方向。梯度的大小（梯度的模）：該點的導數的大小。梯度下降對於一般二次函式而言：由於梯度的方向是導數最大的方向，順著梯度方向走，函式值就變大的最快，順著梯度的反方向，那麼函式值減小最快的方向，導數也慢慢減小。當導數減為

gradient descent梯度下降演算法的優化

cost function優化最原始更新由此相應的難點程式碼： self.weights = [w-(eta/len(mini_batch))*nw for w, nw in zip(self.weights, nabla_w)] self.bi

2018.11.15——學習率和梯度系列，Momentum、AdaGrad、RMSProp、Adam

Momentum：即前幾次梯度也會參與運算。新梯度 = 原始梯度和之前的梯度的累加的運算。前後梯度方向一致時，能夠加速學習；前後方向不一致時，能夠抑制震盪。 ---------------------------------------------------

訓練過程--梯度下降演算法（SGD、adam等）

SGD系列 1）Batch gradient descent(批量梯度下降) 在整個資料集上每更新一次權重，要遍歷所有的樣本，由於樣本集過大，無法儲存在記憶體中，無法線上更新模型。對於損失函式的凸曲面，可以收斂到全域性最小值，對於非凸曲面，收斂到區域性最小值。隨機梯度

深度學習框架tensorflow學習與應用6（優化器SGD、ADAM、Adadelta、Momentum、RMSProp比較）

看到一個圖片，就是那個表情包，大家都知道： Adadelta 》 NAG 》 Momentum》 Remsprop 》Adagrad 》SGD 但是我覺得看情況而定，比如有http://blog.51cto.com/12568470/1898367常見優化演

Machine Learning--week1 監督學習、預測函式、代價函式以及梯度下降演算法

Supervised Learning given labelled data to train and used to predict for regression problem and classification problem Unsupervised Le

線性迴歸、梯度下降演算法與 tensorflow

舉個栗子考慮一個二手房交易記錄資料集. 已知房屋面積，臥室數量和交易價格: 根據這個資料集，要求我們估算當前某個給定房屋價格. 我們應該怎麼做？線性迴歸迴歸就是根據已知資料來預測另一個數值型資料的目標值. 假設特徵和結果滿足線性關係： h(x

【機器學習】梯度下降演算法及梯度優化演算法

用於評估機器學習模型的就是損失函式，我們訓練的目的基本上都是最小化損失，這個最小化的方式就要用優化演算法了，機器學習中最常用的就是梯度下降演算法。導數、方向導數和梯度要了解梯度下降演算法是什麼首要知道梯度是什麼，導數和方向導數又是瞭解梯度的前提。

tensorflow中實現自動、手動梯度下降：GradientDescent、Momentum、Adagrad

tensorflow中提供了自動訓練機制（見nsorflow optimizer minimize 自動訓練和var_list訓練限制），本文主要展現不同的自動梯度下降並附加手動實現。 learning rate、step、計算公式如下：在預測中，x是關於y的變數，

《機器學習實戰》學習筆記（四）之Logistic（上）基礎理論及演算法推導、線性迴歸，梯度下降演算法

轉載請註明作者和出處：http://blog.csdn.net/john_bh/ 執行平臺： Windows Python版本： Python3.6 IDE： Sublime text3 一、概述 Logistic迴歸是統計學習中的經典

斯坦福CS229機器學習課程筆記一：線性迴歸與梯度下降演算法

機器學習三要素機器學習的三要素為：模型、策略、演算法。模型：就是所要學習的條件概率分佈或決策函式。線性迴歸模型策略：按照什麼樣的準則學習或選擇最優的模型。最小化均方誤差，即所謂的 least-squares(在spss裡線性迴歸對應的模組就叫OLS即Ordinary Least Squares)：

梯度下降演算法過程詳細解讀

　　看了很多博文，一談到梯度下降，大多都在畫圖，類比“下山”。對於一開始想要了解“梯度下降”是個什麼玩意兒時，這種類比法是非常有助於理解的。但是，當我大概知道了梯度下降是什麼東西之後，我就好奇了，梯度下降究竟是怎樣尋找到模型的最優引數的？不能一想到梯度下降，腦海中就只有“下山”的畫面，“下山”不是目的，目的在

吳恩達機器學習課程筆記02——處理房價預測問題（梯度下降演算法詳解）

建議記住的實用符號符號含義 m 樣本數目 x 輸入變數 y 輸出變數/目標變數

機器學習之--梯度下降演算法

貌似機器學習最繞不過去的演算法，是梯度下降演算法。這裡專門捋一下。 1. 什麼是梯度有知乎大神已經解釋的很不錯，這裡轉載並稍作修改，加上自己的看法。先給出連結，畢竟轉載要說明出處嘛。為什麼梯度反方向是函式值區域性下降最快的方向？因為高等數學都忘光了，先從導數/偏倒數/方向

線性迴歸梯度下降演算法 overshot the minimun現象

在梯度下降演算法中，理論上有一個步長steep需要我們設定。steep的設定非常重要，如果設定不當，我們的梯度下降演算法可能就得不到我們想要的結果。一：步長不當導致的問題如果步長太短，很顯然我們訓練集訓練的時間就會加長。如果訓練集比較多，這也是致命的。如果步長太長，可能出現Oversho

監督學習-梯度下降演算法

公式不太好上傳，所以就截圖了，效果不太好，大家想看原件，請下載：https://download.csdn.net/download/qq_24369689/10811686 監督學習-梯度下降演算法如果你還沒有接觸過梯度下降演算法，你在看下面內容之前可以先看一下，吳恩達的梯度下降的視訊：

梯度下降演算法(1) - Python實現

演算法介紹：梯度下降演算法是一種利用一次導數資訊求取目標函式極值的方法，也是目前應用最為廣泛的區域性優化演算法之一。其具有實現簡單、容易遷移、收斂速度較快的特徵。在求解過程中，從預設的種子點開始，根據梯度資訊逐步迭代更新，使得種子點逐漸向目標函式的極小值點移動，最終到達目標函式的極小值點。注意，沿梯度正

一系列梯度下降演算法

梯度下降演算法是優化神經網路最常見的方式，這裡我們會接觸梯度下降法的不同變種以及多種梯度下降優化演算法。梯度下降變種 batch gradient descent 缺點：一次引數更新需要使用整個資料集，因此十分慢，並且記憶體不夠的話很難應付。優點：保證收斂到全域性最小值或者區

優化梯度下降演算法 Momentum、RMSProp(Root mean square propagation)和Adam( Adaptive Moment Estimation)

相關推薦