梯度下降法(BGD,SGD,MSGD)python+numpy具體實現

阿新 • • 發佈：2019-02-16

梯度下降是一階迭代優化演算法。為了使用梯度下降找到函式的區域性最小值，一個步驟與當前位置的函式的梯度（或近似梯度）的負值成正比。如果相反，一個步驟與梯度的正數成比例，則接近該函式的區域性最大值;該程式隨後被稱為梯度上升。梯度下降也被稱為最陡峭的下降，或最快下降的方法。（from wikipad)

首先，大家要明白它的本質：這是一個優化演算法！！！它是可以用來解決很多問題的，一般學習機器學習的朋友都會線上性迴歸的遇到這個名詞，但是要宣告的是，它和最小二乘法類似，是用於求解線性迴歸問題的一種方法。同時它的功能又不僅於此，它線上性迴歸中的意義在於通過尋找梯度最大的方向下降（或上升）來找到損失函式最小時候對應的引數值。

好了，繞來繞去的就拿線性迴歸的例子來和大家講講吧。

梯度下降方法

本質是每次迭代的時候都沿著梯度最大的地方更新引數。現在假設有函式（Rosenbrock函式：是一個用來測試最優化演算法效能的非凸函式，由Howard Harry Rosenbrock在1960年提出[1]。也稱為Rosenbrock山谷或Rosenbrock香蕉函式，也簡稱為香蕉函式）如下定義：

f(x,y)=(1−x)2+100(y−x2)2
很明顯，其最小最為f(1,1)=0 ，其三維圖片如下：
這裡寫圖片描述

函式f 分別對 x，y 求導得到
∂f(x,y)∂x=−2(1−x)−2∗100(y−x2)∗2x
∂f(x,y)∂y=

2∗100(y−x2)
在實現的過程中可以給出x, y初始值(例如設定為 0, 0) 然後計算函式在這個點的梯度，並按照梯度方向更新x, y的值。

這裡給出通過梯度下降法計算上述函式的最小值對應的x 和 y

import numpy as np


def cal_rosenbrock(x1, x2):
    """
    計算rosenbrock函式的值
    :param x1:
    :param x2:
    :return:
    """
    return (1 - x1) ** 2 + 100 * (x2 - x1 ** 2) ** 2


def cal_rosenbrock_prax 
(x1, x2):
    """
    對x1求偏導
    """
    return -2 + 2 * x1 - 400 * (x2 - x1 ** 2) * x1

def cal_rosenbrock_pray(x1, x2):
    """
    對x2求偏導
    """
    return 200 * (x2 - x1 ** 2)

def for_rosenbrock_func(max_iter_count=100000, step_size=0.001):
    pre_x = np.zeros((2,), dtype=np.float32)
    loss = 10
    iter_count = 0
    while loss > 0.001 and iter_count < max_iter_count:
        error = np.zeros((2,), dtype=np.float32)
        error[0] = cal_rosenbrock_prax(pre_x[0], pre_x[1])
        error[1] = cal_rosenbrock_pray(pre_x[0], pre_x[1])

        for j in range(2):
            pre_x[j] -= step_size * error[j]

        loss = cal_rosenbrock(pre_x[0], pre_x[1])  # 最小值為0

        print("iter_count: ", iter_count, "the loss:", loss)
        iter_count += 1
    return pre_x

if __name__ == '__main__':
    w = for_rosenbrock_func()  
    print(w)

如果大家想執行這個演算法，建議使用預設的引數，效果還不錯。不要把step_size設定過大，會出問題的（可能是實現過程有問題，請指正）。

線性迴歸問題

這裡關於迴歸的前導介紹我建議大家取看周志華老師的西瓜書，介紹得通透明亮，但是周老師對線性迴歸問題給出的解決方法是通過最小二乘法來做的，而我們在這裡要用梯度下降。

這裡給出一般的定義吧～

一般的線性迴歸方程如下：

y=θ1∗x1+θ2∗x2+⋯+θn∗xn+b
轉換為：
y=θ1∗x1+θ2∗x2+⋯+θn∗xn+θ0∗b
這裡θ0=1轉換為向量的形式y=θT∗x，θ， x，均為為行向量。

現在需要定義損函式，用於判斷最後得到的預測引數的預測效果。常用的損失函式是均方誤差：

J(θ)=12m∑j=1m(h(θ)i−yi)2
i 是維度索引 j 是樣本索引，接下來對θ 求導得到
∂J(θ)∂θj=1m∑j=1m(h(θ)i−yi)xij
更新公式為：
θi=θi−α1m∑j=1m(h(θ)i−yi)xij
α 就是學習的步長。

BGM（批量梯度下降法）

import numpy as np

def gen_line_data(sample_num=100):
    """
    y = 3*x1 + 4*x2
    :return:
    """
    x1 = np.linspace(0, 9, sample_num)
    x2 = np.linspace(4, 13, sample_num)
    x = np.concatenate(([x1], [x2]), axis=0).T
    y = np.dot(x, np.array([3, 4]).T)  # y 列向量
    return x, y

def bgd(samples, y, step_size=0.01, max_iter_count=10000):
    sample_num, dim = samples.shape
    y = y.flatten()
    w = np.ones((dim,), dtype=np.float32)
    loss = 10
    iter_count = 0
    while loss > 0.001 and iter_count < max_iter_count:
        loss = 0
        error = np.zeros((dim,), dtype=np.float32)
        for i in range(sample_num):
            predict_y = np.dot(w.T, samples[i])
            for j in range(dim):
                error[j] += (y[i] - predict_y) * samples[i][j]

        for j in range(dim):
            w[j] += step_size * error[j] / sample_num

        for i in range(sample_num):
            predict_y = np.dot(w.T, samples[i])
            error = (1 / (sample_num * dim)) * np.power((predict_y - y[i]), 2)
            loss += error

        print("iter_count: ", iter_count, "the loss:", loss)
        iter_count += 1
    return w

if __name__ == '__main__':
    samples, y = gen_line_data()
    w = bgd(samples, y)
    print(w)  # 會很接近[3, 4]

SGB（隨機梯度下降法）

import numpy as np

def gen_line_data(sample_num=100):
    """
    y = 3*x1 + 4*x2
    :return:
    """
    x1 = np.linspace(0, 9, sample_num)
    x2 = np.linspace(4, 13, sample_num)
    x = np.concatenate(([x1], [x2]), axis=0).T
    y = np.dot(x, np.array([3, 4]).T)  # y 列向量
    return x, y

def sgd(samples, y, step_size=0.01, max_iter_count=10000):
    """
    隨機梯度下降法
    :param samples: 樣本
    :param y: 結果value
    :param step_size: 每一接迭代的步長
    :param max_iter_count: 最大的迭代次數
    :param batch_size: 隨機選取的相對於總樣本的大小
    :return:
    """
    sample_num, dim = samples.shape
    y = y.flatten()
    w = np.ones((dim,), dtype=np.float32)
    loss = 10
    iter_count = 0
    while loss > 0.001 and iter_count < max_iter_count:
        loss = 0
        error = np.zeros((dim,), dtype=np.float32)
        for i in range(sample_num):
            predict_y = np.dot(w.T, samples[i])
            for j in range(dim):
                error[j] += (y[i] - predict_y) * samples[i][j]
                w[j] += step_size * error[j] / sample_num

        # for j in range(dim):
        #     w[j] += step_size * error[j] / sample_num

        for i in range(sample_num):
            predict_y = np.dot(w.T, samples[i])
            error = (1 / (sample_num * dim)) * np.power((predict_y - y[i]), 2)
            loss += error

        print("iter_count: ", iter_count, "the loss:", loss)
        iter_count += 1
    return w

if __name__ == '__main__':
    samples, y = gen_line_data()
    w = sgd(samples, y)
    print(w)  # 會很接近[3, 4]

MBGB(小批量梯度下降法)

import numpy as np
import random

def gen_line_data(sample_num=100):
    """
    y = 3*x1 + 4*x2
    :return:
    """
    x1 = np.linspace(0, 9, sample_num)
    x2 = np.linspace(4, 13, sample_num)
    x = np.concatenate(([x1], [x2]), axis=0).T
    y = np.dot(x, np.array([3, 4]).T)  # y 列向量
    return x, y

def mbgd(samples, y, step_size=0.01, max_iter_count=10000, batch_size=0.2):
    """
    MBGD（Mini-batch gradient descent）小批量梯度下降：每次迭代使用b組樣本
    :param samples:
    :param y:
    :param step_size:
    :param max_iter_count:
    :param batch_size:
    :return:
    """
    sample_num, dim = samples.shape
    y = y.flatten()
    w = np.ones((dim,), dtype=np.float32)
    # batch_size = np.ceil(sample_num * batch_size)
    loss = 10
    iter_count = 0
    while loss > 0.001 and iter_count < max_iter_count:
        loss = 0
        error = np.zeros((dim,), dtype=np.float32)

        # batch_samples, batch_y = select_random_samples(samples, y,
        # batch_size)

        index = random.sample(range(sample_num),
                              int(np.ceil(sample_num * batch_size)))
        batch_samples = samples[index]
        batch_y = y[index]

        for i in range(len(batch_samples)):
            predict_y = np.dot(w.T, batch_samples[i])
            for j in range(dim):
                error[j] += (batch_y[i] - predict_y) * batch_samples[i][j]

        for j in range(dim):
            w[j] += step_size * error[j] / sample_num

        for i in range(sample_num):
            predict_y = np.dot(w.T, samples[i])
            error = (1 / (sample_num * dim)) * np.power((predict_y - y[i]), 2)
            loss += error

        print("iter_count: ", iter_count, "the loss:", loss)
        iter_count += 1
    return w

if __name__ == <

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    梯度下降法(BGD,SGD,MSGD)python+numpy具體實現
      
							
							
							梯度下降是一階迭代優化演算法。為了使用梯度下降找到函式的區域性最小值，一個步驟與當前位置的函式的梯度（或近似梯度）的負值成正比。如果相反，一個步驟與梯度的正數成比例，則接近該函式的區域性最大值;該程式隨後被稱為梯度上升。梯度下降也被稱為最陡峭的下降，或最快下降的 

  
 

    

    
    梯度下降法求多元線性迴歸及Java實現
       
 
  對於資料分析而言，我們總是極力找數學模型來描述資料發生的規律， 有的資料我們在二維空間就可以描述，有的資料則需要對映到更高維的空間。資料表現出來的分佈可能是完全離散的，也可能是聚整合堆的，那麼機器學習的任務就是讓計算機自己在資料中學習到資料的規律。那麼這個規律通常是可以用一些函式來描述， 

  
 

    

    
    解梯度下降法的三種形式BGD、SGD以及MBGD
      有一個   lis   一行   pri   mbg   網絡   ()   次數   pen   原帖地址：https://zhuanlan.zhihu.com/p/25765735             在應用機器學習算法時 

  
 

    

    
    梯度下降法的三種形式-BGD、SGD、MBGD
      方法   ont   -o   設置   求解   最小值   ima   求和   參數    
 
在應用機器學習算法時，我們通常采用梯度下降法來對采用的算法進行訓練。其實，常用的梯度下降法還具體包含有三種不同的形式，它們也各自有著不同的優缺點。
下面我們以線性回歸算法來對三種梯度下降法進行比較。
一般線 

  
 

    

    
    [Machine Learning] 梯度下降法的三種形式BGD、SGD以及MBGD
      
                閱讀目錄

　　在應用機器學習演算法時，我們通常採用梯度下降法來對採用的演算法進行訓練。其實，常用的梯度下降法還具體包含有三種不同的形式，它們也各自有著不同的優缺點。

　　下面我們以線性迴歸演算法來對三種梯度下降法進行比較。

　　一般線性迴歸函式的假設函式為：

h θ  

  
 

    

    
    梯度下降法的三種形式BGD（批量梯度下降）、SGD（隨機梯度下降）以及MBGD（小批量梯度下降）
      
                在應用機器學習演算法時，我們通常採用梯度下降法來對採用的演算法進行訓練。其實，常用的梯度下降法還具體包含有三種不同的形式，它們也各自有著不同的優缺點。

　　下面我們以線性迴歸演算法來對三種梯度下降法進行比較。

　　一般線性迴歸函式的假設函式為：



           

  
 

    

    
    【機器學習】【線性迴歸】梯度下降的三種方式(BGD+SGD+MSGD)以及三種調優方法(加快收斂速度)
      
                1.梯度下降演算法梯度下降演算法的核心思路和公式推導，可以詳見前面的文章：梯度下降演算法的核心思路和公式推導如果代價函式是凸函式，用梯度下降演算法一定可以求得最優解。2.梯度下降的三種方式在ML中，梯度下降有三種方式：1）批量梯度下降(Batch Gradient  Desc 

  
 

    

    
    機器學習---用python實現最小二乘線性回歸並用隨機梯度下降法求解 （Machine Learning Least Squares Linear Regression Application SGD）
      lin   python   get   stat   linspace   oms   mach   實現   all   在《機器學習---線性回歸（Machine Learning Linear Regression）》一文中，我們主要介紹了最小二乘線性回歸模型以及簡單地介紹了梯度下降法。現在，讓我們來 

  
 

    

    
    （轉）梯度下降法及其Python實現
      radi   減少   fill   叠代   bbs   方法   風險   ews   展示   梯度下降法（gradient descent），又名最速下降法（steepest descent）是求解無約束最優化問題最常用的方法，它是一種叠代方法，每一步主要的操作是求解目標函數的梯度向量，將當前位置的負 

  
 

    

    
    梯度下降法實現最簡單線性迴歸問題python實現
      梯度下降法是非常常見的優化方法，在神經網路的深度學習中更是必會方法，但是直接從深度學習去實現，會比較複雜。本文試圖使用梯度下降來優化最簡單的LSR線性迴歸問題，作為進一步學習的基礎。 
 
 import numpy as np
import pandas as pd
from numpy import *
 

  
 

    

    
    Python梯度下降法實現二元邏輯迴歸
       
  
  
 Python梯度下降法實現二元邏輯迴歸 
 二元邏輯迴歸假設函式 
  定義當函式值大於等於0.5時，結果為1，當函式值小於0.5時，結果為0.函式的值域是(0, 1)。 
 二元邏輯迴歸的損失函式 
  上圖為二元邏輯迴歸的概率公式，則代價函式可以表示為  損失函式求偏倒數為  
 可以發 

  
 

    

    
    python實現梯度下降法
       
 # coding:utf-8
import numpy as np 
import matplotlib.pyplot as plt
x = np.arange(-5/2,5/2,0.01)
y = -x**3+x**2+np.e+x**4

dy = lambda x:-3*x**2+2* 

  
 

    

    
    領近點梯度下降法、交替方向乘子法、次梯度法使用例項（Python實現）
       
 
  
  
 簡述 
 凸優化會很詳細地講解這三個演算法，這個學期剛好有這門課。 這裡以期末的大作業的專案中的一個題目作為講解。 
 題目 
 考慮線性測量b=Ax+e，其中b為50維的測量值，A為50*100維的測量矩陣，x為100維的未知稀疏向量且稀疏度為5，e為50維的測量噪聲。從b和A中恢復x 

  
 

    

    
    【python學習筆記】13：用梯度下降法求解最優值問題
      
                

梯度是函式在某點沿每個座標的偏導數構成的向量，它反映了函式沿著哪個方向增加得最快。因此要求解一個二元函式的極小值，只要沿著梯度的反方向走，直到函式值的變化滿足精度即可。

這裡打表儲存了途徑的每個點，最後在圖上繪製出來以反映路徑。

*梯度下降的具體實現



impor 

  
 

    

    
    學習筆記13：隨機梯度下降法（Stochastic gradient descent, SGD）
      
								
								            
						
                假設我們提供了這樣的資料樣本（樣本值取自於y=3*x1+4*x2）：x1x2y1419252651194229x1和x2是樣本值，y是預測目標，我們需要以一條直線來擬合上面的資料，待擬合的函式如下：我們 

  
 

    

    
    【八】機器學習之路——梯度下降法python實現
      
							
							
							  前面的部落格線性迴歸python實現講了如何用python裡sklearn自帶的linearRegression()函式來擬合數據的實現方式。今天咱們來介紹下，如何用梯度下降法擬合數據。 
  還記得梯度下降法是怎麼做的嗎？忘記的同學可以回頭看下前面的部落格 

  
 

    

    
    AdamOptimizer和隨機梯度下降法SGD的區別
      
                Adam 這個名字來源於adaptive moment estimation，自適應矩估計，如果一個隨機變數 X 服從某個分佈，X 的一階矩是 E(X)，也就是樣本平均值，X 的二階矩就是 E(X^2)，也就是樣本平方的平均值。Adam 演算法根據損失函式對每個引數的梯度 

  
 

    

    
    線性迴歸和批量梯度下降法python
      
                通過學習斯坦福公開課的線性規劃和梯度下降，參考他人程式碼自己做了測試，寫了個類以後有時間再去擴充套件，程式碼註釋以後再加，作業好多：

import numpy as np
import matplotlib.pyplot as plt
import random

clas 

  
 

    

    
    梯度下降法（GD,SGD,Mini-Batch GD）線上性迴歸中的使用
      
                https://github.com/crystal30/SGDLinrearRegression一.  梯度下降法(Batch Gradient Descent)1.梯度下降法的原理(1)   梯度下降法是一種基於搜尋的最優化方法，不是一個機器學習演算法。(2)   作用： 

  
 

    

    
    梯度下降演算法Python程式碼實現--批量梯度下降+隨機梯度下降+小批量梯度下降法
      
                      在學習線性迴歸的時候很多課程都會講到用梯度下降法求解引數，對於梯度下降演算法怎麼求出這個解講的較少，自己實現一遍演算法比較有助於理解演算法，也能注意到比較細節的東西。具體的數學推導可以參照這一篇部落格（http://www.cnblogs.com/pinard/p