梯度下降演算法Python程式碼實現--批量梯度下降+隨機梯度下降+小批量梯度下降法

阿新 • • 發佈：2019-02-20

在學習線性迴歸的時候很多課程都會講到用梯度下降法求解引數，對於梯度下降演算法怎麼求出這個解講的較少，自己實現一遍演算法比較有助於理解演算法，也能注意到比較細節的東西。具體的數學推導可以參照這一篇部落格（http://www.cnblogs.com/pinard/p/5970503.html）

一、首先，我們用一個簡單的二元函式用梯度下降法看下演算法收斂的過程

也可以改一下eta，看一下步長如果大一點，演算法的收斂過程

import numpy as np
import matplotlib.pyplot as plt

plot_x = np.linspace(-1,6,140)
plot_y = (plot_x-2.5)**2-1

#先算出來當前函式的導數
def dJ(theta):
    return 2*(theta-2.5)

#梯度函式
def J(theta):
    return (theta-2.5)**2-1


#初始化theta=0
#步長eta設定為0.1
eta = 0.1
theta_history = []
theta = 0
epsilon = 1e-8
while True:
    gredient = dJ(theta)
    last_theta = theta
    theta = theta - eta*gredient
    theta_history.append(theta)
    
    if(abs(J(theta) - J(last_theta)) < epsilon):
        break
        
print(theta)
print(J(theta))

plt.plot(plot_x, J(plot_x))
plt.plot(np.array(theta_history),J(np.array(theta_history)),color='r',marker='+')
plt.show()

出來的結果如下：

二、線上性迴歸模型中訓練演算法--批量梯度下降Batch Gradient Descent

首先，構建一個函式

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(666)
x = 2 * np.random.random(size=100)
y = x*3. + 4. + np.random.normal(size=100)


#然後改成向量的形式
X = x.reshape(-1,1)

plt.scatter(x,y)
plt.show()

然後寫實現梯度下降法求解我們構建的這個函式：

def J(theta , X_b , y):
    try:
        return sum((y-X_b.dot(theta))**2)/len(X_b)
    except:
        return float('inf')



#這裡使用的是每次求一個引數，然後組合在了一起成了res
def dJ(theta, X_b ,y):
    res = np.empty(len(theta))
    res[0] = np.sum(X_b.dot(theta) - y)
    for i in range(1, len(theta)):
        res[i] = (X_b.dot(theta) - y).dot(X_b[:,i])
    return res * 2 / len(X_b)


#這裡也可以直接用矩陣運算求出所有的引數，效率更高
#return X_b.T.dot(X_b.dot(theta)-y)*2. / len(y)

然後把上面的過程封裝成函式形式：

#把整個演算法寫成函式的形式

def gradient_descent(X_b, y ,inital_theta, eta ,n_inters = 1e4, epsilon = 1e-8):
    theta = initial_theta
    i_inter = 0
    
    while i_inter < n_inters:
        gradient = dJ(theta, X_b, y)
        last_theta = theta
        theta = theta - eta*gradient
    
        if(abs(J(theta,X_b,y) - J(last_theta,X_b,y)) < epsilon):
            break
        
        i_inter += 1
    return theta

然後用我們實現的演算法求解上面那個函式：

#這裡加一列1
X_b = np.hstack([np.ones((len(x),1)), x.reshape(-1,1)])
#初始theta設定為0
initial_theta = np.zeros(X_b.shape[1])
eta = 0.01

theta = gradient_descent(X_b, y, initial_theta, eta)
theta

輸出結果如下：

array([4.02145786, 3.00706277])

使用梯度下降法時，由於不同維度之間的值大小不一，最好將資料進行歸一化，否則容易造成不收斂

三、線上性迴歸模型中訓練演算法--隨機梯度下降Stochastic Gradient Descent

隨機梯度下降法可以訓練更少的樣本就得到比較好的效果，下面用兩段程式碼比較下。

這個就是之前的批量梯度下降，不過換了一個數據集

import numpy as np
import matplotlib.pyplot as plt

m = 100000

x = np.random.normal(size = m)
X = x.reshape(-1,1)
y = 4. * x + 3. +np.random.normal(0,3,size = m)

def J(theta , X_b , y):
    try:
        return sum((y-X_b.dot(theta))**2)/len(X_b)
    except:
        return float('inf')
    
def dJ(theta, X_b ,y):
    return X_b.T.dot(X_b.dot(theta)-y)*2. / len(y) 


def gradient_descent(X_b, y ,inital_theta, eta ,n_inters = 1e4, epsilon = 1e-8):
    theta = initial_theta
    i_inter = 0
    
    while i_inter < n_inters:
        gradient = dJ(theta, X_b, y)
        last_theta = theta
        theta = theta - eta*gradient
    
        if(abs(J(theta,X_b,y) - J(last_theta,X_b,y)) < epsilon):
            break
        
        i_inter += 1
    return theta

%%time
X_b = np.hstack([np.ones((len(x),1)), X])
initial_theta = np.zeros(X_b.shape[1])
eta = 0.01

theta = gradient_descent(X_b, y, initial_theta, eta)
theta

結果如下：

Wall time: 37.2 s

theta：

array([3.00590902, 4.00776602])

下面我們用隨機梯度下降：

#這裡每次求一行資料的梯度,所以後面不用除以m
def dJ_sgd(theta, X_b_i, y_i):
    return X_b_i.T.dot(X_b_i.dot(theta) - y_i)* 2. 


#隨機梯度下降法學習率設定t0/(t+t1)這種形式
#由於梯度下降法隨機性，設定最後的結果的時候只設置最大迭代次數
def sgd(X_b, y, initial_theta, n_iters):
    
    t0 = 5
    t1 = 50
    
    def learning_rate(t):
        return t0/(t+t1)
    
    theta = initial_theta
    for cur_iter in range(n_iters):
        #下面是設定每次隨機取一個樣本
        rand_i = np.random.randint(len(X_b))
        gradient = dJ_sgd(theta, X_b[rand_i], y[rand_i])
        theta = theta - learning_rate(cur_iter) * gradient
        
    return theta


%%time
X_b = np.hstack([np.ones((len(x),1)), X])
initial_theta = np.zeros(X_b.shape[1])

theta = sgd(X_b, y, initial_theta, n_iters=len(X_b)//3)

結果如下：

Wall time: 481 ms

theta:

array([2.93906903, 3.99764075])

對比下兩者的執行時間，隨機梯度下降法計算量更小，時間也大大減少。

四、小批量梯度下降法-Mini-Batch Gradient Descent

這個完全按照自己理解寫下，如果有大牛指點下不勝感激。

小批量梯度下降法主要在於每次訓練的資料量不同，隨機梯度下降是有一個樣本就訓練一次，小批量梯度下降是有一批樣本訓練一次，這裡預設引數我給100

#這裡每次求一行資料的梯度,所以後面不用除以m
def dJ_sgd(theta, X_b_i, y_i):
    return X_b_i.T.dot(X_b_i.dot(theta) - y_i)* 2. 


def sgd(X_b, y, initial_theta, n_iters,n=100):
    
    t0 = 5
    t1 = 50
    
    def learning_rate(t):
        return t0/(t+t1)
    
    theta = initial_theta
    for cur_iter in range(n_iters):
        #下面是設定每次隨機取一個樣本
        for i in range(n):
            rand_i = []
            rand_i_1 = np.random.randint(len(X_b))
            rand_i.append(rand_i_1)
            
        gradient = dJ_sgd(theta, X_b[rand_i], y[rand_i])
        theta = theta - learning_rate(cur_iter) * gradient
    return theta

然後還是用之前的資料集測試下：

%%time
import numpy as np
X_b = np.hstack([np.ones((len(x),1)), X])
initial_theta = np.zeros(X_b.shape[1])

theta = sgd(X_b, y, initial_theta,n=5, n_iters=len(X_b)//3)

結果如下：

Wall time: 643 ms

這裡每次給5個樣本，耗費的時間還是很長的，不知道是不是程式碼寫的有問題。

結果來看是對的:

array([2.96785569, 4.00405719])

梯度下降演算法Python程式碼實現--批量梯度下降+隨機梯度下降+小批量梯度下降法

在學習線性迴歸的時候很多課程都會講到用梯度下降法求解引數，對於梯度下降演算法怎麼求出這個解講的較少，自己實現一遍演算法比較有助於理解演算法，也能注意到比較細節的東西。具體的數學推導可以參照這一篇部落格（http://www.cnblogs.com/pinard/p

K近鄰演算法-python程式碼實現

K-Nearest Neighbor 　　商業哲學家 Jim Rohn 說過一句話，“你，就是你最常接觸的五個人的平均。”那麼，在分析一個人時，我們不妨觀察和他最親密的幾個人。同理的，在判定一個未知事物時，可以觀察離它最近的幾個樣本，這就是 kNN（k最近鄰）

經典演算法python程式碼實現

之前學演算法經常不求甚解，懶癌發作不敲程式碼不實踐，到頭來自己挖的坑還是得自己填，我會陸續更新程式碼，本文大量程式碼來自網際網路，能找到出處的我會盡量貼上出處廣度優先搜尋、深度優先搜尋 class graph(): def __init

梯度下降和邏輯迴歸例子(Python程式碼實現)

import numpy as np import pandas as pd import os data = pd.read_csv("iris.csv") # 這裡的iris資料已做過處理 m, n = data.shape dataMatIn = np.ones((m, n)) dataM

大資料：Spark mlib(三) GradientDescent梯度下降演算法之Spark實現

1. 什麼是梯度下降？梯度下降法（英語：Gradient descent）是一個一階最優化演算法，通常也稱為最速下降法。要使用梯度下降法找到一個函式的區域性極小值，必須向函式上當前點對應梯度（或者是近似梯度）的反方向的規定步長距離點進行迭代搜尋。先來看兩個函式：1. 擬合

Somte演算法和Python程式碼實現

SMOTE全稱是Synthetic Minority Oversampling Technique，即合成少數類過取樣技術。它是基於隨機過取樣演算法的一種改進方案。由於隨機過取樣採取簡單複製樣本的策略來增加少數類樣本，這樣容易產生模型過擬合的問題，即使得模型學習到的資

排序演算法之快速排序，氣泡排序用python程式碼實現

一、快速排序 1.在列表中選出一個基準數（通常為列表的第一個數） 2.將列表中小於基準數的資料移到基準列表的左邊，將大於基準數的資料移到基準數的右邊 3.對於基準數左，右兩邊的列表，不斷重複以上兩個過程，直到每個子集只有一個元素，即為全部有序的. def qu

基於使用者最近鄰模型的協同過濾演算法的Python程式碼實現

#------------------------------------------------------------------------------- # Name: PearsonUserNeighCF # Purpose: Personalized Recommendati

python 程式碼實現反向傳播演算法

實現反向傳播的演算法可以在python2以及python3中執行,在我的測試環境中可以執行.我並沒有詳細去測試每一個python版本. 演算法中使用的資料是mnist資料集. 下面是演算法的程式碼 forward_neural_network.py #!/usr/bin/pyth

常用的幾種機器學習演算法迴歸模型python程式碼實現

由於在論文實驗過程中一直使用的是python語言完成的論文實驗，所以在論文需要使用機器學習方法時就考慮使用了scikit-learn。 scikit-learn是一款很好的Python機器學習庫，它包含以下的特點：（1）簡單高效的資

python程式碼實現狄克斯特拉演算法

狄克斯特拉演算法找最短路徑問題: 之前我們瞭解過，用廣度優先搜尋，找出段數最少的路徑，但是要找出最快的路徑該怎麼做呢，為此我們可以用現在提到的演算法，狄克斯特拉演算法。我們知道，狄克斯特拉算的輔助圖形必須是有向無環加權圖，這也就決定了該演算法的使用條件。那什麼是有向

KNN演算法例子（java,scala,python 程式碼實現）

java 版本 package com.fullshare.test; import java.util.ArrayList; import java.util.Collections; import java.util.Comparator; import java.u

Apriori演算法學習以及Python程式碼實現

最近在學資料探勘，學完Apriori演算法之後就一直想用程式碼實現出來，於是學了幾天python之後，進行了實現...直接貼程式碼，程式碼中有自己的解釋。''' # Filename: MyApriori.py # author: 薄層 # Date: 2018/5/20 0

Logistic Regression 邏輯迴歸演算法例子，python程式碼實現

轉載自原文邏輯迴歸 Logistic Regression 雖然名字叫做邏輯迴歸 Logistic regression ，但它是一種分類演算法。對於文字處理方便，邏輯迴歸是一種非常強大的分類器。它主要通過在邏輯函式上執行迴歸來實現，正如其名字。邏輯迴歸的一個小

【機器學習】：Kmeans均值聚類演算法原理(附帶Python程式碼實現)

這個演算法中文名為k均值聚類演算法，首先我們在二維的特殊條件下討論其實現的過程，方便大家理解。第一步.隨機生成質心由於這是一個無監督學習的演算法，因此我們首先在一個二維的座標軸下隨機給定一堆點，並隨即給定兩個質心，我們這個演算法的目的就是將這一堆點根據它們自身的座標特徵分為兩類，因此選取了兩個質心，什麼時

Tensorflow 反捲積（DeConv）實現原理+ 手寫python程式碼實現反捲積（DeConv）

1、反捲積原理反捲積原理不太好用文字描述，這裡直接以一個簡單例子描述反捲積。假設輸入如下： [[1,0,1], [0,2,1], [1,1,0]] 反捲積卷積核如下： [[ 1, 0, 1], [-1, 1, 0], [ 0,-1, 0]]

Java常用的八種排序演算法與程式碼實現（三）：桶排序、計數排序、基數排序

三種線性排序演算法：桶排序、計數排序、基數排序線性排序演算法（Linear Sort）：這些排序演算法的時間複雜度是線性的O(n)，是非比較的排序演算法桶排序（Bucket Sort）　　將要排序的資料分到幾個有序的桶裡，每個桶裡的資料再單獨進行排序，桶內排完序之後，再把桶裡的

Java常用的八種排序演算法與程式碼實現（二）：歸併排序法、快速排序法

注：這裡給出的程式碼方案都是通過遞迴完成的－－－歸併排序（Merge Sort）：　　分而治之，遞迴實現　　如果需要排序一個數組，我們先把陣列從中間分成前後兩部分，然後對前後兩部分進行分別排序，再將排好序的數組合並在一起，這樣整個陣列就有序了　　歸併排序是穩定的排序演算法，時間

特徵選擇(2):mRMR特徵選擇演算法(matlab程式碼實現)

mRMR是什麼是基於最大相關最小冗餘的特徵選擇方法。要點：1.相關是特徵列與類標的相關性，也可以值特徵之間的相關性，通常來說，特徵與類標相關性越高，說明這個特徵越重要。則選擇這個特徵，這就是最大相關。 2.最小冗餘：特徵選擇的目的就是減少分類器的負擔，減少不需要的特徵。而兩個特徵之間

梯度下降演算法Python程式碼實現--批量梯度下降+隨機梯度下降+小批量梯度下降法

相關推薦