隨機梯度下降法

阿新 • • 發佈：2019-01-03

剛剛看完斯坦福大學機器學習第四講（牛頓法），也對學習過程做一次總結吧。

一、誤差準則函式與隨機梯度下降：

數學一點將就是，對於給定的一個點集（X，Y），找到一條曲線或者曲面，對其進行擬合之。同時稱X中的變數為特徵（Feature)，Y值為預測值。

如圖：

一個典型的機器學習的過程，首先給出一組輸入資料X，我們的演算法會通過一系列的過程得到一個估計的函式，這個函式有能力對沒有見過的新資料給出一個新的估計Y，也被稱為構建一個模型。

我們用X1、X2...Xn 去描述feature裡面的分量，用Y來描述我們的估計，得到一下模型：

我們需要一種機制去評價這個模型對資料的描述到底夠不夠準確，而採集的資料x、y通常來說是存在誤差的（多數情況下誤差服從高斯分佈），於是，自然的，引入誤差函式：

關鍵的一點是如何調整theta值，使誤差函式J最小化。J函式構成一個曲面或者曲線，我們的目的是找到該曲面的最低點：

假設隨機站在該曲面的一點，要以最快的速度到達最低點，我們當然會沿著坡度最大的方向往下走（梯度的反方向）

用數學描述就是一個求偏導數的過程：

這樣，引數theta的更新過程描述為以下：

（α表示演算法的學習速率）

二、不同梯度下降演算法的區別：

梯度下降：梯度下降就是我上面的推導，要留意，在梯度下降中，對於θ的更新，所有的樣本都有貢獻，也就是參與調整θ.其計算得到的是一個標準梯度。因而理論上來說一次更新的幅度是比較大的。如果樣本不多的情況下，當然是這樣收斂的速度會更快啦~
隨機梯度下降：可以看到多了隨機兩個字，隨機也就是說我用樣本中的一個例子來近似我所有的樣本，來調整θ

，因而隨機梯度下降是會帶來一定的問題，因為計算得到的並不是準確的一個梯度，容易陷入到區域性最優解中
批量梯度下降：其實批量的梯度下降就是一種折中的方法，他用了一些小樣本來近似全部的，其本質就是我1個指不定不太準，那我用個30個50個樣本那比隨機的要準不少了吧，而且批量的話還是非常可以反映樣本的一個分佈情況的。

三、演算法實現與測試：

通過一組資料擬合 y = theta1*x1 +theta2*x2

#Python 3.3.5
import random
# matrix_A  訓練集
matrix_A = [[1,4], [2,5], [5,1], [4,2]]
Matrix_y = [19,26,19,20]
theta = [2,5]
#學習速率
leraing_rate = 0.005
loss = 50
iters = 1
Eps = 0.0001
#隨機梯度下降
while loss>Eps and iters <1000 :
    loss = 0
    i = random.randint(0, 3)
    h = theta[0]*matrix_A[i][0] + theta[1]*matrix_A[i][1] 
    theta[0] = theta[0] + leraing_rate*(Matrix_y[i]-h)*matrix_A[i][0]
    theta[1] = theta[1] + leraing_rate*(Matrix_y[i]-h)*matrix_A[i][1]
    Error = 0
    Error = theta[0]*matrix_A[i][0] + theta[1]*matrix_A[i][1] - Matrix_y[i]
    Error = Error*Error
    loss = loss +Error
    iters = iters +1
print ('theta=',theta)
print ('iters=',iters)
"""
#梯度下降
while loss>Eps and iters <1000 :
    loss = 0
    for i in range(4):
        h = theta[0]*matrix_A[i][0] + theta[1]*matrix_A[i][1] 
        theta[0] = theta[0] + leraing_rate*(Matrix_y[i]-h)*matrix_A[i][0]
        theta[1] = theta[1] + leraing_rate*(Matrix_y[i]-h)*matrix_A[i][1]
    for i in range(4):
        Error = 0
        Error = theta[0]*matrix_A[i][0] + theta[1]*matrix_A[i][1] - Matrix_y[i]
        Error = Error*Error
        loss = loss +Error
    iters = iters +1
print ('theta=',theta)
print ('iters=',iters)
"""
"""
#批量梯度下降
while loss>Eps and iters <1000 :
    loss = 0
    sampleindex =  random.sample([0,1,2,3],2)
    for i in sampleindex :
        h = theta[0]*matrix_A[i][0] + theta[1]*matrix_A[i][1] 
        theta[0] = theta[0] + leraing_rate*(Matrix_y[i]-h)*matrix_A[i][0]
        theta[1] = theta[1] + leraing_rate*(Matrix_y[i]-h)*matrix_A[i][1]
    for i in sampleindex :
        Error = 0
        Error = theta[0]*matrix_A[i][0] + theta[1]*matrix_A[i][1] - Matrix_y[i]
        Error = Error*Error
        loss = loss +Error
    iters = iters +1
print ('theta=',theta)
print ('iters=',iters)
"""

求解結果：

>>> 
theta= [2.9980959216157945, 4.001522800837675]
iters= 75

但如果對輸入資料新增一些噪聲

matrix_A = [[1.05,4], [2.1,5], [5,1], [4,2]]

求解結果為：

>>> 
theta= [3.0095950685197725, 3.944718521027671]
iters= 1000

可見在有噪聲的情況下，要及時調整模型誤差精度、迭代次數上限，一期達到我們的需求。

以上圖片和公式均摘自：梯度下降法

Hulu機器學習問題與解答系列 | 二十四：隨機梯度下降法

叠代 -s nbsp xib 大量步長空間圖片 ges Hulu優秀的作者們每天和公式抗爭，只為提升你們的技能，感動的話就把文章看完，然後哭一個吧。今天的內容是【隨機梯度下降法】場景描述深度學習得以在近幾年迅速占領工業界和學術界的高地，重要原因之一是數

谷歌機器學習速成課程---降低損失 (Reducing Loss)：隨機梯度下降法

計算機器 OS 隨機梯度下降法術語表表示機器學習放心使用在梯度下降法中，批量指的是用於在單次叠代中計算梯度的樣本總數。到目前為止，我們一直假定批量是指整個數據集。就 Google 的規模而言，數據集通常包含數十億甚至數千億個樣本。此外，Google 數據集通常

梯度下降法和隨機梯度下降法和小批量梯度對比

對於梯度下降法如果訓練樣本集特別大（假設為樣本3億：表示在美國大學3億人口，因此美國的人口普查擁有這樣數量級的資料），如果想用這些資料去擬合一個線性迴歸模型，那麼需要對著3億資料進行求和，計算量太大了，這種梯度下降也被稱為批量地圖下降法，（批量：表示每次我們都要同事考慮所有訓練樣本，我們

隨機梯度下降法（Stochastic Gradient Descent）和批量梯度下降法（Batch Gradient Descent ）總結

梯度下降法常用於最小化風險函式或者損失函式，分為隨機梯度下降（Stochastic Gradient Descent）和批量梯度下降（Batch Gradient Descent ）。除此之外，還有梯度上升法（Gradient Ascent），應用於極大似

隨機梯度下降法，批量梯度下降法和小批量梯度下降法以及程式碼實現

前言梯度下降法是深度學習領域用於最優化的常見方法，根據使用的batch大小，可分為隨機梯度下降法（SGD）和批量梯度下降法（BGD）和小批量梯度下降法（MBGD），這裡簡單介紹下並且提供Python程式碼演示。如有謬誤，請聯絡指正。轉載請註明出處。聯

隨機梯度下降法

剛剛看完斯坦福大學機器學習第四講（牛頓法），也對學習過程做一次總結吧。一、誤差準則函式與隨機梯度下降：數學一點將就是，對於給定的一個點集（X，Y），找到一條曲線或者曲面，對其進行擬合之。同時稱X中的變數為特徵（Feature)，Y值為預測值。如圖：一個典型的機器學習的過程，首

隨機梯度下降法求解SVM（附matlab程式碼）

隨機梯度下降法（Stochastic Gradient Descent）求解以下的線性SVM模型： w的梯度為：傳統的梯度下降法需要把所有樣本都帶入計算，對於一個樣本數為n的d維樣本，每次迭代求一次梯度，計算複雜度為O(nd) ，當處理的資料量很大而且迭代次數比較多

梯度、梯度下降法、隨機梯度下降法

一、梯度gradient 在標量場f中的一點處存在一個向量G，該向量方向為f在該點處變化率最大的方向，其模也等於這個最大變化率的數值，則向量G稱為標量場f的梯度。在向量微積分中，標量場的梯度是一個向量場。標量場中某一點上的梯度指向標量場增長最快的方向，梯度的

學習筆記13：隨機梯度下降法（Stochastic gradient descent, SGD）

假設我們提供了這樣的資料樣本（樣本值取自於y=3*x1+4*x2）：x1x2y1419252651194229x1和x2是樣本值，y是預測目標，我們需要以一條直線來擬合上面的資料，待擬合的函式如下：我們

AdamOptimizer和隨機梯度下降法SGD的區別

Adam 這個名字來源於adaptive moment estimation，自適應矩估計，如果一個隨機變數 X 服從某個分佈，X 的一階矩是 E(X)，也就是樣本平均值，X 的二階矩就是 E(X^2)，也就是樣本平方的平均值。Adam 演算法根據損失函式對每個引數的梯度

深度學習反向傳播---隨機梯度下降法

一、誤差準則函式與隨機梯度下降：數學一點將就是，對於給定的一個點集（X，Y），找到一條曲線或者曲面，對其進行擬合之。同時稱X中的變數為特徵（Feature)，Y值為預測值。如圖：一個典型的機器學習的過程，首先給出一組輸入資料X，我們的演算法會通過一系列的過程得到一個

梯度下降法、隨機梯度下降法、批量梯度下降法及牛頓法、擬牛頓法、共軛梯度法

引言李航老師在《統計學習方法》中將機器學習的三要素總結為：模型、策略和演算法。其大致含義如下：模型：其實就是機器學習訓練的過程中所要學習的條件概率分佈或者決策函式。策略：就是使用一種什麼樣的評價，度量模型訓練過程中的學習好壞的方法，同時根據這個方

一種並行隨機梯度下降法

Martin A. Zinkevich 等人（Yahoo！Lab）合作的論文 Parallelized Stochastic Gradient Descent 中給出了一種適合於 MapRe

機器學習---用python實現最小二乘線性回歸並用隨機梯度下降法求解（Machine Learning Least Squares Linear Regression Application SGD）

lin python get stat linspace oms mach 實現 all 在《機器學習---線性回歸（Machine Learning Linear Regression）》一文中，我們主要介紹了最小二乘線性回歸模型以及簡單地介紹了梯度下降法。現在，讓我們來

對數幾率回歸法（梯度下降法，隨機梯度下降與牛頓法）與線性判別法(LDA)

3.1 初始屬性 author alt closed sta lose cnblogs 　　本文主要使用了對數幾率回歸法與線性判別法（ＬＤＡ）對數據集（西瓜３.０）進行分類。其中在對數幾率回歸法中，求解最優權重Ｗ時，分別使用梯度下降法，隨機梯度下降與牛頓法。代碼如下：

感知機2 -- 隨機梯度下降算法

-- 面向 pre 樣本 .net 距離 utf 先後統計學習聲明： 1，本篇為個人對《2012.李航.統計學習方法.pdf》的學習總結。不得用作商用，歡迎轉載，但請註明出處（即：本帖地址）。 2，因為本人在學習初始時有非

監督學習：隨機梯度下降算法（sgd）和批梯度下降算法（bgd）

這就是影響個數執行類型 http 關系 col pla 線性回歸首先要明白什麽是回歸。回歸的目的是通過幾個已知數據來預測另一個數值型數據的目標值。假設特征和結果滿足線性關系，即滿足一個計算公式h(x)，這個公式的自變量就是已知的數據x，

梯度下降法的三種形式批量梯度下降法、隨機梯度下降以及小批量梯度下降法

梯度下降法的三種形式BGD、SGD以及MBGD 梯度下降法的三種形式BGD、SGD以及MBGD 閱讀目錄 1. 批量梯度下降法BGD 2. 隨機梯度下降法SGD 3. 小批量梯度下降法MBGD 4. 總結在應用機器學習演

梯度下降法的三種形式BGD（批量梯度下降）、SGD（隨機梯度下降）以及MBGD（小批量梯度下降）

在應用機器學習演算法時，我們通常採用梯度下降法來對採用的演算法進行訓練。其實，常用的梯度下降法還具體包含有三種不同的形式，它們也各自有著不同的優缺點。　　下面我們以線性迴歸演算法來對三種梯度下降法進行比較。　　一般線性迴歸函式的假設函式為：

pytorch手動實現梯度下降法，隨機梯度法--基於logistic Regression並探索Mini batch作用

簡述基於這次凸優化的大專案作業。下面會圍繞著通過logistic Regression來做MNIST集上的手寫數字識別~ 以此來探索logistic Regression，梯度下降法，隨機梯度法，以及Mini batch的作用。核心任務是實現梯度下降法和隨機梯度法。但是其他

隨機梯度下降法

相關推薦