感知機3 -- 梯度下降與隨機梯度下降的對比

阿新 • • 發佈：2019-01-30

宣告：

1，本篇為個人對《2012.李航.統計學習方法.pdf》的學習總結，不得用作商用，歡迎轉載，但請註明出處（即：本帖地址）。

2，由於本人在學習初始時有很多數學知識都已忘記，所以為了弄懂其中的內容查閱了很多資料，所以裡面應該會有引用其他帖子的小部分內容，如果原作者看到可以私信我，我會將您的帖子的地址付到下面。

3，如果有內容錯誤或不準確歡迎大家指正。

4，如果能幫到你，那真是太好了。

時間複雜度

1，這兩個均為線性迴歸問題，於是，線性方程如下:

h_θ= θ₀ + θ₁x₁ + θ₂

x₂ + … + θ_nx_n

為了方便，上式寫成：

h(x) = θ_ix_i = θ^Tx

即：求出θ^T就求出了h(x)

2，在看完“隨機梯度下降演算法”和“感知機模型”的總結後我們知道：

為了評估h(x)函式(即：分離超平面)的好壞，我們會使用損失函式來判斷，而損失函式如下：（下面的n代表秩）

於是，我們需要求出min J(θ)來獲取一個最好的函式h(x)

3，對於梯度下降演算法：

θ_j = θ_j – α(a/aθ_j

)J(θ)

即：下一個更靠近分離超平面的函式 = 上個函式 – 學習速率() * 導數(梯度方向)

為了算出上式，我們先算(a/aθ_j)J(θ)

(a/aθ_j)J(θ) = (a/aθ_j)(h_θ(x)- y)²

∵ 對於f(x) = x²，x = g(x) 的導數為 f`(x)g`(x)

∴ 上式繼續等於：

= 2 * (1/2)(h_θ(x)- y)(a/aθ_j)(h_θ(x)- y)

= (h_θ(x)- y)(a/aθ_j)(θ_ix_i

- y)

= (h_θ(x)- y)x_j

所以：

θ_j =θ_j – α(h_θ(x)- y)x_j

於是當樣本數量為m時：

可見，對於n維的向量，其標準梯度下降演算法時間複雜度為 O(mn)

4，隨機梯度下降演算法

還是上面的推導過程，然後在利用之前的總結我們知道：

對於隨機梯度下降演算法，每次僅處理一個數據，演算法如下所示：

Loop {

for i = 1 to m {

θ_j =θ_j – α(h_θ(x⁽ⁱ⁾)- y⁽ⁱ⁾)x_j⁽ⁱ⁾

}

即：每讀取一次樣本，就迭代對θ^T進行更新，然後判斷其是否收斂，若未收斂，則繼續讀取樣本進行處理，若樣本讀取完畢，則從頭再次迴圈讀取樣本進行處理。

所以，其時間複雜度為O(n).

其他對比

1，由上面的時間複雜度可知：隨機梯度下降演算法趨近最小值的速度更快，不過，它有可能永遠收斂不到最小值，即：在最小值周圍震盪(當然在實踐中大部分無此問題，效果還不錯 ---- 將已知點代入感知機模型後，總會有一些點的值 > 0，一些 < 0 )

2，在標準梯度下降演算法中，權值更新的每一步需對多個樣例求和，需進行更多的計算，而由於其使用真正的梯度，所以其權值的更新進場使用比隨機梯度下降演算法更大的步長。

在隨機梯度下降演算法中，若標準誤差曲面中有多個區域性最小值，那它有可能會陷入這些區域性最小值中。

總結

標準(批量)梯度下降演算法：最小化所有訓練樣本的損失函式，使得最終求得的解為全域性最優解。

即：求解的引數為使風險函式最小。

隨機梯度下降演算法：最小化每條樣本的損失函式，雖然不是每次迭代的方向均向著全域性最優方向，但大的整體方向是全域性最優解的方向，最終結果往往在全域性最優解附近（所以結果可能有多個 ---- Ps：線性支援向量機可解決上例有多個解的問題）。

感知機3 -- 梯度下降與隨機梯度下降的對比

時間複雜度

其他對比

總結

感知機3 -- 梯度下降與隨機梯度下降的對比

梯度下降與隨機梯度下降概念詳解及推導過程

梯度下降之隨機梯度下降 -minibatch 與並行化方法

梯度上升演算法與隨機梯度上升演算法的實現

梯度下降、隨機梯度下降、方差減小的梯度下降(matlab實現)

【重磅】批量梯度下降、隨機梯度下降、小批量梯度下降

梯度下降、隨機梯度下降、批量梯度下降

三種梯度下降的方式：批量梯度下降、小批量梯度下降、隨機梯度下降

梯度下降，隨機梯度下降，批量梯度下降，mini-batch 梯度下降

累積梯度下降，隨機梯度下降，基於mini-batch 的隨機梯度下降

3 概率分佈與隨機函式

深度學習筆記二：多層感知機（MLP）與神經網路結構

感知機模型原始問題與對偶問題對比

Neuroph感知機實現記憶邏輯與

基於結構化感知機的詞性標註與命名實體識別框架

感知機2 -- 隨機梯度下降算法

對數幾率回歸法（梯度下降法，隨機梯度下降與牛頓法）與線性判別法(LDA)

通過實例詳解隨機梯度與梯度下降

Hulu機器學習問題與解答系列 | 二十四：隨機梯度下降法

深度學習情感分析（隨機梯度下降代碼實現）

感知機3 -- 梯度下降與隨機梯度下降的對比

時間複雜度

其他對比

總結

相關推薦