機器學習中常見的優化方法：梯度下降法、牛頓法擬牛頓法、共軛梯度法、拉格朗日乘數法

阿新 • • 發佈：2019-01-13

機器學習中常見的優化方法：

梯度下降法、牛頓法擬牛頓法、共軛梯度法、拉格朗日乘數法

主要內容
- 梯度下降法
- 牛頓法擬牛頓法
- 共軛梯度法
- 拉格朗日乘數法

許多機器學習演算法，往往建立目標函式（損失函式+正則項），通過優化方法進行優化，根據訓練樣本訓練出滿足要求的模型。常見的優化方法有梯度下降法、牛頓法擬牛頓法、共軛梯度法、拉格朗日乘數法等等。

一、梯度下降法
梯度下降法（Gradient Descent）是一種常用的一階優化方法，是求解無約束優化問題的經典方法。通過反覆迭代，沿目標函式梯度的反方向逼近目標函式的最優解（當目標函式為凸函式時，才能得到全域性最優）。目標函式極值點附近，收斂速度變慢。
梯度下降方法包括批量梯度下降法（Batch Gradient Descent，BGD）以及隨機梯度下降法（Stochastic Gradient Descent，SGD）。
假設目標函式為均方誤差損失函式：

J (θ) = \frac{1}{2 N} \sum_{i = 1}^{N} {(y_{i} - \hat{y_{i}})}^{2}

其中，

N

表示訓練樣本個數，

θ

為模型引數集合，即需要梯度下降求解的引數。
假設需要擬合的函式模型為：

y_{i} = f (x_{i}) = \sum_{j = 1}^{D} θ_{j} x_{i j}

即線性迴歸模型，其中

D

表示樣本特徵的個數。
1、批量梯度下降法
批量梯度下降法，每一次迭代，需要用到所有訓練樣本。
目標函式

J

關於引數

θ_{j}

求偏導：

\frac{\partial J}{\partial θ_{j}} = \frac{\partial J}{\partial \hat{y_{i}}} \frac{\partial \hat{y_{i}}}{\partial θ_{j}} = - \sum_{i = 1}^{N} (y_{i} - \hat{y_{i}}) x_{i j}

根據所有訓練樣本，更新引數

θ_{j}

取值（梯度的負方向）：

θ_{j}^{*} = θ_{j} - \frac{\partial J}{\partial θ_{j}}

由於批量梯度下降法，每一次迭代需要用到所有訓練樣本，因此如果訓練樣本數量很大，則迭代速度變得非常緩慢。但是，由於最小化所有訓練樣本的目標函式，因此最終求解的是全域性最優解。
2、隨機梯度下降法
隨機梯度下降法，每一次迭代，僅僅需要一個訓練樣本。
目標函式

J

可以寫成：

J (θ) = \frac{1}{2 N} \sum_{i = 1}^{N} {(y_{i} - \hat{y_{i}})}^{2} = \frac{1}{N} \sum_{i = 1}^{N} c o s t (θ, (x_{i}, y_{i}))

其中，

c o s t (θ, (x_{i}, y_{i})) = \frac{1}{2} {(y_{i} - \hat{y_{i}})}^{2}

機器學習中常見的優化方法：梯度下降法、牛頓法擬牛頓法、共軛梯度法、拉格朗日乘數法

機器學習中常見的優化方法：

梯度下降法、牛頓法擬牛頓法、共軛梯度法、拉格朗日乘數法

機器學習中常見的優化方法：梯度下降法、牛頓法擬牛頓法、共軛梯度法、拉格朗日乘數法

機器學習中常見優化方法匯總

機器學習之拉格朗日乘數法

最優化方法：拉格朗日乘數法

SVM中的拉格朗日乘數法和KKT條件的深入解析

深度學習之（十一）Deep learning中的優化方法：隨機梯度下降、受限的BFGS、共軛梯度法

機器學習中常見的幾種優化方法

機器學習中常見的優化算法

盤點機器學習中常見的損失函式和優化演算法

機器學習中的矩陣方法(附錄A）：病態矩陣與條件數

機器學習中常見的幾種歸一化方法以及原因

機器學習中的優化演算法（附程式碼）

機器學習中常見問題彙總（一）

深度學習中的優化方法總結

機器學習 - 正則化方法：L1和L2 regularization、資料集擴增、dropout

機器學習中常見的知識點

機器學習（十二）——機器學習中的矩陣方法（2）特徵值和奇異值

機器學習中常見的問題整理（二）

機器學習中常見的最優化演算法

機器學習（十三）——機器學習中的矩陣方法（3）病態矩陣、協同過濾的ALS演算法（1）