本文主要使用markdown進行編輯的。

概述

在講述梯度下降演算法之前，我們先需要了解一下導數（derivative）、偏導數（partial derivative）和方向導數（directional derivative），然後我們看看梯度下降法（Gradient Descent），瞭解為什麼在優化問題中使用梯度下降法來優化目標函式。

導數

一張關於導數和微分的圖：
這裡寫圖片描述
導數定義如下：

f^{'} (x_{0}) = lim_{Δ x \to 0} \frac{Δ y}{Δ x} = lim_{Δ x \to 0} \frac{f (x_{0} + Δ x - f (x_{0}))}{Δ x}

反映的是函式y=f(x)在某一點處沿x軸正方向的變化率。再強調一遍，是函式f(x)在x軸上某一點處沿著x軸正方向的變化率/變化趨勢。直觀地看，也就是在x軸上某一點處，如果f’(x)>0，說明f(x)的函式值在x點沿x軸正方向是趨於增加的；如果f’(x)<0，說明f(x)的函式值在x點沿x軸正方向是趨於減少的。

　這裡補充上圖中的Δy、dy等符號的意義及關係如下：
　Δx：x的變化量；
　dx：x的變化量Δx趨於0時，則記作微元dx；
　Δy：Δy=f(x0+Δx)-f(x0)，是函式的增量；
　dy：dy=f’(x0)dx，是切線的增量；
　當Δx→0時，dy與Δy都是無窮小，dy是Δy的主部，即Δy=dy+o(Δx).

導數與偏導數

偏導數的定義如下：

\frac{\partial}{\partial x_{j}} f (x_{0}, x_{1}, . . ., x_{n}) = lim_{Δ x \to 0} \frac{Δ y}{Δ x} = lim_{Δ x \to 0} \frac{f (x_{0}, . . ., x_{j} + Δ x, . . ., x_{n}) - f (x_{0}, . . ., x_{j}, . . ., x_{n})}{Δ x}

可以看到，導數與偏導數本質是一致的，都是當自變數的變化量趨於0時，函式值的變化量與自變數變化量比值的極限。直觀地說，偏導數也就是函式在某一點上沿座標軸正方向的的變化率。
　區別在於：
　導數，指的是一元函式中，函式y=f(x)在某一點處沿x軸正方向的變化率；
　偏導數，指的是多元函式中，函式 $y = f (x_{1}, x_{2}, . . ., x_{n})$ 在某一點處沿某一座標軸 $(x_{1}, x_{2}, . . ., x_{n})$ 正方向的變化率。

導數與方向導數

方向導數的定義如下：

\frac{\partial}{\partial x_{j}} f (x_{0}, x_{1}, . . ., x_{n}) = lim_{ρ \to 0} \frac{Δ y}{Δ x} = lim_{ρ \to 0} \frac{f (x_{0} + Δ x_{0}, . . ., x_{j} + Δ x_{j}, . . ., x_{n} + Δ x_{n}) - f (x_{0}, . . ., x_{j}, . . ., x_{n})}{ρ}

ρ = \sqrt{(Δ x_{0})^{2} + . . . + (Δ x_{j})^{2} + . . . + (Δ x_{n})^{2}}

梯度與梯度下降法

概述

導數

導數與偏導數

導數與方向導數

梯度與梯度下降法

通過實例詳解隨機梯度與梯度下降

對數幾率回歸法（梯度下降法，隨機梯度下降與牛頓法）與線性判別法(LDA)

Hulu機器學習問題與解答系列 | 二十四：隨機梯度下降法

【數學】梯度下降，牛頓法與擬牛頓法

影象與機器學習-1-梯度下降法與ubuntu

GBDT與xgb區別，以及梯度下降法和牛頓法的數學推導

邏輯迴歸與梯度下降法

最小二乘法與梯度下降法

機器學習與高數：梯度（Gradient）與梯度下降法（Gradient Descent）

<反向傳播(backprop)>梯度下降法gradient descent的發展歷史與各版本

梯度下降法原理與模擬分析||系列（1）

【機器學習】1 監督學習應用與梯度下降

批量梯度下降法（Batch Gradient Descent）

機器學習之梯度下降法

常見的幾種最優化方法（梯度下降法、牛頓法、擬牛頓法、共軛梯度法等）

解梯度下降法的三種形式BGD、SGD以及MBGD

（轉）梯度下降法及其Python實現

機器學習--線性回歸與梯度算法

谷歌機器學習速成課程---降低損失 (Reducing Loss)：隨機梯度下降法