常用優化方法總結

本篇博文總結一些常用的優化演算法。

最常見的優化方法是 $S G D$ ，基礎的原理不詳細講了，講下其缺陷。
從泰勒公式的角度來看，梯度下降法將 $f (x)$ 展開到了一階。

θ = θ - η * ▽_{θ} J (θ)

1. 當學習率太小，到達最優點會很慢。
2. 當學習率太高，可能會跳過最優點，出現震盪的現象。
3. 可能會陷入區域性最優。
3. 如果輸入樣本的不同特徵的大小差別很大，

t h e f e a t u r e h a v e d i f f e r e n t s c a l e

。

對 $f (x)$ 進行一階泰勒公式展開：

f (x) \approx f (x_{0}) + f^{'} (x_{0}) (x - x_{0})

此時，將非線性方程

f (x) = 0

近似為線性方程：

f (x_{0}) + f^{'} (x_{0}) (x - x_{0}) = 0

若

f (x) \neq 0

，則下一次迭代解為：

x_{k + 1} = x_{k} - \frac{f (x_{k})}{f^{'} (x_{k})}

在多元函式中，

f^{'} (x_{k})

稱為雅克比矩陣。

故牛頓迭代又稱切線法。

將 $f (x)$

f (x)

按照泰勒公式展開到二階得：

f (x) = f (x_{0}) + (x - x_{0}) f^{'} (x_{0}) + \frac{1}{2} (x - x_{0})^{2} f^{″} (x_{0})

我們希望 $f (x)$ 能取得極小值，那麼必有 $f^{'} (x) = 0$ ，我們對右式中的 $x$ 求導可得：

f^{'} (x_{0}) + (x - x_{0}) f^{″} (x_{0}) = 0

x - x_{0} = - \frac{f^{'} (x_{0})}{f^{″} (x_{0})}

x_{n + 1} = x_{n} - \frac{f^{'} (x_{n})}{f^{″} (x_{n})}