線性迴歸最小二乘梯度下降隨機梯度下降

阿新 • • 發佈：2019-01-16

一下午只弄清楚這一個問題了，記錄一下，有點亂：

先從線性迴歸問題說起，為了對樣本點進行擬合求得擬合函式來進行對新的輸入做出預測，便設計了一個衡量擬合函式好壞的標準，其實標準有很多：可以是SUM{|f(Xi) - Yi|} / N; 也可以是SUM{|f(Xi) - Yi|^2} / N；

因為對於不同的擬合函式，樣本點是相同的，那N就是一樣的，所以可以直接比較：

1.SUM{|f(Xi) - Yi|}

或者

2.SUM{|f(Xi) - Yi|^2}

那麼再說說為什麼都比較喜歡用SUM{|f(Xi) - Yi|^2}呢？為什麼都喜歡用平方呢？我看到過兩種殊途同歸的解釋，大概是這樣子的：

一、根據最大似然估計來解釋：

最大似然估計的思想是尋找一種分佈，使得當前樣本出現的概率最大！

這個樣本出現的概率可以表示成各個樣本出現的概率的乘積，當然可以取個對數，變成logP的加和。

接著我們做一個假設：

假設當前樣本服從的那個真實的分佈函式為F（X），在點Xi處取樣得到的樣本服從以F(Xi)為均值的正態分佈（因為有噪聲，否則就應該是準確的F(Xi)而不會有偏差了），我們可以先不考慮珍這個正態分佈的方差，但假設各個點取樣服從的正態分佈的方差是相同的。

先不爭論這樣的假設是否合理，具體我也不知道合理不合理，只是感覺還算合理！

在這樣的假設前提下，樣本點<Xi, Yi>出現的概率正比於Exp(-（Yi-F(Xi)）^2)，這個就是根據正態分佈的密度函式而來的，具體不要糾結於準確的形式，主要是看那個差的平方。

用你給出現擬合函式f（x）替代這裡的真正的分佈函式F（X），依照最大似然估計的思想就是讓Exp(-SUM{|f(Xi) - Yi|^2})取得最大值。這樣就可以解釋為什麼要用最小二乘的形式來作為衡量擬合函式的標準的原因了吧！

二、根據貝葉斯理論

給出一個擬合函式，評價好壞的標準是根據樣本的後驗概率來裁決；這個感覺跟最大似然估計很像啊。關於樣本分佈做出的假設與前面是一樣的，那後驗概率的公式是什麼呢？是這樣的：P(h|D) ∝ P(h) * P(D|h)

這裡的h指的是擬合函式，D指的是樣本點，那正比式子的右邊是擬合函式的先驗概率乘以該擬合函式得出該樣本點的概率，左邊就是對應的後驗概率了，就是根據樣本點得出目標函式的概率。而各個擬合函式的先驗概率是P(h)是相同的，誰也不比誰更好!所以只用看P（D|h）就可以了，而根據前面做出的假設，這個條件概率也是正比於Exp(-（Yi-F(Xi)）^2)的。考慮全部的樣本點，整體的後驗概率是各個樣本點的概率的乘積，就又回到了Exp(-SUM{|f(Xi) - Yi|^2})這個式子上去了~~~~

回來說這個最小二乘的問題怎麼解呢？如何求得它的最小值呢？可以直接對各個引數求導數，令導數等於0，聯立解方程組！

這就是標準最小二乘法的解法，會得到目標函式的一個解析解，關於這個解析解是怎麼解出來的，我目前還不知道，只是看到結果裡需要對矩陣求逆。標準解法的效率比較低，因為涉及到矩陣運算，計算量太大，所以轉而用梯度下降法來解，在介紹梯度下降法之前，先說明，因為最小二乘問題是一個求凸函式極值的問題，它只有一個最優解，沒有所謂的區域性最優，所以在這個問題上完全可以大膽放心的用梯度下降來解，一開始這裡我一直沒有想明白，因為網上很多介紹梯度下降的總是說不保證全域性最優，他們說的沒錯，但在這個問題上不會出現。

關於梯度下降法、隨機梯度下降法、批量梯度下降法：

一、梯度gradient

在標量場f中的一點處存在一個向量G，該向量方向為f在該點處變化率最大的方向，其模也等於這個最大變化率的數值，則向量G稱為標量場f的梯度。

在向量微積分中，標量場的梯度是一個向量場。

標量場中某一點上的梯度指向標量場增長最快的方向，梯度的長度是這個最大的變化率。

更嚴格的說，從歐氏空間Rⁿ到R的函式的梯度是在Rⁿ某一點最佳的線性近似。在這個意義上，梯度是雅戈比矩陣的一個特殊情況。

在單變數的實值函式的情況，梯度只是導數，或者，對於一個線性函式，也就是線的斜率。

梯度一詞有時用於斜度，也就是一個曲面沿著給定方向的傾斜程度。

一個標量函式 $\varphi$ 的梯度記為： $\nabla \varphi$ 或 $\rm grad \varphi$ ，其中 $\nabla$ （nabla）表示向量微分運算元。