機器學習經典演算法總結 一.線性迴歸
阿新 • • 發佈:2018-12-16
一.基本形式
二.損失函式
最常用的效能度量是均方誤差(Mean Square Error)
為了求解引數方便起見,設損失函式為J(θ),令
目標就是通過最小化該損失函式,從而求得引數θ,進而得到線性迴歸模型。
三.推導過程
最小二乘法(Least Square Method) 這裡的損失函式之所以使用平方形式,是因為使用了"最小二乘法"的思想。這裡的“二乘”指的是用平方來度量觀測點與估計點的距離(遠近),“最小”指的是引數值要保證各個觀測點與估計點的距離的平方和達到最小。
最小二乘法以估計值與觀測值的平方和作為損失函式,在誤差服從正態分佈的前提下,與極大似然估計的思想在本質上是相同。
接下來從概率的角度來討論下為什麼損失函式要採用上面的形式
設真實值與預測值之間的誤差為
我們把輸入y看成是隨機變數。此時,
ϵ可以代表各種誤差,比如測量誤差,或者因為其他未知的特徵x引起的誤差。假設這些誤差都是獨立同分布的,那麼由大數定律可知
將誤差代入以上公式,可以得
注意,這裡不等同於,前者θ預設為是一個固定的值,一個本身就存在的最佳引數矩陣;而後者認為θ是一個變數(統計學中Frequentist和Bayesian 的差別)。
此時,我們已知了y的概率分佈,因為ϵ是獨立同分布的,所以每個樣本的輸出y也是獨立同分布的。那麼就可以用極大似然估計(MLE)來估計θ。似然函式為
ln似然函式得
可以看出,MLE的最終結果就是要最小化
這恰好就是前面的損失函式。
四.求解引數
梯度下降(Gradient Descent)