機器學習基石筆記-Lecture 9 Linear regression
線性回歸的任務是對於一個輸入,給出輸出的實數,保證和真實輸出相差越小越好。因為假設空間是線性的,所以最後的g會是直線或者平面。
通常的誤差衡量方法是使用平方誤差
接下來的問題是如何最小化 Ein
將Ein寫成矩陣形式,
註意到Ein是w的函數,是連續的、可微的、凸函數。
對w求偏導使之為0則可以求出最優點。
這是一個關於w的一次方程。
在
線性回歸是一個學習算法嗎?
先來看一看它的Ein
H也可以叫做投影矩陣
線性回歸嘛,預測出來的y_hat 就在 span of X上。真實的y要與y_hat最小,那麽就是要
那residual,也就是 y - y_hat 可以寫作 y通過(I-H)做投影。
如果加入了noise, y - y_hat 也可以看做是 noise 通過(I-H)的投影
然後就有(???)為什麽要求Ein的平均不太懂。。
第二條說的Eout的平均與Ein的平均的差,也就是平均的Eout與Ein的差,和VC給的保證(最壞的情形)不一樣。
只要N足夠大,noise比較小的話,learning happened.
可以使用linear regression 來做 linear classification.
首先看看兩者的誤差衡量方式,0/1 err最小化不好解。。
也就是說 regression的Ein 是大於 classification的 Ein的,那麽看看Eout
classification的Eout 被 regression 的 Ein和 模型復雜度懲罰項(對兩者而言是一樣的)給bound住。
那麽只要做好了regression的Ein,那麽classification的Eout也可以很好。所以可以用regression來做classification.
linear regression:
優點:結果易於理解,計算不復雜。
缺點:對非線性數據擬合不好。
適用:數值型和標稱型數據。
機器學習基石筆記-Lecture 9 Linear regression