1. 程式人生 > >過度擬合與正規化線性迴歸

過度擬合與正規化線性迴歸

過度擬合(over fitting):在擬合數據時,如果要包含每條訓練記錄資料,則很容易產生過度擬合,換句話說,過度擬合現象在特徵變數很多很多時容易產生。(如下圖2所示)                             解決過度擬合的兩種方法:
  1. 減少選取特徵變數的數量(reduce number of features)
  2. 正規化:保留所有特徵變數,但是減少數量級或者引數大小(keep all the features,but reduce magnitude/values of parameters theta(j))
正規化(regularization):用於改善或者減少過度擬合問題,在使用cost function時進行正規化。 如圖2所示
,儘管其對每一個訓練資料都擬合得很好,但是一般性很差,無法很好用於新的輸入資料,因此需要正規化。
因此,正規化的思想是: 對於存在較小值引數:graphic,在cost function中加入懲罰項,從而求解引數時,值較少的引數約等於0,得到更加簡單的函式而且不易於過度擬合,如圖1所示正規化線性迴歸(regularized linear regression): 將之前學習到的線性迴歸的cost function:
此時,使用梯度下降演算法求解引數:
使用正規方程演算法求解引數: