過度擬合與正規化線性迴歸
阿新 • • 發佈:2019-01-22
過度擬合(over fitting):在擬合數據時,如果要包含每條訓練記錄資料,則很容易產生過度擬合,換句話說,過度擬合現象在特徵變數很多很多時容易產生。(如下圖2所示)
解決過度擬合的兩種方法:
,儘管其對每一個訓練資料都擬合得很好,但是一般性很差,無法很好用於新的輸入資料,因此需要正規化。
因此,正規化的思想是: 對於存在較小值引數:,在cost function中加入懲罰項,從而求解引數時,值較少的引數約等於0,得到更加簡單的函式而且不易於過度擬合,如圖1所示。 正規化線性迴歸(regularized linear regression): 將之前學習到的線性迴歸的cost function:
此時,使用梯度下降演算法求解引數:
使用正規方程演算法求解引數:
- 減少選取特徵變數的數量(reduce number of features)
- 正規化:保留所有特徵變數,但是減少數量級或者引數大小(keep all the features,but reduce magnitude/values of parameters theta(j))
因此,正規化的思想是: 對於存在較小值引數:,在cost function中加入懲罰項,從而求解引數時,值較少的引數約等於0,得到更加簡單的函式而且不易於過度擬合,如圖1所示。 正規化線性迴歸(regularized linear regression): 將之前學習到的線性迴歸的cost function:
此時,使用梯度下降演算法求解引數:
使用正規方程演算法求解引數: