機器學習筆記05：正則化(Regularization)、過擬合(Overfitting)

說明：文章中的所有圖片均屬於Stanford機器學習課程

（一）過擬合問題(The Problem of Overfitting)

不管是在線性迴歸還是在邏輯迴歸中，我們都會遇到過擬合的問題。先從例子來看看什麼是過擬合。

i.線性迴歸中的過擬合

還是以房價預測為例，來看幾張張圖片：

1.欠擬合（Underfitting）

上圖中，我們用一條直線 hθ(x)=θ0+θ1x 來擬合訓練集中資料，但是明顯何以看出的是，房價不會隨面積成比例地增長，這種情況，稱之為欠擬合。

2.過擬合（Overfitting）

如上圖所示，我們用一條高次的曲線 hθ(x)=θ0+θ1x+

θ2x2+θ3x3+θ4x4 來擬合訓練集中的資料，因為引數過多，對訓練集的匹配度太高、太準確，以至於在後面的預測過程中可能會導致預測值非常偏離合適的值，預測非常不準確，這就是過擬合。

3.合適的擬合（Properfitting）

如上圖，如果選用一條合適的曲線，比如說拋物線 hθ(x)=θ0+θ1x+θ2x2 來擬合上面的訓練集就非常的合適。這就是一個比較恰當的假設函式(hypothesis function)。

所以，總結一下，一般在實際應用中不會遇到欠擬合的情況。而過擬合卻會經常出現。一盤情況下，過擬合(Overfitting)就是：如果我們使用了太多的特徵(features)

來訓練一個假設函式，就會使其對訓練集的匹配度非常高（誤差幾乎為零：J(θ)=12m∑mi=1(θTx(i)−y(i))2），但是不能推廣到其他未知資料上，也就是對於訓練集之外的輸入，不能做出正確的預測。

ii.邏輯迴歸中的過擬合

再來看看邏輯迴歸中的過擬合問題，以腫瘤預測為例。

1.欠擬合（Underfitting）

上圖中是在邏輯迴歸的樣本中，用一條直線 z=θ0+θ1x+θ2x 來擬合訓練集，明顯效果不夠理想。這種情況是欠擬合。

2.過擬合（Overfitting）

而這張圖，用了一個高次假設函式來擬合，使得每個樣本都嚴格地分局於決策邊界(decision boundary)

的兩側，這種情況叫做過擬合。

3.合適的擬合（Properfitting）

而上面這個二次假設函式則比較合適的擬合了訓練集中的資料。

iii.處理過擬合(Addressing overfitting)

面對過擬合問題，我們可以像在線性迴歸中 Debug 誤差函式(hypothesis function)那樣來畫圖糾錯。以房價預測為例，假設有樣本選取了太多的特徵：

features	representation
x1	size of house
x2	no. of bedrooms
x3	no. of floors
x4	age of house
x5	average income in neighborhood
x6	kitchen size
…	…
x100	traffic situation

然後我們訓練出來了一個假設函式 hθ(x) 假若發現我們訓練得到的假設函式對於新的輸入，其預測非常的不好。我們可以將其影象畫出來，如果像下圖中那樣過於匹配訓練集中的資料，可能就是過擬合了。其原因大多是因選取了太多的特徵(features)。

通常，有兩種主要的辦法來處理過擬合為題：

1.減少特徵的數量
減少特徵數量又包括 人工手動減少特徵數量 和 使用模型選擇演算法，後者會在後面的文章中講到。

2.正則化
正則化(Regularization)則不會減少特徵的數量，因為我們可能真的需要很多特徵，但是此方法會使某個特徵 θj 的值減小，而且當特徵數量很多時，正則化也能工作得很好。後面會具體闡述。

（二）誤差函式(Cost Function)

現在我們就來講一講正則化(Regularization)。首先，看一下之前的兩張圖片：

上面的左圖是一個恰當的擬合，其假設函式是一個二次函式(quadratic function)；而右圖是過擬合的情況，其假設函式是一個四次函式(quartic function)。那怎麼能夠在不刪除特徵（不減少特徵）的情況下，處理過擬合情況呢。方法如下：

假設我們的假設函式為 hθ(x)=θ0+θ1x+θ2x2+θ3x3+θ4x4 。與左圖相比，因為三次項和四次項導致了過擬合的現象，所以們可以懲罰三次項和四次項，具體方法是在誤差函式中加入懲罰項：

J(θ)=12m[∑i=1m(hθ(x(i))−y(i))2+1000θ23+1000θ24] 其中1000是我任意寫的一個比較大的數字。在加入懲罰項之後，梯度下降就變成了： θj=θj−α∂∂θjJ(θ)=θj−α1m[∑i=1m(hθ(x(i))−y(i))x(i)j+∂∂

機器學習筆記05：正則化(Regularization)、過擬合(Overfitting)

（一）過擬合問題(The Problem of Overfitting)

i.線性迴歸中的過擬合

ii.邏輯迴歸中的過擬合

iii.處理過擬合(Addressing overfitting)

（二）誤差函式(Cost Function)

機器學習筆記05：正則化(Regularization)、過擬合(Overfitting)

吳恩達機器學習（五）正則化（解決過擬合問題）

吳恩達深度學習筆記(31)-為什麼正則化可以防止過擬合

機器學習筆記4：正則化（Regularization）

[知乎]機器學習中使用正則化來防止過擬合是什麼原理？

機器學習（五）--------正則化(Regularization)

正則化方法/防止過擬合提高泛化能力的方法：L1和L2 regularization、資料集擴增、dropout

為什麼正則化可以減小過擬合？(收藏)

為什麼正則化能夠降低過擬合

Coursera | Andrew Ng (02-week-1-1.5)—為什麼正則化可以減少過擬合？

python學習筆記9：正則表達式

CS229 Machine Learning學習筆記:Note 5(正則化與模型選擇)

吳恩達機器學習 - 邏輯迴歸的正則化吳恩達機器學習 - 邏輯迴歸的正則化

吳恩達深度學習筆記(32)-Dropout正則化Dropout Regularization

coursera-斯坦福-機器學習-吳恩達-正則化

Coursera NG 機器學習第五週正則化 bias Vs variance Python實現

Python 學習筆記之：正則表示式

Python學習筆記26：正則表示式

python爬蟲學習筆記6：正則表示式及re庫

機器學習筆記04：邏輯迴歸(Logistic regression)、分類(Classification)

機器學習筆記05：正則化(Regularization)、過擬合(Overfitting)

（一）過擬合問題(The Problem of Overfitting)

i.線性迴歸中的過擬合

ii.邏輯迴歸中的過擬合

iii.處理過擬合(Addressing overfitting)

（二）誤差函式(Cost Function)

相關推薦