吳恩達機器學習：方差與偏差

阿新 • • 發佈：2019-01-20

在前幾周的課程裡，我們已經學習了 監督學習 中的 線性迴歸、邏輯迴歸、神經網路（點選進入筆記）。回顧課程作業，所有的樣本資料都被用來訓練模型。驗證模型時，也只是將模型的資料結果與正確結果作對比來看正確率。這樣的訓練方法是否正確？正確率是否能作為評價模型的標準？這周就將學習如何評價我們的模型，以及如何採取正確有效的改進策略。

點選 課程視訊 你就能不間斷地學習 Ng 的課程，關於課程作業的 Python 程式碼已經放到了 Github 上，點選 課程程式碼 就能去 Github 檢視（無法訪問 Github 的話可以點選 Coding 檢視），程式碼中的錯誤和改進歡迎大家指出。

以下是 Ng 機器學習課程第五週的筆記。

改進策略

對於 預測函式，我們通常會使用以下幾種手段來改進：

採集更多的樣本資料

減少特徵數量，去除非主要的特徵

引入更多的相關特徵

採用多項式特徵

減小正則化引數 $λ$

增加正則化引數 $λ$

Andrew Ng 告訴大家，他見過很多開發者盲目地使用改進策略，為此耗費了大量的時間和精力，卻沒什麼效果。所以我們需要一些依據來幫助我們選擇合適的策略。

資料集劃分

為了評價模型，我們通常將資料集分為三個部分， $60 %$ 的 訓練集、 $20 %$ 的 交叉驗證集 和 $20 %$ 的 測試集，並使用誤差作為模型使用在這些集合上的評價，誤差的形式與之前的 代價函式

相同（線性迴歸誤差函式如下）。

J_{s} (θ) = \frac{1}{2 m_{s}} \sum_{i = 1}^{m_{s}} (h_{θ} (x_{s}^{(i)}) - y_{s}^{(i)})^{2} (s = t r a i n, c v, t e s t)

在被劃分的集合中，我們使用 訓練集 來訓練引數 $θ$ ，使用 交叉驗證集 來選擇模型（比如該使用多少次的多項式特徵），使用 測試集 來評估模型的預測能力。

方差與偏差

當我們的模型表現不佳時，通常是出現兩種問題，一種是高偏差問題，另一種是高方差問題。識別它們有助於選擇正確的優化方式，所以我們先來看下偏差與方差的意義。
- 偏差

: 描述模型輸出結果的期望與樣本真實結果的差距。
- 方差: 描述模型對於給定值的輸出穩定性。
這裡寫圖片描述

就像打靶一樣，偏差描述了我們的射擊總體是否偏離了我們的目標，而方差描述了射擊準不準。接下來讓我們通過各種情況下 訓練集 和 交叉驗證集 的誤差曲線來直觀地理解高偏差與高方差的意義。

對於 多項式迴歸，當次數選取較低時，我們的訓練集誤差和交叉驗證集誤差都會很大；當次數選擇剛好時，訓練集誤差和交叉驗證集誤差都很小；當次數過大時會產生過擬合，雖然訓練集誤差很小，但交叉驗證集誤差會很大（關係圖如下）。
這裡寫圖片描述
所以我們可以計算 $J_{t r a i n} (θ)$ 和 $J_{c v} (θ)$ ，如果他們同時很大的話，就是遇到了高偏差問題，而 $J_{c v} (θ)$ 比 $J_{t r a i n} (θ)$ 大很多的話，則是遇到了高方差問題。

對於 正則化 引數，使用同樣的分析方法，當引數比較小時容易產生過擬合現象，也就是高方差問題。而引數比較大時容易產生欠擬合現象，也就是高偏差問題。
這裡寫圖片描述

學習曲線

無論你是要檢查你的學習演算法是否正常工作或是要改進演算法的表現，學習曲線 都是一個十分直觀有效的工具。學習曲線 的橫軸是樣本數，縱軸為 訓練集 和 交叉驗證集 的誤差。所以在一開始，由於樣本數很少， $J_{t r a i n} (θ)$ 幾乎沒有，而 $J_{c v} (θ)$ 則非常大。隨著樣本數的增加， $J_{t r a i n} (θ)$ 不斷增大，而 $J_{c v} (θ)$ 因為訓練資料增加而擬合得更好因此下降。所以 學習曲線 看上去如下圖：
這裡寫圖片描述
在高偏差的情形下， $J_{t r a i n} (θ)$ 與 $J_{c v} (θ)$ 已經十分接近，但是誤差很大。這時候一味地增加樣本數並不能給演算法的效能帶來提升。

在高方差的情形下， $J_{t r a i n} (θ)$ 的誤差較小， $J_{c v} (θ)$ 比較大，這時蒐集更多的樣本很可能帶來幫助。
這裡寫圖片描述

總結

有了以上的分析手段，就能夠得出在何種場景下使用我們的改進策略：

[高方差] 採集更多的樣本資料

[高方差] 減少特徵數量，去除非主要的特徵

[高偏差] 引入更多的相關特徵

[高偏差] 採用多項式特徵

[高偏差] 減小正則化引數 $λ$

[高方差] 增加正則化引數 $λ$

So~，第五週的內容就是這些了，謝謝大家耐心閱讀。

吳恩達機器學習：方差與偏差

改進策略

資料集劃分

方差與偏差

學習曲線

總結

吳恩達機器學習：方差與偏差

吳恩達機器學習：異常檢測與協同過濾

吳恩達機器學習：支援向量機

吳恩達機器學習：線性迴歸

吳恩達機器學習中協方差矩陣的向量表示推導

吳恩達-機器學習(6)-評估學習演算法、偏差與方差、構架垃圾郵件分類器、處理傾斜資料

斯坦福大學(吳恩達) 機器學習課後習題詳解第六週程式設計題正則化線性迴歸以及方差與偏差

吳恩達機器學習筆記 —— 19 應用舉例：照片OCR（光學字符識別）

演算法工程師修仙之路：吳恩達機器學習（九）

演算法工程師修仙之路：吳恩達機器學習（八）

演算法工程師修仙之路：吳恩達機器學習（七）

演算法工程師修仙之路：吳恩達機器學習（六）

演算法工程師修仙之路：吳恩達機器學習（五）

演算法工程師修仙之路：吳恩達機器學習（四）

演算法工程師修仙之路：吳恩達機器學習作業（一）

演算法工程師修仙之路：吳恩達機器學習（三）

演算法工程師修仙之路：吳恩達機器學習（二）

演算法工程師修仙之路：吳恩達機器學習（一）

吳恩達機器學習第七次作業Part1： K-means聚類演算法

吳恩達機器學習第八次作業：異常檢測Anomaly Detection

吳恩達機器學習：方差與偏差

改進策略

資料集劃分

方差與偏差

學習曲線

總結

相關推薦