機器學習(吳恩達)筆記——高偏差高方差
阿新 • • 發佈:2019-02-20
學習曲線(learning curve)是將訓練集誤差和交叉驗證集誤差作為訓練集例項數量(m)的函式繪製的圖表
一個能有效幫助我們分析訓練模型是否出現問題的工具。
1、高偏差的學習曲線
從這個曲線我們可以看到:
當m很小的時候,Jtrain(θ)也很小,因為很容易就能擬合(甚至過擬合),但用這個訓練好的模型在驗證集上來驗證,就會出現很差的效果Jcv(θ)異常的大;隨著m的增大,Jtrain(θ)開始增大,Jcv(θ)開始減小;當m越來越大的時候,Jcv(θ)也越來越小,也就是說明模型的泛化程度越來越好;但隨著m的增大,Jtrain(θ)也迅速增大,然後超過了最優值,雖然Jcv(θ)也在一直減少,但是始終不會達到最優狀態且離最優值很遠,故而出現高偏差
2、高方差的學習曲線
當m較小時,同上面一樣;隨著m的增大,Jcv(θ)也逐漸變小,也就是說明模型的泛化程度越來越好;當m越來越大時,Jtrain(θ)的雖然持續在增長,但是幾乎出現了停滯,很靠近最優的情況;且隨著m的增長模型的泛化能力一直在增強,但同樣增長得比較緩慢,故而出現了高方差。所以,如果一個模型如果出現了高方差的話,增加訓練集的數量仍可以提高模型的效能。
3、總結
在高偏差/欠擬合的情況下,增加資料到訓練集不一定能有幫助
在高方差/過擬合的情況下,增加更多資料到訓練集可能可以提高演算法效果