29. 將訓練錯誤率用圖形繪製出來翻譯自吳恩達新書-Machine Learning Yearning

阿新 • • 發佈：2018-12-13

你的開發/測試錯誤率應該會隨著訓練樣本數量的增加而減少。但是訓練錯誤率通常會隨著樣本數量的增加而增加。假設你的訓練樣本集中有兩個樣本：一張貓咪圖片和一張非貓咪圖片。這時演算法很容易就會記住這兩個樣本，從而得到0%的訓練錯誤率。即使樣本集中一個甚至兩個都標記錯誤了，演算法也很容易就能記住它們的標籤。

現在假設你的訓練樣本集中有100個樣本。可能還有些樣本標記錯誤了，或者非常模糊，連人都分不清圖片上是不是有貓。此時或許模型還是能記住每個樣本對應的標籤，但是此時很難到達100%的準確率了。樣本數量從2個上升到100個，你就會發現訓練準確率在下降了。

最後，假如你的訓練樣本集中有10,000個樣本。這時，演算法就很難擬合這10,000個樣本了，如果樣本集合中，還有些是模稜兩可的或標記錯誤的，那就更難擬合了。因此的演算法會在這個訓練樣本集上表現的更差一些。

讓我們把訓練樣本集也加到之前的圖形中：包含訓練錯誤率的影象你可以看出隨著訓練樣本的增加，藍色曲線代表的訓練錯誤率一直在增加。而且，可以看出，演算法通常在訓練樣本集比在開發樣本集上的表現更好一些：因此紅色曲線代表的開發錯誤率始終在藍色曲線代表的訓練錯誤率上方。

下面一章我們將詳細解釋這個圖形。

29. 將訓練錯誤率用圖形繪製出來 翻譯自 吳恩達新書-Machine Learning Yearning