1. 程式人生 > >深度學習資料集的正確劃分

深度學習資料集的正確劃分

cs231n第二講影象分類裡提到的:

這裡寫圖片描述
當你在設計機器學習演算法的時候,決不能使用測試集來進行調優。如果你使用測試集來調優,演算法容易對測試集過擬合。從另一個角度來說,如果使用測試集來調優,實際上就是把測試集當做訓練集,由測試集訓練出來的演算法再跑測試集,自然效能看起來會很好。這其實是過於樂觀了,實際部署起來效果就會差很多。所以,最終測試的時候再使用測試集,可以很好地近似度量你所設計的分類器的泛化效能。一般我們從訓練集中取出一部分資料用來調優,我們稱之為驗證集(validation set)。在實際情況下,很少用交叉驗證,主要是因為它會耗費較多的計算資源。一般直接把訓練集按照50%-90%的比例分成訓練集和驗證集。