1. 程式人生 > >機器學習訓練集/開發集/測試集挑選

機器學習訓練集/開發集/測試集挑選

在實際應用領域,一般將資料集分成三塊,訓練集:用來訓練演算法;開發集:用來進行特徵選擇或者調參;測試集:用來檢測演算法的表現,因此測試集應該能夠反映和包含現實的真正資料分佈,而不是假設分佈。

在實際演算法迭代過程中,我們最後希望得到的結果是演算法在測試集上表現的非常優秀;但是,最近讀吳恩達老師的筆記有時可能我們需要決定投資多少去獲取好的開發集和測試集。切記不要假定你的訓練集分佈和測試集分佈必須是一樣的。嘗試去挑選能反映你最終想要表現很好的資料作為測試樣本,而不是你遇到的任何資料。

是的!我們需要的演算法是能夠準確預測出我們真正想知道結果我測試樣本,而非遇到的任何資料;換個角度思考:通過這樣的需求篩選,我們也能夠進一步的強調我們的需求,從而更有目的性的去改善演算法效能,受益匪淺!共勉!