模型評估與選擇的方法
模型評估與選擇過程中的相關概念:
1,錯誤率(error rate):分類錯誤的樣本數的比例稱為錯誤率,
2,精度(accuracy):分類正確的樣本的比例叫做精度,
3,誤差(error):學習器的預測的輸出與樣本的真實值之間的差異稱為誤差,
4,經驗誤差(empirical error):在訓練集上的誤差,
5,泛化誤差(generalization error):在新樣本上的誤差,在模型評估選擇的時候把測試集上的測試誤差來作為泛化誤差的近似
6,過擬合(overfitting):學習器對訓練樣本的預測能力很好,但是對未知資料集的預測能力很差,這種現象叫做過擬合,即把訓練樣本的自身特點當作了所有潛在樣本都會具有的一般性質,這樣就會導致泛化能力的下降,因此我們應該選擇的模型是避免過擬合併提高模型的預測能力。
7,欠擬合(underfitting):學習器對訓練樣本的一般性質沒學好,往往由於學習能力低下造成的,
8,切分測試集與訓練集的常用方法:
1),留出法:即將資料集D劃分為兩個互斥的集合,一個作為訓練集S,另一個作為測試集T
2),交叉驗證法:首先,將資料集D劃分為k個大小相同的互斥子集,D=D1∪D2∪...∪Dk,Di∩Dj = ∅。每個子集Di都儘可能的保持資料分佈的一致性,即從D中通過分層取樣得到。然後,每次用k-1個子集的並集作為訓練集,餘下的子集作為測試集,這樣就可獲得k組訓練、測試集,從而可進行k次訓練和測試,最終返回的是這k個測試結果的均值。通常叫做k折交叉驗證(k-flod cross validation)
3),自助法:給定包含m個樣本的資料集,對它取樣產生資料集D’,每次隨機從D中挑選一個樣本,將其拷貝放入D’,然後再將該樣本放回初始資料集D中,使得該樣本在下次取樣時仍有可能被採到;這個過程重複執行m次後,我們就得到了包含m個樣本的資料集D’,這就是自助取樣的結果。