1. 程式人生 > >機器學習中訓練樣本不均衡問題

機器學習中訓練樣本不均衡問題

在實際中,訓練模型用的資料並不是均衡的,在一個多分類問題中,每一類的訓練樣本並不是一樣的,反而是差距很大。比如一類10000,一類500,一類2000等。解決這個問題的做法主要有以下幾種:

欠取樣:就是把多餘的樣本去掉,保持這幾類樣本接近,在進行學習。(可能會導致過擬合)

過取樣:就是增加比較少樣本那一類的樣本數量,比如你可以收集多一些資料,或者對資料增加噪聲,如果是影象還可以旋轉,裁剪,縮放,平移等,或者利用PCA增加一些樣本,等方法

第三種:就是直接採用不均衡資料進行訓練,可以在代價函式那裡需要增加樣本權重,用來平衡這個問題,也就是類別數量少的那一類代價就高,權重就比較大。在評價模型好壞的時候也需要考慮樣本權重問題。