16如何處理不均衡資料
類別不平衡問題也成類偏斜,實質分類任務中不同類別的訓練樣例數目差別很大的情況。
那當我們遇到類別不均衡問題的時候應該怎麼處理呢。這裡給出了集中處理手段.
1、獲取更多資料
己還能不能獲取到更多的資料. 有時候只是因為前段時期的資料多半呈現的是一種趨勢, 等到後半時期趨勢又不一樣了.
如果沒有獲取後半時期的資料, 整體的預測可能就沒有那麼準確了.
2、更換評判標準
我們會用到 準確率 accuracy, 或者誤差 cost來判斷機器學習的成果. 可是這些評判方法在不均衡資料面前,
高的準確率和低的誤差變得沒那麼重要. 所以我們得換一種方式評判. 通過 confusion matrix 來計算 precision 和 recall, 然後通過 precision 和 recall 再計算f1 分數.這種方式能成功地區分不均衡資料, 給出更好的評判分數.
3、重組資料
重新組合不均衡資料, 使之均衡. 方式一: 複製或者合成少數部分的樣本, 使之和多數部分差不多數量.
方式二: 砍掉一些多數部分, 使兩者數量差不多.
4、使用其他機器學習演算法
一般決策樹演算法不受類別不均衡問題的影響
5、修改演算法
如果你用的是 Sigmoid 的激勵函式, 它會有一個預測門檻, 一般如果輸出結果落在門檻(比如0)的這一段,預測結果為梨,
如果落在這一段, 預測結果為蘋果, 不過因為現在的梨是多數派, 我們得調整一下門檻的位置, 使得門檻偏向蘋果這邊, 只有很自信的時候, 模型才會預測這是蘋果. 讓機器學習,學習到更好的效果.