1. 程式人生 > >分類問題中訓練資料類別不均衡怎麼解決

分類問題中訓練資料類別不均衡怎麼解決

碰到樣本資料類別不均衡怎麼辦?

如果有 10000個樣例, 做二分類,9990條資料 都屬於 正類1, 如果不處理的話 預測全部結果為 1, 準確率也為 99%,但這顯然不是想要的結果。

碰到這樣樣本很不平衡的樣例,應該怎樣做。

前期資料準備

1. 欠取樣

def down_sample(df):
    df1=df[df['label']==1] #正例
    df2=df[df['label']==0] ##負例
    df3=df2.sample(frac=0.25) ##抽負例

    return pd.concat([df1,df3],ignore_index=True)

對樣本量很大的類,抽取更少的樣本,達到樣本平衡2.

2. 過取樣

def up_sample(df):
    df1=df[df['label']==1] #正例
    df2=df[df['label']==0] ##負例
    df3=pd.concat([df1,df1,df1,df1,df1],ignore_index=True)
    return pd.concat([df2,df3],ignore_index=True) 

對樣本量偏少的資料,採用重複取樣的策略

模型中調整調整權重

很多分類模型都有設定權重的引數

 1.  xgboost
設定 : scale_pos_weight

如 做二分類,0/1, 0:1 = 1:100 可以設定scale_pos_weight=100

2. RF 設定: class_weight

可以指定, 但對於多分類問題需要注意:

  • For example, for four-class multilabel classification weights should be [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}] instead of [{1:1}, {2:5}, {3:1}, {4:1}].
  • The "balanced" mode uses the values of y to automatically adjust weights inversely proportional to class frequencies in the input data as  
    n_samples / (n_classes * np.bincount(y))

得到結果後尋找最優閾值

調整threshold的值,得到最優結果

Threshold = 0.45

for j in range(len(preds)):
    if preds[j]>=Threshold :
        preds[j]=1
  else :
    preds[j]=0 

評價指標:

使用準確度 結果可能不準確。可以嘗試 Confusion Matrix, Precision, Recall, Auc_Roc