1. 程式人生 > >處理資料極度不均衡的資料集

處理資料極度不均衡的資料集

num = 0
print("len(y_train_df):\n",len(y_train_df))
for i in range(len(y_train_df)):
    if y_train_df[i] == 1:
        num = num + 1

print("{}{}".format("y_train_df中0的個數是:",num))
顯示的結果為:
len(y_train_df):
 709903
y_train_df中0的個數是:3293

3293/709903 = 0.00464

平安極客挑戰賽的訓練集真的無解,看了一早上大概知道幾個專業名詞,SMOTE + KNN,欠取樣,過取樣。

在資料分類很不平衡的情況下,基本的精確率,均方差等都是有資料欺騙的。

要用召回率,F值來判定模型的可靠性。

然後發現了sklearn庫可以pip安裝額外的包 imbalance-learn,這個能解決問題,不需要深究的庫函式

http://contrib.scikit-learn.org/imbalanced-learn/stable/over_sampling.html

按照教程極客成功安裝,後續看我做的程度了。

希望召回率能不是0,加油!