分類問題中訓練資料類別不均衡怎麼解決

阿新 • • 發佈：2018-12-10

碰到樣本資料類別不均衡怎麼辦？

如果有 10000個樣例，做二分類，9990條資料都屬於正類1，如果不處理的話預測全部結果為 1，準確率也為 99%，但這顯然不是想要的結果。

碰到這樣樣本很不平衡的樣例，應該怎樣做。

前期資料準備

1. 欠取樣

def down_sample(df):
    df1=df[df['label']==1] #正例
    df2=df[df['label']==0] ##負例
    df3=df2.sample(frac=0.25) ##抽負例

    return pd.concat([df1,df3],ignore_index=True)


對樣本量很大的類，抽取更少的樣本，達到樣本平衡2.

2. 過取樣

def up_sample(df):
    df1=df[df['label']==1] #正例
    df2=df[df['label']==0] ##負例
    df3=pd.concat([df1,df1,df1,df1,df1],ignore_index=True)
    return pd.concat([df2,df3],ignore_index=True)

對樣本量偏少的資料，採用重複取樣的策略

模型中調整調整權重

很多分類模型都有設定權重的引數

1. `xgboost 設定 : scale_pos_weight`

如做二分類，0/1， 0：1 = 1：100 可以設定scale_pos_weight=100

2. RF 設定： class_weight

可以指定, 但對於多分類問題需要注意：

For example, for four-class multilabel classification weights should be [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}] instead of [{1:1}, {2:5}, {3:1}, {4:1}].
The "balanced" mode uses the values of y to automatically adjust weights inversely proportional to class frequencies in the input data as

n_samples / (n_classes * np.bincount(y))

得到結果後尋找最優閾值

調整threshold的值，得到最優結果

Threshold = 0.45

for j in range(len(preds)):
    if preds[j]>=Threshold :
        preds[j]=1
　　else :
　　　　preds[j]=0

評價指標：

使用準確度結果可能不準確。可以嘗試 Confusion Matrix, Precision, Recall, Auc_Roc

分類問題中訓練資料類別不均衡怎麼解決

碰到樣本資料類別不均衡怎麼辦？如果有 10000個樣例，做二分類，9990條資料都屬於正類1，如果不處理的話預測全部結果為 1，準確率也為 99%，但這顯然不是想要的結果。碰到這樣樣本很不平衡的樣例，應該怎樣做。前期資料準備 1. 欠取樣 def down_sa

分類任務中資料類別不平衡問題的幾種解決方案

類別不平衡（class-imbalance），是指分類任務中不同類別的訓練樣例數目差別很大的情況（例如，訓練集正類樣例10個，反類樣例90個），本文假設正類樣例較少，反類樣例較多。現有解決方案大體分為三類，如下文所示。欠取樣（undersampling）欠取樣方法，即去除一

分類中樣本資料不平衡問題的解決方法

資料探勘的重點在資料，當資料不平衡的時候怎麼辦呢？轉自：http://blog.csdn.net/dream2009gd/article/details/35569343 問題：研究表明，在某些應用下，1∶35的比例就會使某些分類

分類方法中樣本類別不均衡問題

一、前言大部分的分類學習方法都存在一個基本的假設，訓練集中不同類別的訓練樣本數目差不多。如果不同類別的樣本數目差距很大，比如正類樣本有98個，而負類樣本只有2個，這種情況下學習出來的分類器只要一直返回正類的預測結果，那很輕易的就能達到百分之九十八的正確率，但實際上這樣的模

如何解決機器學習深度學習訓練集樣本不均衡的問題！

解決樣本不均衡的問題很多，主流的幾個如下： 1.樣本的過取樣和欠取樣。 2..使用多個分類器進行分類。 3.將二分類問題轉換成其他問題。 4.改變正負類別樣本在模型中的權重。一、樣本的過取樣和欠取樣。 1.過取樣：將稀有類別的樣本進行復制，通過增加此稀有

機器不學習：如何處理資料中的「類別不平衡」？

轉自：機器學習中常常會遇到資料的類別不平衡（class imbalance），也叫資料偏斜（class skew）。以常見的二分類問題為例，我們希望預測病人是否得了某種罕見疾病。但在歷史資料中，陽性的比例可能很低（如百分之0.1）。在這種情況下，學習出好的分類器是

[機器學習] 機器學習中訓練資料不平衡問題處理方案彙總

在很多機器學習任務中，訓練集中可能會存在某個或某些類別下的樣本數遠大於另一些類別下的樣本數目。即類別不平衡，為了使得學習達到更好的效果，因此需要解決該類別不平衡問題。原文標題：8 Tactics to Combat Imbalanced Classes in Your Mac

IE8中select控制元件中的option顯示不全解決方案

select控制元件，若option的內容過長，則IE8中顯示不全，導致其內容無法顯示出來。目前測試IE9、IE11 select控制元件都沒有問題。其中select，可以只針對個別的select，只要替換相應的class即可。解決方案：

樣本不均衡解決辦法

正負樣本不均衡，正負是指的二分類麼？正負樣本不均衡時，常用方法： 1.抽樣過抽樣：將樣本量少的一類sample補齊欠抽樣：將樣本量多的一類sample壓縮組合抽樣：約定一個數量級N,同時進行過取

關於在深度學習中訓練資料集的batch的經驗總結

由於深度學習的網格很大，用來訓練的資料集也很大。因此不可能一下子將所有資料集都輸入到網路中，便引入了batch_size的概念，下面總結自己兩種常用的呼叫batch的方法 1、使用TensorFlow， tf.train.batch（）。 2、 offset = (offset

神經網路中訓練資料集、驗證資料集和測試資料集的區別

whats the difference between train, validation and test set, in neural networks? Answer: The training and validation sets are used during t

Mysql查詢的資料和顯示的資料時區不一致解決方案

前言：在設定mysql時區生效後，查詢的資料顯示的時區是正確的，但是navicat中顯示的資料有差別一、檢視MySQL當前時區、如果不是北京時間-東八區、要重新設定下或者修改Mysql的配置檔案、新增一條北京時區的配置 show variables like "%time_zone%"; se

Android Studio 在res中新建資料夾不顯示

工作需要，要學習Android。於是就拿了本電子書進行學習。 1.問題描述根據書上的例子在 res資料夾下建 layout_large檔案，居然不顯示但是在當前目錄下確實建立了。 2.問題思考難道是沒有重新整理？使用File->Sync With Fi

如何遍歷資料庫中的資料(在不知道資料庫名和表名的情況下)

玩轉資料庫的元資訊操作，主要是兩個類: * 1) DatabaseMetaData類: 包含驅動資訊、資料庫名、表名(檢視、儲存過程等) * 通過con.getMetaData()可獲得一個DatabaseMetaData類物件 * 2) ResultS

IDEA webapp資料夾不識別解決方案

問題：新建的maven專案，webapp資料夾也是在建立完專案後手動新增的，出現了webapp資料夾不能被識別的情況，如下圖：解決方法：只需要配置一下，將webapp資料夾關聯上就可以了

獲取requestheader中的資料，用來解決多裝置登入驗證問題

引言：接上一篇文章，對@RequestMapping進行地址對映講解之後，該篇主要講解request 資料到handler method 引數資料的繫結所用到的註解和什麼情形下使用；簡介： handler method 引數繫結常用的註解,我們根據他們處理的R

機器學習中訓練資料集，交叉驗證資料集，測試資料集的作用

#1. 簡介在Andrew Ng的機器學習教程裡，會將給定的資料集分為三部分：訓練資料集（training set）、交叉驗證資料集（cross validation set）、測試資料集（test set）。三者分別佔總資料集的60%、20%、20%。那麼

java jxl 向Excel中追加資料而不覆蓋原來資料的例子

向先原來就有資料的Excel寫資料是不會覆蓋原有的資料，只是在追加資料。 public class Excel { public Excel() { } public void CreateWorkbook(File file, double[] a) {

處理資料極度不均衡的資料集2

實現過程個人覺得很坎坷。下午找到了sklearn庫中有個 imblearn包，可以無腦運算，基於完成任務考慮，看了之後確實有很多收貨。更加熟悉了模型的原理，資料處理的過程和結果優化的一些理論。排除樸素隨機抽樣之外的其他方法，在增加小樣本和刪除大樣本的時候，時間消耗過於巨大，對

linux下df -hT和du -sh 顯示的資料非常不一致解決方法

問題背景：對系統進行壓力測試，莫名導致tomcat的catalina.out被寫入48G日誌，導致磁碟空間被佔滿，此時在tomcat執行中使用rm -rf 命令刪除該檔案問題描述：刪除後df -hT顯示80g空間全部佔用(磁碟空間佔滿)，du -sh顯示只佔用20g 解決

分類問題中訓練資料類別不均衡怎麼解決

前期資料準備

1. 欠取樣

2. 過取樣

模型中調整調整權重

1. xgboost 設定 : scale_pos_weight

2. RF 設定： class_weight

得到結果後尋找最優閾值

調整threshold的值，得到最優結果

評價指標：

相關推薦

1. `xgboost 設定 : scale_pos_weight`