類不平衡問題與SMOTE過采樣算法

阿新 • • 發佈：2018-02-06

focus 英文分享能夠目前 div -i n) macbookp

在前段時間做本科畢業設計的時候，遇到了各個類別的樣本量分布不均的問題——某些類別的樣本數量極多，而有些類別的樣本數量極少，也就是所謂的類不平衡（class-imbalance）問題。

本篇簡述了以下內容：

什麽是類不平衡問題

為什麽類不平衡是不好的

幾種解決方案

SMOTE過采樣算法

進一步閱讀

什麽是類不平衡問題

類不平衡（class-imbalance）是指在訓練分類器中所使用的訓練集的類別分布不均。比如說一個二分類問題，1000個訓練樣本，比較理想的情況是正類、負類樣本的數量相差不多；而如果正類樣本有995個、負類樣本僅5個，就意味著存在類不平衡。

在後文中，把樣本數量過少的類別稱為“少數類”。

但實際上，數據集上的類不平衡到底有沒有達到需要特殊處理的程度，還要看不處理時訓練出來的模型在驗證集上的效果。有些時候是沒必要處理的。

為什麽類不平衡是不好的

從模型的訓練過程來看

從訓練模型的角度來說，如果某類的樣本數量很少，那麽這個類別所提供的“信息”就太少。

使用經驗風險（模型在訓練集上的平均損失）最小化作為模型的學習準則。設損失函數為0-1 loss（這是一種典型的均等代價的損失函數），那麽優化目標就等價於錯誤率最小化（也就是accuracy最大化）。考慮極端情況：1000個訓練樣本中，正類樣本999個，負類樣本1個。訓練過程中在某次叠代結束後，模型把所有的樣本都分為正類，雖然分錯了這個負類，但是所帶來的損失實在微不足道，accuracy已經是99.9%，於是滿足停機條件或者達到最大叠代次數之後自然沒必要再優化下去，ok，到此為止，訓練結束！於是這個模型……

模型沒有學習到如何去判別出少數類。

從模型的預測過程來看

考慮二項Logistic回歸模型。輸入一個樣本 $x$

為什麽是0.5呢？可以認為模型是出於最大後驗概率決策的角度考慮的，選擇了0.5意味著當模型估計的樣本屬於正類的後驗概率要大於樣本屬於負類的後驗概率時就將樣本判為正類。但實際上，這個後驗概率的估計值是否準確呢？

從幾率（odds）的角度考慮：幾率表達的是樣本屬於正類的可能性與屬於負類的可能性的比值。模型對於樣本的預測幾率

為

\frac{\hat{y}}{1 - \hat{y}}

模型在做出決策時，當然希望能夠遵循真實樣本總體的正負類樣本分布：設 $θ$

雖然我們無法獲悉真實樣本總體，但之於訓練集，存在這樣一個假設：訓練集是真實樣本總體的無偏采樣。正是因為這個假設，所以認為訓練集的觀測幾率 $\frac{\hat{θ}}{1 - \hat{θ}}$

所以，在這個假設下，當一個樣本的預測幾率大於觀測幾率時，就應該將樣本判斷為正類。

幾種解決方案

目前主要有三種辦法：

1. 調整 $θ$

根據訓練集的正負樣本比例，調整 $θ$

這樣做的依據是上面所述的對訓練集的假設。但在給定任務中，這個假設是否成立，還有待討論。

2. 過采樣

對訓練集裏面樣本數量較少的類別（少數類）進行過采樣，合成新的樣本來緩解類不平衡。

下面將介紹一種經典的過采樣算法：SMOTE。

3. 欠采樣

對訓練集裏面樣本數量較多的類別（多數類）進行欠采樣，拋棄一些樣本來緩解類不平衡。

SMOTE過采樣算法

??JAIR‘2002的文章《SMOTE: Synthetic Minority Over-sampling Technique》提出了一種過采樣算法SMOTE。概括來說，本算法基於“插值”來為少數類合成新的樣本。下面介紹如何合成新的樣本。

設訓練集的一個少數類的樣本數為 $T$

考慮該少數類的一個樣本 $i$

1. 首先從該少數類的全部 $T$

2. 然後從這 $k$

x_{i 1} = x_{i} + ζ_{1} \cdot (x_{i (n n)} - x_{i})

3. 將步驟2重復進行 $N$

那麽，對全部的 $T$

技術分享圖片

如果樣本的特征維數是 $2$

進一步閱讀

有兩篇翻譯自國外博客的文章：

解決真實世界問題：如何在不平衡類上使用機器學習？

從重采樣到數據合成：如何處理機器學習中的不平衡分類問題？

可以先讀中文的了解一下說了哪些事情，如果感興趣的話就去看英文原文來深入學習。

原文鏈接：https://www.cnblogs.com/Determined22/p/5772538.html

類不平衡問題與SMOTE過采樣算法

focus 英文分享能夠目前 div -i n) macbookp 在前段時間做本科畢業設計的時候，遇到了各個類別的樣本量分布不均的問題——某些類別的樣本數量極多，而有些類別的樣本數量極少，也就是所謂的類不平衡（class-imbalance）問題。本篇

類不平衡問題與SMOTE過采樣算法

類不平衡問題與SMOTE過采樣算法

基於傅裏葉變換的音頻重采樣算法 (附完整c代碼)

機器學習 —— 類不平衡問題與SMOTE過取樣演算法

機器學習——python scikit-learn SVC類不平衡

[學習-思考-探究]莫隊算法曼哈頓最小生成樹與分塊區間詢問算法

[學習-思考-探究]莫隊算法曼哈頓最小生成樹與分塊區間詢問算法-2

[學習-思考-探究]莫隊算法曼哈頓最小生成樹與分塊區間詢問算法-3

uva 1608 不無聊的序列（附帶常用算法設計和優化策略總結）

?機器視覺算法與應用讀書筆記（算法）

安全不安全002：C#實現RSA算法加密解密

python kayb算法之從一組序列當中獲取一組與目標值最接近的算法

CS229 Machine Learning學習筆記:Note 7(K-means聚類、高斯混合模型、EM算法)

Java實驗--課上提到的隨機數生成原理簡單實現(不利用庫生成隨機數的簡單算法）

Imblearn package study（不平衡資料處理之過取樣、下采樣、綜合取樣）

類別不平衡之欠采樣（undersampling）

下采樣（處理資料不平衡問題）

不平衡類問題（稀有類檢測）的評估與改善方法

資料不平衡：下采樣、上取樣python程式碼實現

<數字圖像處理1> 數字圖像定義(Definition) 類型(Type) 采樣 (Sampling) 量化 (Quantisation)

圖像的降采樣與升采樣（二維插值）----轉自LOFTER-gengjiwen

類不平衡問題與SMOTE過采樣算法

相關推薦