機器學習：樣本比例失衡的處理

阿新 • • 發佈：2018-12-21

最近在做個專案，樣本比例嚴重失衡，正負樣本比例差不多1：10的樣子。如此嚴重失衡的樣本比例，模型訓練的效果自然不會好，甚至很差。還是那句話，資料決定了上限，模型只是逼近這個上限而已。
那遇到這種情況我們改如何解決呢？方法如下：

增加缺失樣本
這是最好也是最難的方法，因為一般樣本比例嚴重失衡肯定是有原因的。比如預測信用卡逾期，逾期的人肯定是極少數，所以很難蒐集更多的逾期樣本。
過取樣
複製樣本量少的資料，加入樣本中，以達到正負樣本儘量的平衡。經過測試該方法簡單易用。
欠取樣
刪除部分資料佔比高的樣本資料，從而達到平衡效果。經過測試，這個方法未必有過取樣好用，不知道是不是我的資料有問題。
SMOTE
SMOTE（Synthetic Minority Oversampling Technique）屬於過取樣的一種。它的基本思想是對少數類樣本進行分析並根據少數類樣本人工合成新樣本新增到資料集中，從而提升模型效果。下面會貼出SMOTE的實現方法。
採用適合的演算法
對於樣本比例嚴重失衡的情況，傳統的分類演算法，比如LR等，很難有好的表現，所以我們要考慮換種演算法。GBDT，XGBOOST等對於這類樣本就有很好的表現，非常適合處理這樣的資料。
多分類
當你的樣本為二分類，且樣本比例嚴重失衡時，可以考慮將樣本分為多類，這樣可能有意想不到的收穫。

最後貼下Python實現SMOTE演算法的程式碼：

#SMOTE演算法及其python實現
import random
from sklearn.neighbors import NearestNeighbors
import numpy as np
import pandas as pd

class Smote:
    def __init__(self,samples,N=10,k=5):
        self.n_samples,self.n_attrs=samples.shape
        self.N=N
        self.k=k
        self.samples=samples
        self.newindex=0
       # self.synthetic=np.zeros((self.n_samples*N,self.n_attrs))

    def over_sampling(self):
        N=int(self.N/100)
        self.synthetic = np.zeros((self.n_samples * N, self.n_attrs))
        neighbors=NearestNeighbors(n_neighbors=self.k).fit(self.samples)
        print ('neighbors',neighbors)
        for i in range(len(self.samples)):
            print('samples',self.samples[i])
            nnarray=neighbors.kneighbors(self.samples[i].reshape((1,-1)),return_distance=False)[0]  #Finds the K-neighbors of a point.
            print ('nna',nnarray)
            self._populate(N,i,nnarray)
        return self.synthetic


    # for each minority class sample i ,choose N of the k nearest neighbors and generate N synthetic samples.
    def _populate(self,N,i,nnarray):
        for j in range(N):
            print('j',j)
            nn=random.randint(0,self.k-1)  #包括end
            dif=self.samples[nnarray[nn]]-self.samples[i]
            gap=random.random()
            self.synthetic[self.newindex]=self.samples[i]+gap*dif
            self.newindex+=1
            print(self.newindex)


df = pd.read_csv('/data.csv')
s=Smote(df.values,N=600)
result = s.over_sampling()
df_smote = pd.DataFrame(result)
df_smote.to_csv('/data_processed.csv',index=False,encoding='utf_8_sig')

參考資料：
https://blog.csdn.net/jiede1/article/details/70215477

機器學習：樣本比例失衡的處理

最近在做個專案，樣本比例嚴重失衡，正負樣本比例差不多1：10的樣子。如此嚴重失衡的樣本比例，模型訓練的效果自然不會好，甚至很差。還是那句話，資料決定了上限，模型只是逼近這個上限而已。那遇到這種情況我們改如何解決呢？方法如下：增加缺失樣本這是最好也是最難的方法，因為一般樣本

機器學習：樣本去中心化目的

idt rac 相同 orm ans 預處理特征 original 需要作者：Spark鏈接：https://www.zhihu.com/question/37069477/answer/132387124來源：知乎著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉

機器學習：樣本權重的理解

樣本權重在feed data的過程中，我們總是會用到samle_weight,樣本權重的直觀理解為：樣本權重給出了各個樣本的重要性。具體是怎麼體現的了，首先樣本權重不是把樣本乘以一個係數，這樣的話feature值不就改變了，他改變的是該樣本的數量，本來一個樣本是1個，現在變成了0

機器學習中樣本不平衡處理辦法

在機器學習任務中，我們經常會遇到這種困擾：資料不平衡問題。比如在廣告點選預估、反欺詐、風控裡面。資料不平衡問題主要存在於有監督機器學習任務中。當遇到不平衡資料時，以總體分類準確率為學習目標的傳統分類演算法會過多地關注多數類，從而使得少數類樣本的分類效能下降。絕大

系統學習機器學習之樣本不平衡問題處理

原文連結：http://blog.csdn.net/heyongluoyao8/article/details/49408131 在分類中如何處理訓練集中不平衡問題在很多機器學習任務中，訓練集中可能會存在某個或某些類別下的樣本數遠大於另一些類別下的樣本數目。即類別不平衡，為了使得學習達

動態HTML處理和機器影象識別-----機器學習：訓練Tesseract

訓練Tesseract 大多數其他的驗證碼都是比較簡單的。例如，流行的 PHP 內容管理系統 Drupal 有一個著名的驗證碼模組(https://www.drupal.org/project/captcha)，可以生成不同難度的驗證碼。那麼與其他驗證碼相比，究竟是什麼讓這個驗

python機器學習：：資料預處理（1）【轉】

轉載自：http://2hwp.com/2016/02/03/data-preprocessing/ 常見的資料預處理方法，以下通過sklearn的preprocessing模組來介紹; 1. 標準化（Standardization or Mean Removal and

機器學習：樸素貝葉斯分類器，決策函式向量化處理，mask使用技巧

文章目錄前面實現的樸素貝葉斯分類器，決策函式是非向量化的：藉助於numpy向量化處理，相當於平行計算，注意mask使用技巧，用途較廣：前面實現的樸素貝葉斯分類器，決策函式是非向量化的：前面提到過大資料處理，儘量避免個人的遍歷等一些函式

概率統計與機器學習：期望，方差，數學期望，樣本均值，樣本方差之間的區別

1.樣本均值：我們有n個樣本，每個樣本的觀測值為Xi，那麼樣本均值指的是 1/n * ∑x(i)，求n個觀測值的平均值 2.數學期望：就是樣本均值，是隨機變數，即樣本數其實並不是確定的 PS：從概率

機器學習：探索資料和資料預處理

機器學習之預測房價系列：機器學習實戰第一篇：探索資料和資料預處理探索資料是指研究資料，發現數據的結構。資料集由資料物件構成，一個數據物件代表一個實體，實體由屬性構成，屬性是一個數據欄位，表示資料物件的一個特徵，通常，在資料分析和機器學習中，屬性、維度、特徵和變數這四個術語可以互換。用

機器學習：神經網絡之表達

聚類推薦系統處理 mar 添加 gist 課程筆記像素 ... ************************************** 註：本系列博客是博主學習Stanford大學 Andrew Ng 教授的《機器學習》課程筆記。博主深感學過課程後，不進行總

從零單排入門機器學習：線性回歸（linear regression）實踐篇

class rom enter instr function ont 線性 gin 向量線性回歸（linear regression）實踐篇之前一段時間在coursera看了Andrew ng的機器學習的課程，感覺還不錯，算是入門了。這次打算以該課程的作業

機器學習：Python實現聚類算法(三)之總結

.fig ask class ted ssi 缺點處理 blob ron 考慮到學習知識的順序及效率問題，所以後續的幾種聚類方法不再詳細講解原理，也不再寫python實現的源代碼，只介紹下算法的基本思路，使大家對每種算法有個直觀的印象，從而可以更好的理解函數中

機器學習：線性判別式分析(LDA)

get generated 分類 learn 參數關註 ble 直線圖片 1.概述線性判別式分析（Linear Discriminant Analysis），簡稱為LDA。也稱為Fisher線性判別（Fisher Linear Disc

機器學習：緒論

訓練 ner special dict ttr 空間 attr cti 輸出學習教材為周誌華教授的西瓜書《機器學習》 1.2 基本術語維數 dimensionality 示例 instance 屬性或特征 attribute or feature 特征向量 featur

機器學習：模型評估和選擇

val 上一個 bootstrap 自助法 break all 誤差 rec 數據集 2.1 經驗誤差與擬合精度（accuracy）和錯誤率（error rate）：精度=1-錯誤率訓練誤差（training error）或經驗誤差（empirical error）泛

【機器學習】數據預處理之將類別數據轉換為數值

行數據 pri and slab form ces nbsp 遍歷 encode 在進行python數據分析的時候，首先要進行數據預處理。有時候不得不處理一些非數值類別的數據，嗯，今天要說的就是面對這些數據該如何處理。目前了解到的大概有三種方法： 1，通過LabelE

機器學習：貝葉斯分類器

貝葉斯逆向檢測 .net 極大似然估計 href ref .com blank 參考文獻從貝葉斯定理說開去關鍵詞：逆向概率；先驗概率；後驗概率我所理解的貝葉斯定理--知乎專欄關鍵詞：醫院病癥檢測中的真假陽性似然與極大似然估計--知乎專欄關鍵詞：似然與概率的區

機器學習：模型性能度量(performance measure)(待補充)

splay 樣本常用 spl n) enc 統計學習方法後者性能對學習器的泛化性能進行評估，不僅需要有效的實驗估計方法，還需要有衡量模型泛化性能的評準指標，這就是性能度量。性能度量反應任務需求，對比不同模型能力時，使用不同性能度量能導致不同的評判結果。因此，模型的好

機器學習：支持向量機

roc detail 拉格朗日乘子 clas 我們 article create 概念 https 拉格朗日乘子法那些年學過的高數關鍵詞：高數課本拉格朗日乘子法如何理解？關鍵詞：解釋形象關於凸優化的一些簡單概念關鍵詞：為什麽凸優化這麽重要關鍵詞：顯示不是凸

機器學習：樣本比例失衡的處理

相關推薦