下采樣（處理資料不平衡問題）

阿新 • • 發佈：2018-11-28

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.preprocessing import StandardScaler#去均值，方差歸一化，類似於特徵縮放
from sklearn.model_selection import train_test_split#分為訓練集和測試集
from sklearn.model_selection import GridSearchCV#自動調參，並行引數搜尋
from sklearn.linear_model import LogisticRegression#邏輯迴歸
from sklearn.metrics import classification_report#精確度、召回率
def load_and_analyse_data():
    data = pd.read_csv('./data/creditcard.csv')
    # ----------------------檢視樣本分佈情況----------------------------------
    count_classes = pd.value_counts(data['Class'])#也可以pd.value_counts(data['Class'],sort=False).sort_index(axis=0)其中，pd.valueC_counts對資料分類並計算，class為對資料中的標註"class"進行分類並計算，sort表布林值，表計算結果按升序排序還是降序排序，sort_index是按索引進行排序,這裡axis = 1不行
   # print(count_classes)# negative 0 :284315   positive 1 :492
    count_classes.plot(kind='bar')#柱狀圖畫圖
    plt.title('Fraud class histogram')
    plt.xlabel('Class')
    plt.ylabel('Frequency')
    plt.show()
    # --------------------------------------------------------------------------
    # ----------------------預處理---------------------------------------------
    # ----------------------標準化Amount列---------
    data['normAmout'] = StandardScaler().fit_transform(data['Amount'].values.reshape(-1, 1))#增加一列標註為"normAmount",內容為Amount中資料的標準歸一化，值的範圍設為（-1,1），在原資料檔案中不會增加這一列，但可以在程式碼中引用“normAmount”中的值。
    data = data.drop(['Time', 'Amount'], axis=1)#去掉Time和Amount列，原資料檔案不會改變，但程式中改了
    #print(data['normAmout'])
    # ----------------------------------------------
    X = data.ix[:, data.columns != 'Class']#ix表資料搜尋到的位置
    y = data.ix[:, data.columns == 'Class']#ix表資料搜尋到的位置,y為class這一列
    positive_number = len(y[y.Class == 1])  # 492
    negative_number = len(y[y.Class == 0])  # 284315
    # print(y.Class==1)#輸出布林語句
    # print(y[y.Class==1])#布林語句也可以當索引，輸出的是y中類別被1的資料
    positive_indices = np.array(y[y.Class == 1].index)#.index是取出y=1對應的索引，並轉化成np形式
   # print(positive_indices)
    negative_indices = np.array(y[y.Class == 0].index)#.index是取出y=0對應的索引，並轉化成np形式

    # ----------------------取樣-------------------
    random_negative_indices = np.random.choice(negative_indices, positive_number, replace=False)#從negative_indices中選擇出positive_number個數來，replace=false表沒有重複替換的隨機取樣，也就是採出來的資料如果是一樣的，不替換，也就是獨立的。
    random_negative_indices = np.array(random_negative_indices)#選出來的數做成np格式
    under_sample_indices = np.concatenate([positive_indices, random_negative_indices])#把兩個陣列串聯起來
    #print(positive_indices)
    #print(random_negative_indices)
    #print(under_sample_indices)
    under_sample_data = data.iloc[under_sample_indices, :]#取出資料中標籤對應的樣本
    X_sample = under_sample_data.ix[:, under_sample_data.columns != 'Class']#將取出的樣本劃分
    y_sample = under_sample_data.ix[:, under_sample_data.columns == 'Class']#將取出的樣本劃分
    print(y)
    print(np.array(y))
    print(np.array(y).reshape(len(y)))
    print(X)
    print(np.array(X))
    return np.array(X), np.array(y).reshape(len(y)), np.array(X_sample), np.array(y_sample).reshape(len(y_sample))

if __name__ == '__main__':
    X, y, X_sample, y_sample = load_and_analyse_data()
    _, X_test, _, y_test = train_test_split(X, y, test_size=0.3, random_state=30)#random_state為隨機數種子，用來測試最後最好引數的模型，其中_表空，不用這個資料。
    X_train, X_dev, y_train, y_dev = train_test_split(X_sample, y_sample, test_size=0.3, random_state=1)


    print("X_train:{}  X_dev:{}  X_test:{}".format(len(y_train),len(y_dev),len(y_test)))
    model = LogisticRegression()#引入邏輯迴歸
    parameters = {'C': [0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 3, 10]}#字典，所有的超引數
    gs = GridSearchCV(model, parameters,  verbose=5,cv=5)#model是模型，paramaters是引數，cv是5-fold交叉驗證，verbose表輸出訓練過程。
    gs.fit(X_train, y_train)#訓練資料匯入模型
    print('最佳模型:', gs.best_params_, gs.best_score_)
    print('在取樣資料上的效能表現：')
    print(gs.score(X_dev, y_dev))
    y_dev_pre = gs.predict(X_dev)
    print(classification_report(y_dev, y_dev_pre))
    print('在原始資料上的效能表現：')
    print(gs.score(X_test, y_test))
    y_pre = gs.predict(X_test)
    print(classification_report(y_test, y_pre))

資料集：

連結: https://pan.baidu.com/s/1OlZ-nkS4sbjSgoaetqqOGg 提取碼: ggr8

缺點：

丟失大量資料，浪費。

優點：

更加均衡，把類別0和1都考慮的比較完整，如果直接用原始資料而不採樣，則會偏向0，因為類別為0的資料太多了。

目的：

用來處理資料不平衡問題。

下采樣（處理資料不平衡問題）

import pandas as pd import matplotlib.pyplot as plt import numpy as np from sklearn.preprocessing import StandardScaler#去均值，方差歸一化，類似於特徵縮放 from sklearn

過取樣（處理資料不平衡問題）

import pandas as pd import matplotlib.pyplot as plt import numpy as np from sklearn.preprocessing import StandardScaler from sklearn.model_selection i

影象的上取樣（upsampling）與下采樣（subsampled）

參考： http://blog.csdn.net/majinlei121/article/details/46742339 http://blog.csdn.net/augusdi/article/details/9028365 縮小影象（或稱為下

opencv013-影象上取樣和下采樣（+高斯不同）

影象金字塔概念： 1. 我們在影象處理中常常會調整影象大小，最常見的就是放大(zoom in)和縮小（zoom out），儘管幾何變換也可以實現影象放大和縮小，但是這裡我們介紹影象金字塔 2. 一個影象金字塔式一系列的影象組成，最底下一張是影象尺寸最大，最上方的影象尺寸最

matlab 訊號與系統（一）—— 上取樣（Upsampling）和下采樣（Downsampling）

我們使用因子 p=2，對一維訊號 x 進行上取樣（一般為插入 0），則取樣後的訊號的長度為： (len(x) - 1) * (p-1) + len(x) == len(x)*p - p + 1

圖像的降采樣與升采樣（二維插值）----轉自LOFTER-gengjiwen

sample esc text arch 均可分享 lose earch 測試圖像的降采樣與升采樣（二維插值） 1、先說說這兩個詞的概念：降采樣，即是采樣點數減少。對於一幅N*M的圖像來說，如果降采樣系數為k,則即是在原圖中每行每列每隔k個點取一個點組成一幅圖像。

高併發下的HashMap（執行緒不安全）

高併發下的HashMap 這些討論是在1.8之前的java下作的分析，1.8的HashMap做了很大的變化，可以保證高併發下的安全性（多執行緒）。 HashMap的容量是有限的。當經過多次元素插入，使得HashMap達到一定飽和度時，Key對映位置發生衝突的

Imblearn package study（不平衡資料處理之過取樣、下采樣、綜合取樣）

Imblearn package study 1. 準備知識 Sparse input For sparse input the data is converted to the Compressed Sparse Rows r

資料不平衡：下采樣、上取樣python程式碼實現

一、下采樣所有資料存在DataFrame物件df中。資料分為兩類：多數類別和少數類別，資料量相差大。資料預處理已將多數類別的Label標記為1，少數類別的Label標記為0。 import numpy as np import pandas as pd def lo

類別不平衡之欠采樣（undersampling）

HR shuffle cat 圖片 mage cascade sele cas awk 類別不平衡就是指分類任務中不同類別的訓練樣例數目差別很大的情況常用的做法有三種，分別是1.欠采樣， 2.過采樣， 3.閾值移動由於這幾天做的project的target為正值的概率不

「機器學習」資料不平衡情況下的處理方法(1)

1. background 前端時間想換工作，於是面了幾家公司。發現了公司面試基本會問當資料集分佈不平衡的時候該怎麼處理。在現實做專案的時候這種情況也會很多。於是做了一下整理。2. 資料不平衡資料不平衡的情況主要出現在二分類。比如現在公司做的重要郵件檢測。幾千個郵

解決U-net上取樣過程後，結合下采樣資訊時特徵圖大小不匹配問題

在U-net下采樣後時，通過polling層，可能會出現這種情況，37*37feature maps 壓縮成18*18大小，但在上取樣過程中，利用 nn.ConvTranspose2d()通常變為36*36大小的feature maps,不同大小的feature maps在進行concat時會報

資料預處理--克服資料不平衡

這種問題和業務需求也有很強的相關性，可能根據領域知識也能解決一些問題。一篇綜述論文：《Learning from Imbalanced Data》。不平衡資料評估指標 1）單一評估指標、ROC曲線和PR曲線見機器學習：準確率(Precision)、召回率(Rec

BAT機器學習特徵工程工作經驗總結(一)如何解決資料不平衡問題（附python程式碼）

很多人其實非常好奇BAT裡機器學習演算法工程師平時工作內容是怎樣？其實大部分人都是在跑資料，各種map-reduce，hive SQL，資料倉庫搬磚，資料清洗、資料清洗、資料清洗，業務分析、分析case、找特徵、找特徵…而複雜的模型都是極少數的資料科學家在做。例

dwz配合分頁外掛的帶有條件上一頁下一頁（保證資料體系不變）

//無form的 listUi.jsp: 一般情況下有form，在查詢後返回查詢條件即可，（下一頁，上一頁時會自動呼叫這個form的action）在特殊情況下：沒有form，當前頁面本來就是前面的條件查出的list，這樣點選下一個是由於沒有form沒有地方可跳轉，2，即使自己加了一個form，用了相應

資料不平衡時分類器效能評價（ROC曲線）

大家在將統計學習方法用於實際應用時，不免會遇到各類間資料不太平衡的情況。比如垃圾郵件的識別、稀有病情的診斷、詐騙電話識別、情感分析等等情況。導致資料不平衡的原因有很多，有可能是因為不恰當的取樣方法，也可能真實的資料分佈就是如此；然而真實的資料分佈在大多數情況下我們是無從得知

Glide4.8原始碼拆解（四）Bitmap解析之"下采樣"淺析

前言 Glide歸根結底是一個圖片載入框架，它一定會涉及到BitmapFactory相關API把Bitmap讀取到記憶體；可能大家已經很熟悉如何高效的載入Bitmap(比如使用inSample等)，這一章還是要看一看Glide是如何玩轉的；本文主要分析這兩個類： DownsampleStrate

影象的上取樣（up-sampling）和下采樣(down-sampling)

原文地址：http://blog.csdn.net/majinlei121/article/details/46742339 縮小影象（或稱為下采樣（subsampled）或降取樣（downsampled））的主要目的有兩個：1、使得影象符合顯示區域的大小；2、生

[機器學習] 機器學習中訓練資料不平衡問題處理方案彙總

在很多機器學習任務中，訓練集中可能會存在某個或某些類別下的樣本數遠大於另一些類別下的樣本數目。即類別不平衡，為了使得學習達到更好的效果，因此需要解決該類別不平衡問題。原文標題：8 Tactics to Combat Imbalanced Classes in Your Mac

機器學習（二十四）——資料不平衡問題, 強化學習

資料不平衡問題如何處理不均衡資料？如何解決機器學習中資料不平衡問題七招教你處理非平衡資料機器學習中的資料不平衡解決方案大全 Imbalanced Classification Problems 關於處理樣本不平衡問

下采樣（處理資料不平衡問題）

相關推薦