資料不平衡：下采樣、上取樣python程式碼實現

阿新 • • 發佈：2019-02-15

一、下采樣

所有資料存在DataFrame物件df中。資料分為兩類：多數類別和少數類別，資料量相差大。資料預處理已將多數類別的Label標記為1，少數類別的Label標記為0。

import numpy as np
import pandas as pd


def lower_sample_data(df, percent=1):
    '''
    percent:多數類別下采樣的數量相對於少數類別樣本數量的比例
    '''
    data1 = df[df['Label'] == 1]  # 將多數類別的樣本放在data1
    data0 = df[df['Label'] == 0]  # 將少數類別的樣本放在data0
    index = np.random.randint(
        len(data1), size=percent * (len(df) - len(data1)))  # 隨機給定下采樣取出樣本的序號
    lower_data1 = data1.iloc[list(index)]  # 下采樣
    return(pd.concat([lower_data1, data0]))

示例：

np.random.seed(28)
arr1 = np.random.randint(6, size=(100, 5))
arr2 = np.random.randint(1000, 1010, size=(10, 5))
columns = ['A', 'B', 'C', 'D', 'E']
df1 = pd.DataFrame(arr1, columns=columns)
df1['Label'] = 1
df2 = pd.DataFrame(arr2, columns=columns)
df2['Label'] = 0
df = pd.concat([df1, df2])
print(lower_sample_data(df))

輸出：

       A     B     C     D     E  Label
37     4     3     0     1     4      1
41     5     5     5     4     4      1
35     5     3     2     2     5      1
69     0     0     1     0     4      1
98     2     4     5     2     0      1
78     3     3     2     4     3      1
52     2     2     1     3     3      1
43     0     0     5     5     4      1
61     5     0     1     0     5      1
86     3     2     0     1     4      1
0   1002  1005  1004  1005  1002      0
1   1007  1009  1005  1000  1003      0
2   1004  1005  1000  1003  1005      0
3   1002  1003  1000  1009  1003      0
4   1000  1002  1005  1009  1006      0
5   1001  1009  1003  1007  1003      0
6   1009  1004  1005  1007  1002      0
7   1008  1006  1009  1009  1009      0
8   1003  1007  1006  1007  1005      0
9   1001  1008  1003  1008  1003      0

資料不平衡：下采樣、上取樣python程式碼實現

一、下采樣所有資料存在DataFrame物件df中。資料分為兩類：多數類別和少數類別，資料量相差大。資料預處理已將多數類別的Label標記為1，少數類別的Label標記為0。 import numpy as np import pandas as pd def lo

Imblearn package study（不平衡資料處理之過取樣、下采樣、綜合取樣）

Imblearn package study 1. 準備知識 Sparse input For sparse input the data is converted to the Compressed Sparse Rows r

10.邏輯迴歸-下采樣、過取樣、交叉驗證

import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler from sklearn.model_selection

9.邏輯迴歸-下采樣、過取樣、交叉驗證

import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler from sklearn.model

降取樣，過取樣，欠取樣，子取樣，下采樣，上取樣，你學會了嗎？【總結】

降取樣：2048HZ對訊號來說是過取樣了，事實上只要訊號不混疊就好（滿足尼奎斯特取樣定理），所以可以對過取樣的訊號作抽取，即是所謂的“降取樣”。在現場中取樣往往受具體條件的限止，或者不存在300HZ的取樣率，或除錯非常困難等等。若R>>1，則Rfs/2就遠大於音

降取樣，過取樣，欠取樣，子取樣，下采樣，上取樣

取樣： 2048HZ對訊號來說是過取樣了，事實上只要訊號不混疊就好（滿足尼奎斯特取樣定理），所以可以對過取樣的訊號作抽取，即是所謂的“降取樣”。在現場中取樣往往受具體條件的限止，或者不存在300HZ的取樣率，或除錯非常困難等等。若 R>>1，則Rfs/2就

類別不平衡之欠采樣（undersampling）

HR shuffle cat 圖片 mage cascade sele cas awk 類別不平衡就是指分類任務中不同類別的訓練樣例數目差別很大的情況常用的做法有三種，分別是1.欠采樣， 2.過采樣， 3.閾值移動由於這幾天做的project的target為正值的概率不

「機器學習」資料不平衡情況下的處理方法(1)

1. background 前端時間想換工作，於是面了幾家公司。發現了公司面試基本會問當資料集分佈不平衡的時候該怎麼處理。在現實做專案的時候這種情況也會很多。於是做了一下整理。2. 資料不平衡資料不平衡的情況主要出現在二分類。比如現在公司做的重要郵件檢測。幾千個郵

使用APICloud編寫優雅的HTML5程式碼《一》：下拉重新整理、上拉載入更多

摘要: 發現APICloud倡導符合CMD以及AMD規範的JS編碼標準,提供基於HTML5的跨平臺App編譯,並開放大量的端API和雲A

機器學習與神經網路（四）：BP神經網路的介紹和Python程式碼實現

前言：本篇博文主要介紹BP神經網路的相關知識，採用理論+程式碼實踐的方式，進行BP神經網路的學習。本文首先介紹BP神經網路的模型，然後介紹BP學習演算法，推導相關的數學公式，最後通過Python程式碼實現BP演算法，從而給讀者一個更加直觀的認識。 1.BP網路模型為了將理

三十八、100行python程式碼實現機器學習自動分類

現在朋友圈、公眾號、微博資訊應接不暇，以微信公眾號舉例，看技術極客是怎麼自動篩出自己想看的文章的，100行機器學習程式碼就能自動幫你歸好類，要想找出想看的和不想看的，你再也不用刷朋友圈了準備工作 1. 準備一張mysql資料庫表，至少包含這些列：id、title(文章標題)、content(文章內

機器學習：交叉驗證和模型選擇與Python程式碼實現

前言：本篇博文主要介紹交叉驗證（cross validation）和模型選擇，首先介紹相關的基礎概念和原理，然後通過Python程式碼實現交叉驗證和模型評估以及選擇。特別強調，其中大多理論知識來源於《統計學習方法_李航》和斯坦福課程翻譯筆記。 1.分類器的評價評價分類

下采樣（處理資料不平衡問題）

import pandas as pd import matplotlib.pyplot as plt import numpy as np from sklearn.preprocessing import StandardScaler#去均值，方差歸一化，類似於特徵縮放 from sklearn

解決U-net上取樣過程後，結合下采樣資訊時特徵圖大小不匹配問題

在U-net下采樣後時，通過polling層，可能會出現這種情況，37*37feature maps 壓縮成18*18大小，但在上取樣過程中，利用 nn.ConvTranspose2d()通常變為36*36大小的feature maps,不同大小的feature maps在進行concat時會報

時間序列--上取樣、下采樣

在上取樣的情況下，可能需要注意如何使用插值來計算細粒度的觀測值在向下取樣的情況下，在選擇用於計算新聚合值的彙總統計資訊時可能需要小心。也許有兩個主要原因讓你對重新取樣你的時間序列資料感興趣: 1.問題框架:如果您的資料與您希望進行預測的頻率相同，則可能需要重新取樣。 2.特徵工程

OpenCV-Python——上取樣、下采樣與拉普拉斯金字塔

影象金字塔（也叫高斯金字塔）：同一影象不同分辨律的子圖集合。向下取樣的過程：從Gi得到Gi+1的過程: 1.對影象Gi進行高斯卷積。 2.刪除所有行和列。向上取樣的過程：從Gi得到Gi-1的過程： 1.行和列擴充套件為原來的兩倍，用0填充。 2.使用

金字塔向上、下采樣(圖片的大小轉換)

程式碼： OpenFileDialog of = new OpenFileDialog(); if (of.ShowDialog() != DialogResult.OK) { return; }

分類中樣本資料不平衡問題的解決方法

資料探勘的重點在資料，當資料不平衡的時候怎麼辦呢？轉自：http://blog.csdn.net/dream2009gd/article/details/35569343 問題：研究表明，在某些應用下，1∶35的比例就會使某些分類

0021-用OpenCV的pyrUp和pyrDown函式計算影象金字塔(向上/下采樣)

影象金字塔是一個影象集合，集合中所有的影象都源於同一個原始影象，通過對原始影象進行連續取樣得到影象集合。常見的有兩種影象金字塔，即高斯金字塔和拉普拉斯金字塔。高斯金字塔：向下降取樣影象。金字塔從i層生成第i+1層，先用高斯核對Gi進行卷積，然後，刪除所有偶數行和偶數列。這樣，新得到的影象面積會變為源

python+selenium七：下拉框、選項框、select用法 python+selenium七：下拉框、選項框、select用法

python+selenium七：下拉框、選項框、select用法 from selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionChainsimpo

資料不平衡：下采樣、上取樣python程式碼實現

一、下采樣

相關推薦