建模前處理：多種方法分測試集訓練集

阿新 • • 發佈：2019-01-22

1、自編函式簡單隨機抽取

#!/usr/bin/python
# 載入包
import numpy as np 
import pandas as pd

def split_train_test(data, test_ratio,seed = 1234):
    np.random.seed(seed)  # 使得生成的測試訓練集具有可重複性
    index = np.random.permutation(len(data))  # 亂序
    t_size = int(len(data) * test_ratio)
    test_index = index[: t_size]
    train_index = index[t_size :]
    return 
 data.iloc[train_index], data.iloc[test_index] # interge

該方法可以保證每次生成的資料集相同
但當資料重新整理時，該方法又失效。
使用唯一ID 對資料進行分組才是保證更新資料後也照樣和之前分的相同，僅加入了新增的資料

2、ID的雜湊值抽取

#!/usr/bin/python
import hashlib 

def test_set_check(identifier, test_ratio, hash = hashlib.md5):
    """
    對雜湊值加密後用二進位制表示，提取最後一個位元組
    對最後一個位元組按照 256(一個位元組大小) * test_ratio 劃分成兩類
    :param identifier: 需要處理成hashlib.md5 的ID編碼
    :param test_ratio: 提取測試集的佔比
    :return: 布林值
    """ 

    return hash(np.int64(identifier)).digest()[-1] < 256 * test_ratio  # 加密後的結果用二進位制表示

def split_train_test_by_id(data, test_ratio, id_column, hash=hashlib.md5):
    ids = data[id_column]
    in_test_set = ids.apply(lambda id_ : test_set_check(id_, test_ratio, hash))
    return data.loc[~in_test_set], data.loc[in_test_set]

3、sklearn函式隨機抽取

# 從model_selection中載入分測試集訓練集函式
from sklearn.model_selection import train_test_split

train_set, test_set = train_test_split(data, test_size = 0.2, random_state = 42)

4、sklearn函式分層抽取

from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits= 1, test_size= 0.2, random_state=42)

for train_index, test_index in split.split(data, data['income_cat']):
    strat_train_set = data.loc[train_index]
    strat_test_set = data.loc[test_index]

分層取樣的比例幾乎和原資料集一樣優於隨機抽樣

兩者資料抽樣比例比較如下：

# 原資料
a = data['income_cat'].value_counts()/len(data)

# 分層抽樣
ftr = strat_train_set['income_cat'].value_counts()/len(strat_train_set)
fte = strat_test_set['income_cat'].value_counts()/len(strat_test_set)

# 隨機抽樣
train_set, test_set = train_test_split(data, test_size = 0.2, random_state = 42)
sjtr = train_set['income_cat'].value_counts()/len(train_set)
sjte = test_set['income_cat'].value_counts()/len(test_set)

# 檢視標準差
np.std(ftr - a), np.std(fte - a), np.std(sjtr - a), np.std(sjtr - a)

某一資料比較結果如下：

(2.1667325363377233e-05, 8.666930145347169e-05, 0.001571964081795336, 0.001571964081795336)

顯然分層抽樣效果更佳

建模前處理：多種方法分測試集訓練集

1、自編函式簡單隨機抽取 #!/usr/bin/python # 載入包 import numpy as np import pandas as pd def split_train_test

資料結構經典面試題：多種方法實現字串迴圈移位

來源：我是碼農，轉載請保留出處和連結！本文連結：http://www.54manong.com/?id=12 問題描述: 要求在時間複雜度和空間複雜度分別為O(n)和O(1)的條件下把一個長度為N的字串迴圈左移M位，例如將長度為9的字串"12345

c語言：多種方法實現兩個數的交換

交換兩個數的內容是c語言中常見的問題，所以在此總結一下我所學到的幾種方法。首先，舉一個例子，假設a=10，b=20. 第一種方法，藉助一個臨時變數來進行儲存，這是最容易也是最直觀的方法。程式碼如下： int a, b, t; a = 10;

用pandas劃分資料集——訓練集和測試集

1、使用sklearn庫中model_select子模組進行劃分資料：使用kaggle上Titanic資料集劃分方法：隨機劃分 # 匯入pandas模組，sklearn中model_select模組 import pandas as pd from sklearn.

spring data jpa 多表UNION ALL查詢按條件排序分頁處理：未搜到方法，解決後記錄：2018年11月13日15:22:00

需求：Mysql資料庫有不同屬性的兩張表，需要進行按某個條件查詢，結果合併排序分頁。讓產品把兩個表分成兩段展示各查各的，分開來。產品經理說能實現：產品寫sql 聯合查詢， A UNION AL

Oracle Spatial分區應用研究之二：按縣分區與按省分區對比測試報告

oracle 出了 ali 明顯基礎上實驗方法樣本空間查詢使用場景 1、實驗目的在上一輪的實驗中，oracle 11g r2版本下，在87縣市實驗數據的基礎上，比較了分表與分區的效率，得出了分區+全局索引效率較高的結論（見上一篇博客）。不過我們尚未比較過

有限元方法入門：有限元方法簡單的二維算例（三角形剖分）

有限元方法簡單的二維算例（三角形剖分）算例描述我們對下述橢圓邊值問題 \label{eq1} {−Δu=fu|∂Ω=0 {

有限元方法入門：有限元方法簡單的二維算例（矩形剖分）

#有限元方法簡單的二維算例（矩形剖分）算例描述我們對下述橢圓邊值問題 \label{eq1} {

C++影象批處理：讀取資料夾中全部影象的方法

string file_path = "H:\\image data\\"; string search_path = file_path + "*.jpg"; vector<string> file_list; if (!get_

LeetCode268：Missing Number(多種方法)

Given an array containing n distinct numbers taken from 0, 1, 2, ..., n, find the one that is missing from the array. Example 1: In

》MyBatise 入門案例：環境搭建與入門的案 --- 最原始 main方法的測試

封紅衛 — 友情提示：使用 mybatis 是非常容易的一件事情，因為只需要編寫 Dao 介面並且按照 mybatis 要求編寫兩個配置檔案，就可以實現功能。遠比我們之前的 jdbc 方便多了。（我們使用註解之後，將變得更為簡單，只需要編寫一個 my

【有監督分箱】方法二： Best-KS分箱

銜接上一篇工作：https://blog.csdn.net/hxcaifly/article/details/80203663 變數的KS值 KS(Kolmogorov-Smirnov)用於模型風險區分能力進行評估，指標衡量的是好壞樣本累計部分之間的差距。KS值越大，表示該變數

海量資料處理：十道面試題與十個海量資料處理方法總結（大資料演算法面試題）

第一部分、十道海量資料處理面試題 1、海量日誌資料，提取出某日訪問百度次數最多的那個IP。首先是這一天，並且是訪問百度的日誌中的IP取出來，逐個寫入到一個大檔案中。注意到IP是32位的，最多有個2^32個IP。同樣可以採用對映的方法

自然語言處理（NLP）——分詞統計可能用到的模組方法

一、itertools.chain( *[ ] ) import itertools a= itertools.chain(['a','aa','aaa']) b= itertools.chain(

區塊鏈安全：實現公鏈雙花攻擊的多種方法

針對 EOS、NEO 等大公鏈平臺的多個雙花攻擊漏洞的案例，360 區塊鏈實驗室總結出了多種造成數字貨幣雙花攻擊的多種原因，並提出了一種通用的安全減緩措施。各種大公鏈專案實際上都產生過能夠產生雙花攻擊之類的嚴重安全問題，盜取加密貨幣對黑客來講不是難事。而在幾個月的區塊鏈安全研究中

Java類的組合與繼承小問題分析（建構函式引數的傳遞方法、資料隱藏的處理：對比C++）

一、類的組合： 1、初始化問題（建構函式的引數傳遞方法）：在C++中，通常只要物件中不含有指標類資料的話，物件與物件之間是可以相互賦值且不會出錯的，因此組合出來的類完全可以將傳遞過來的物件引數直接賦值給對應資料成員；而在java中，物

海量資料處理：十道面試題與十個海量資料處理方法總結

第一部分、十道海量資料處理面試題 1、海量日誌資料，提取出某日訪問百度次數最多的那個IP。首先是這一天，並且是訪問百度的日誌中的IP取出來，逐個寫入到一個大檔案中。注意到IP是32位的，最多有個2^32個IP。同樣可以採用對映的方法，比如模1000，把整個大檔

matlab處理：批處理影象分塊

有一個影象分塊的程式碼，可以直接將一幅影象分為5*5的小塊，程式碼如下： %[FileName,PathName] = uigetfile('*.*','Select the image'); Im=imread('Bicubic flowers.bmp'); imshow(Im) hold on

資料預處理：原始資料集快速分類的方法，numpy的使用技巧，資料的row=mask的column

問題假如資料集有3類，怎麼把一個龐大的陣列集3類，放在不同的數組裡。分析首先龐大資料集分類，肯定不能一個一個遍歷，而且強烈避免個人的操作，需要藉助於numpy處理。示例資料集,可以看出資料集為3類，我們要x也分成3類 x = [[1,2],[2,9],[3,

EventBus原始碼分析（三）：post方法釋出事件【獲取事件的所有訂閱者，反射呼叫訂閱者事件處理方法】（2.4版本）

EventBus維護了一個重要的HashMap，這個HashMap的鍵是事件，值是該事件的訂閱者列表，因此post事件的時候就能夠從此HashMap中取出事件的訂閱者列表，對每個訂閱者反射呼叫事件處理方法。 private final Map<Cla

建模前處理：多種方法分測試集訓練集

1、自編函式簡單隨機抽取

2、ID的雜湊值抽取

3、sklearn函式隨機抽取

4、sklearn函式分層抽取

顯然分層抽樣效果更佳

相關推薦