Python分割訓練集和測試集的方法示例

阿新 • • 發佈：2020-01-09

資料集介紹

使用資料集Wine，來自UCI 。包括178條樣本，13個特徵。

import pandas as pd
import numpy as np

df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data',header=None)
df_wine.columns = ['Class label','Alcohol','Malic acid','Ash','Alcalinity of ash','Magnesium','Total phenols','Flavanoids','Nonflavanoid phenols','Proanthocyanins','Color intensity','Hue','OD280/OD315 of diluted wines','Proline']

分割訓練集和測試集

隨機分割

分為訓練集和測試集

方法：使用scikit-learn中model_selection子模組的train_test_split函式

from sklearn.model_selection import train_test_split

X,y = df_wine.ix[:,1:].values,df_wine.ix[:,0].values
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=0)#隨機選擇25%作為測試集，剩餘作為訓練集

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python分割訓練集和測試集的方法示例

資料集介紹使用資料集Wine，來自UCI 。包括178條樣本，13個特徵。 import pandas as pd

用pandas劃分資料集實現訓練集和測試集

1、使用model_select子模組中的train_test_split函式進行劃分資料：使用kaggle上Titanic資料集

使用 Keras 的 ImageDataGenerator 劃分訓練集和測試集

Keras的ImageDataGenerator可以方便的讀入資料夾中的圖片並自動生成訓練資料 . 如果圖片已經被分成訓練集和測試集兩個資料夾, 可以獨立建立兩個ImageDataGenerator. 但是在很多情況下, 作者提供的資料集並不區分訓練

判別分析--資料預處理（劃分訓練集和測試集）

資料集我們選用kknn軟體包中的miete資料集進行演算法演示，該資料集記錄了1994年慕尼黑的住房租金標準中的一些有趣變數，比如房子的面積、是否有浴室、是否有中央供暖、是否供應熱水等，這些都影響並決定著租金的高

訓練集、驗證集和測試集區別

我們在進行模型評估和選擇的時候，先將資料集隨機分為訓練集、驗證集和測試集，然後用訓練集訓練模型，用驗證集驗證模型，根據情況不斷調整模型，選擇其中最好的模型，再用訓練集和測試集訓練模型得到一個最好的模型

Sklearn-train_test_split隨機劃分訓練集和測試集

sklearn.model_selection.train_test_split隨機劃分訓練集和測試集官網文件：一般形式：

python中如何實現將資料分成訓練集與測試集的方法

接下來，直接給出大家響應的程式碼，並對每一行進行標註，希望能夠幫到大家。

Python 實現訓練集、測試集隨機劃分

隨機從列表中取出元素： import random dataSet = [[0],[1],[2],[3],[4],[5],[6],[7],[8],[9],[10]]

將資料分為訓練、驗證和測試集，考慮資料平衡問題和亂序，每個標籤下的資料隨機80%分到訓練集，10%到驗證和測試集

data = pd.read_excel(\"../data/dataset.xlsx\") list_label = [] train_list, dev_list, test_list = [],[],[]

PyTorch 自定義 Dataset 及訓練集、測試集劃分方法

技術標籤：PyTorch 基礎例項 1：自定義資料集類，torch.utils.data.random_split() 劃分訓練集和測試集，通過普通遍歷方式使用自定義資料集中的樣本

【筆記】過擬合和欠擬合以及為什麼要對分為訓練資料集和測試資料集

過擬合和欠擬合以及為什麼要對分為訓練資料集和測試資料集過擬合和欠擬合

【機器學習】偏差和方差、訓練集&驗證集&測試集ex5

1 正則化線性迴歸這一部分，我們需要先對一個水庫的流出水量以及水庫水位進行正則化線性歸回。然後將會探討方差-偏差的問題

使用KFold交叉驗證方法劃分訓練集和驗證集

在進行深度學習時，為了提高精度，或者為了評估我們模型的優劣，以及如何選擇一個更好的模型。這樣我們就需要用到交叉驗證方法。

使用PyTorch將資料夾下的圖片分為訓練集和驗證集例項

PyTorch提供了ImageFolder的類來載入檔案結構如下的圖片資料集： root/dog/xxx.png root/dog/xxy.png

隨機劃分訓練集、測試集

技術標籤：好用的python小程式只需要把root_path 的路徑修改即可 # -*- coding: utf-8 -*-

訓練集、驗證集、測試集的區別與聯絡

使用隨機森林演算法時用到了交叉驗證，突然陷入沉思，有測試集的情況下用交叉驗證做什麼？整理思路如下：

Python 中如何實現引數化測試的方法示例

之前，我曾轉過一個單元測試框架系列的文章，裡面介紹了 unittest、nose/nose2 與 pytest 這三個最受人歡迎的 Python 測試框架。

tensorboard實現同時顯示訓練曲線和測試曲線

在做網路訓練實驗時，有時需要同時將訓練曲線和測試曲線一起顯示，便於觀察網路訓練效果。經過很多次踩坑後，終於解決了。

Keras在訓練期間視覺化訓練誤差和測試誤差例項

詳細的解釋，讀者自行開啟這個連結檢視，我這裡只把最重要的說下 fit() 方法會返回一個訓練期間歷史資料記錄物件，包含 training error,training accuracy,validation error,validation accuracy 欄位，如下列印

CollectionUtils取交集,並集和差集

import org.apache.commons.collections.CollectionUtils; <dependency> <groupId>commons-collections</groupId>