Keras驗證集切分

阿新 • • 發佈：2018-11-11

轉自：https://www.cnblogs.com/bymo/p/9026198.html

在訓練深度學習模型的時候，通常將資料集切分為訓練集和驗證集．Keras提供了兩種評估模型效能的方法：

使用自動切分的驗證集
使用手動切分的驗證集

一．自動切分

在Keras中，可以從資料集中切分出一部分作為驗證集，並且在每次迭代(epoch)時在驗證集中評估模型的效能．

具體地，呼叫model.fit()訓練模型時，可通過validation_split引數來指定從資料集中切分出驗證集的比例．

# MLP with automatic validation set
from keras.models import Sequential
from keras.layers import Dense
import numpy
# fix random seed for reproducibility
numpy.random.seed(7)
# load pima indians dataset
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",")
# split into input (X) and output (Y) variables
X = dataset[:,0:8]
Y = dataset[:,8]
# create model
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
# Compile model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# Fit the model
model.fit(X, Y, validation_split=0.33, epochs=150, batch_size=10)

validation_split：0~1之間的浮點數，用來指定訓練集的一定比例資料作為驗證集。驗證集將不參與訓練，並在每個epoch結束後測試的模型的指標，如損失函式、精確度等。

注意，validation_split的劃分在shuffle之前，因此如果你的資料本身是有序的，需要先手工打亂再指定validation_split，否則可能會出現驗證集樣本不均勻。

二．手動切分

Keras允許在訓練模型的時候手動指定驗證集．

例如，用sklearn庫中的train_test_split()函式將資料集進行切分，然後在keras的model.fit()的時候通過validation_data

引數指定前面切分出來的驗證集．

# MLP with manual validation set
from keras.models import Sequential
from keras.layers import Dense
from sklearn.model_selection import train_test_split
import numpy
# fix random seed for reproducibility
seed = 7
numpy.random.seed(seed)
# load pima indians dataset
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",")
# split into input (X) and output (Y) variables
X = dataset[:,0:8]
Y = dataset[:,8]
# split into 67% for train and 33% for test
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33, random_state=seed)
# create model
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
# Compile model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# Fit the model
model.fit(X_train, y_train, validation_data=(X_test,y_test), epochs=150, batch_size=10)

三．K折交叉驗證（k-fold cross validation）

將資料集分成k份，每一輪用其中(k-1)份做訓練而剩餘1份做驗證，以這種方式執行k輪，得到k個模型．將k次的效能取平均，作為該演算法的整體效能．k一般取值為5或者10．

優點：能比較魯棒性地評估模型在未知資料上的效能．
缺點：計算複雜度較大．因此，在資料集較大，模型複雜度較高，或者計算資源不是很充沛的情況下，可能不適用，尤其是在訓練深度學習模型的時候．

sklearn.model_selection提供了KFold以及RepeatedKFold, LeaveOneOut, LeavePOut, ShuffleSplit, StratifiedKFold, GroupKFold, TimeSeriesSplit等變體．

下面的例子中用的StratifiedKFold採用的是分層抽樣，它保證各類別的樣本在切割後每一份小資料集中的比例都與原資料集中的比例相同．

# MLP for Pima Indians Dataset with 10-fold cross validation
from keras.models import Sequential
from keras.layers import Dense
from sklearn.model_selection import StratifiedKFold
import numpy
# fix random seed for reproducibility
seed = 7
numpy.random.seed(seed)
# load pima indians dataset
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",")
# split into input (X) and output (Y) variables
X = dataset[:,0:8]
Y = dataset[:,8]
# define 10-fold cross validation test harness
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=seed)
cvscores = []
for train, test in kfold.split(X, Y):
  # create model
    model = Sequential()
    model.add(Dense(12, input_dim=8, activation='relu'))
    model.add(Dense(8, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    # Compile model
    model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
    # Fit the model
    model.fit(X[train], Y[train], epochs=150, batch_size=10, verbose=0)
    # evaluate the model
    scores = model.evaluate(X[test], Y[test], verbose=0)
    print("%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))
    cvscores.append(scores[1] * 100)
print("%.2f%% (+/- %.2f%%)" % (numpy.mean(cvscores), numpy.std(cvscores)))

參考：

Evaluate the Performance Of Deep Learning Models in Keras

3.1. Cross-validation: evaluating estimator performance — scikit-learn 0.19.1 documentation

sklearn中的交叉驗證與引數選擇

Keras驗證集切分

轉自：https://www.cnblogs.com/bymo/p/9026198.html 在訓練深度學習模型的時候，通常將資料集切分為訓練集和驗證集．Keras提供了兩種評估模型效能的方法：使用自動切分的驗證集使用手動切分的驗證集一．自動切分在Keras中

keras中自定義驗證集的效能評估（ROC,AUC）

在keras中自帶的效能評估有準確性以及loss，當需要以auc作為評價驗證集的好壞時，就得自己寫個評價函數了： from sklearn.metrics import roc_auc_scorefrom keras import backend as K# AUC fo

訓練中的基礎技巧（數據處理，驗證集設置，參數處理）

ref 比較可能隨機 style 參加避免不知道區域訓練中的基礎技巧（數據處理，驗證集設置，參數處理）首先，對於數據我們需要統一其量綱。通用的做法是數據標準化。就是讓一個樣本內的均值為0，不同樣本類內方差盡量一致然後就是為標簽做one-hot e

訓練集、驗證集和測試集的意義(轉)

來看 valid 更新次數 bsp 根據可靠交集 epo 轉自: https://blog.csdn.net/ch1209498273/article/details/78266558 在有監督的機器學習中，經常會說到訓練集（train)、驗證集（validation

部署k8s ssl集群實踐15:驗證集群狀態

ext tcp cluster color com blog service def ... 集群狀態 [root@k8s-master1 ~]# kubectl get nodes NAME? ? ? ? ? STATUS? ? ROLES? ?? AGE? ? ?? V

GradSearchCv 自定義驗證集

首先解釋一下什麼叫使用自定義驗證集進行模型調參。GridSearchCV預設使用的模型驗證方法是KFold交叉驗證，但很多時候我們自己已經預先分配好了驗證集，我們就要在這個驗證集上評價模型好壞（有些任性），所以我們並不需要GridSearchCV為我們自動產生驗證集，這就是所謂的使用自定義驗證集進行模型調參。

什麼時候應該修改驗證集和測試集的指標

前言我們可以將模型的訓練理解成為尋找靶心的過程，如果想要模型在驗證集和測試集上的表現都好的話，那麼就需要保證驗證集和測試集相對於訓練集而言它們的靶心都處於同一位置。如果驗證集和測試集相對於訓練集的靶心有所偏差，這時候就需要考慮修改驗證集和測試集或修改驗證集和測試集的指標。本

訓練集、驗證集、測試集的劃分

前言在使用資料集訓練模型之前，我們需要先將整個資料集分為訓練集、驗證集、測試集。訓練集是用來訓練模型的，通過嘗試不同的方法和思路使用訓練集來訓練不同的模型，再通過驗證集使用交叉驗證來挑選最優的模型，通過不斷的迭代來改善模型在驗證集上的效能，最後再通過測試集來評估模型的效能。如果資料

sklearn之Cross-validation、GridSearchCV，以及訓練集（train）、測試集（test）、驗證集（validate）的辨析

1.訓練集（train）、測試集（test）、驗證集（validate）對於初學者而言，訓練集、測試集、驗證集這三個詞可能會讓你很迷糊，特別是後兩者。這裡我儘量用簡單的話說一下我自己的理解，希望可以講明白：對於機器學習模型訓練而言，

機器學習：訓練集，驗證集與測試集

來源：http://mooc.study.163.com/learn/2001281003?tid=2001391036#/learn/content?type=detail&id=2001702114&cid=2001693028 作用訓練集：用於訓練模型的

訓練集，測試集和驗證集劃分的意義

訓練集、驗證集和測試集的意義有了模型後，訓練集就是用來訓練引數的，說準確點，一般是用來梯度下降的。而驗證集基本是在每個epoch完成後，用來測試一下當前模型的準確率。因為驗證集跟訓練集沒有交集，因此這個準確率是可靠的。那麼為啥還需要一個測試集呢？這就需要區分一下模型的各種引數了

訓練集、驗證集、測試集的區別與應用

0. 前言最近一直在看論文、跑模型和做工程，很久沒有來發部落格了。但是在日常的學習和交流中，我感覺大家更加會關注當今最新的模型，最先進的演算法，但是對於一些非常基礎的內容的理解還不夠透徹，我也是想借此機會梳理清楚一些內容。今天想講的是資料集的劃分，即訓練集，驗證集和測試集分別是啥

評估機器學習模型的幾種方法（驗證集的重要性）

評估機器學習模型的幾種方法（驗證集的重要性）什麼是評估機器學習模型　　機器學習的目的是得到可以泛化（generalize）的模型，即在前所未見的資料上表現很好的模型，而過擬合則是核心難點。你只能控制可以觀察的事情，所以能夠可靠地衡量模型的泛化能力非常

訓練集，驗證集和測試集

要明確train/validation/test三個集合需要先了解什麼是hyperparameter。機器學習中模型的引數有的可以通過訓練獲得最優的值，而有些無法通過訓練獲得，只能通過人工設定，這部分需要人工設定的引數就是hyperparameters，比如KN

python設定訓練集驗證集測試集的比例

# -*- coding: utf-8 -*- import os import argparse as ap import random import math Path = "../BCCD/JPEGImages/" Out_Path = "../BCCD/ImageSets/Main/"

機器學習之資料集切分

機器學習之資料集切分 # -*- coding: utf-8 -*- """ Created on Mon Dec 10 09:32:55 2018 @author: muli """ from sklearn.model_selection import trai

訓練集與測試集切分

前言為了更好的訓練資料並且更好測試模型，一般做機器學習之前都會進行訓練集和測試集的切分。 train_test_split實現其實我們可以先把資料的輸入X和輸出向量y進行一個水平拼接，然後隨機之後拆開，但是過程比較麻煩。在sklearn中shuf

【123】TensorFlow 多個特徵值線性迴歸，並且使用訓練集、驗證集和測試集的例子

我們的目標是構建數學模型來預測房價。通常情況下，會有多個因素影響房價，因此使用多個特徵值做線性迴歸。數學上，每個特徵值視為一個自變數，相當與構建一個包含多個自變數的函式。我寫了兩個 python 檔案，一個是用來訓練模型，並使用驗證集驗證模型。另

訓練集，驗證集和測試集介紹和交叉驗證法介紹

訓練集、驗證集和測試集這三個名詞在機器學習領域極其常見，但很多人並不是特別清楚，尤其是後兩個經常被人混用。在有監督(supervise)的機器學習中，資料集常被分成2~3個，即：訓練集(train set)，驗證集(validation set)，測試集(test set)。 Rip

驗證集，測試集區別

訓練集是用來訓練引數的，說準確點，一般是用來梯度下降的。而驗證集基本是在每個epoch完成後，用來測試一下當前模型的準確率。因為驗證集跟訓練集沒有交集，因此這個準確率是可靠的。事實上，對於一個模型來說，其引數可以分為普通引數和超引數。在不引入強化學習的前提下，那麼普通引數就是可以被梯度下降

Keras驗證集切分

一．自動切分

二．手動切分

三．K折交叉驗證（k-fold cross validation）

相關推薦