機器學習為什麼需要交叉驗證？怎麼使用k-fold cross validation（k-摺疊交叉驗證）

阿新 • • 發佈：2019-01-09

介紹這個非常重要的概念，希望在訓練演算法時能幫助各位。

概念和思維解讀

叉驗證的目的：在實際訓練中，模型通常對訓練資料好，但是對訓練資料之外的資料擬合程度差。用於評價模型的泛化能力，從而進行模型選擇。

交叉驗證的基本思想：把在某種意義下將原始資料(dataset)進行分組,一部分做為訓練集(train set),另一部分做為驗證集(validation set or test set),首先用訓練集對模型進行訓練,再利用驗證集來測試模型的泛化誤差。另外，現實中資料總是有限的，為了對資料形成重用，從而提出k-摺疊交叉驗證。

對於個分類或迴歸問題，假設可選的模型為。k-摺疊交叉驗證就是將訓練集的1/k作為測試集，每個模型訓練k次，測試k次，錯誤率為k次的平均，最終選擇平均率最小的模型Mi。

1、將全部訓練集S分成k個不相交的子集，假設S中的訓練樣例個數為m，那麼每一個子集有m/k個訓練樣例，相應的子集稱作{}。

2、每次從模型集合M中拿出來一個，然後在訓練子集中選擇出k-1個

{}（也就是每次只留下一個），使用這k-1個子集訓練後，得到假設函式。最後使用剩下的一份作測試，得到經驗錯誤。

3、由於我們每次留下一個（j從1到k），因此會得到k個經驗錯誤，那麼對於一個，它的經驗錯誤是這k個經驗錯誤的平均。

4、選出平均經驗錯誤率最小的，然後使用全部的S再做一次訓練，得到最後的。

程式碼使用案例

一、選擇正確的Model基礎驗證法

from sklearn.datasets import load_iris # iris資料集   

from sklearn.model_selection import train_test_split # 分割資料模組  
from sklearn.neighbors import KNeighborsClassifier # K最近鄰(kNN，k-NearestNeighbor)分類演算法  
#載入iris資料集  
iris = load_iris()  
X = iris.data  
y = iris.target  
#分割資料並  
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=4)  
#建立模型   

knn = KNeighborsClassifier()  
#訓練模型  
knn.fit(X_train, y_train)  
#將準確率打印出  
print(knn.score(X_test, y_test))  
# 0.973684210526     基礎驗證的準確率

二、選擇正確的Model交叉驗證法（Cross-validation）

cv= 5

from sklearn.cross_validation import cross_val_score # K折交叉驗證模組  
#使用K折交叉驗證模組  
scores = cross_val_score(knn, X, y, cv=5, scoring='accuracy')  
#將5次的預測準確率打印出  
print(scores)  
# [ 0.96666667  1.          0.93333333  0.96666667  1.        ]  
#將5次的預測準確平均率打印出  
print(scores.mean())  
# 0.973333333333

三、準確率和平均方差

一般來說準確率(accuracy)會用於判斷分類(Classification)模型的好壞。

import matplotlib.pyplot as plt #視覺化模組  
#建立測試引數集  
k_range = range(1, 31)  
k_scores = []  
#藉由迭代的方式來計算不同引數對模型的影響，並返回交叉驗證後的平均準確率  
for k in k_range:  
    knn = KNeighborsClassifier(n_neighbors=k)  
    scores = cross_val_score(knn, X, y, cv=10, scoring='accuracy')  
    k_scores.append(scores.mean())  
#視覺化資料  
plt.plot(k_range, k_scores)  
plt.xlabel('Value of K for KNN')  
plt.ylabel('Cross-Validated Accuracy')  
plt.show()



結果如圖，從圖中可以得知，選擇12~18的k值最好。高過18之後，準確率開始下降則是出現過擬合了。



一般來說平均方差(Mean squared error)會用於判斷迴歸(Regression)模型的好壞。

import matplotlib.pyplot as plt  
k_range = range(1, 31)  
k_scores = []  
for k in k_range:  
    knn = KNeighborsClassifier(n_neighbors=k)  
    loss = -cross_val_score(knn, X, y, cv=10, scoring='mean_squared_error')  
    k_scores.append(loss.mean())  
plt.plot(k_range, k_scores)  
plt.xlabel('Value of K for KNN')  
plt.ylabel('Cross-Validated MSE')  
plt.show()


結果如下圖，當K取13~20時，平方誤差最小，模型最好。

機器學習為什麼需要交叉驗證？怎麼使用k-fold cross validation（k-摺疊交叉驗證）

介紹這個非常重要的概念，希望在訓練演算法時能幫助各位。概念和思維解讀叉驗證的目的：在實際訓練中，模型通常對訓練資料好，但是對訓練資料之外的資料擬合程度差。用於評價模型的泛化能力，從而進行模型選擇。交叉驗

【機器學習】k-fold cross validation（k-摺疊交叉驗證）

交叉驗證的目的：在實際訓練中，模型通常對訓練資料好，但是對訓練資料之外的資料擬合程度差。用於評價模型的泛化能力，從而進行模型選擇。交叉驗證的基本思想：把在某種意義下將原始資料(dataset)進行分組,一部分做為訓練集(train set),另一部分做為驗證集(valid

k-fold cross validation（k-摺疊交叉驗證）,python pandas （ix & iloc &loc）的區別

交叉驗證的目的：在實際訓練中，模型通常對訓練資料好，但是對訓練資料之外的資料擬合程度差。用於評價模型的泛化能力，從而進行模型選擇。交叉驗證的基本思想：把在某種意義下將原始資料(dataset)進行分組,一部分做為訓練集(train set),另一部分做為驗證集(validat

機器學習模型評測：holdout cross-validation & k-fold cross-validation

cross-validation：從 holdout validation 到 k-fold validation 2016年01月15日 11:06:00 Inside_Zhang 閱讀數：4445 版權宣告：本文為博主原創文章，未經博主允許不得轉載。 https://

關於K-fold cross validation 下不同的K的選擇的疑惑？

在K-fold cross validation 下比較不同的K的選擇對於引數選擇（模型引數，CV意義下的估計的泛化誤差）以及實際泛化誤差的影響。更一般的問題，在實際模型選擇問題中，選擇幾重交叉驗證比較合適？交叉驗證的背景知識： CV是用來驗證模型假設（hypoth

吳恩達機器學習筆記 —— 19 應用舉例：照片OCR（光學字符識別）

參考 https ocr 噪聲也說字符 www. 定位 cnblogs http://www.cnblogs.com/xing901022/p/9374258.html 本章講述的是一個復雜的機器學習系統，通過它可以看到機器學習的系統是如何組裝起來的；另外也說明了一

【機器學習筆記02】最小二乘法（多元線性迴歸模型）

數學基礎 1.轉置矩陣定義：將矩陣A同序數的行換成列成為轉置矩陣ATA^TAT，舉例： A=(1203−11)A=\begin{pmatrix} 1 & 2 & 0 \\ 3 & -1 &

【機器學習筆記01】最小二乘法（一元線性迴歸模型）

【參考資料】【1】《概率論與數理統計》【2】 http://scikit-learn.org /stable/auto_examples/ linear_model/ plot_ols.html # sphx-glr-auto-examples-

吳恩達機器學習筆記26-樣本和直觀理解2（Examples and Intuitions II）

分享圖片筆記 inf 運算構造 alt binary bin 選擇二元邏輯運算符（BINARY LOGICAL OPERATORS）當輸入特征為布爾值（0 或1）時，我們可以用一個單一的激活層可以作為二元邏輯運算符，為了表示不同的運算符，我們只需要選擇不同的權重即可。

吳恩達機器學習筆記26-樣本和直觀理解1（Examples and Intuitions I）

下半部區別 img 二層輸出變量利用真值表特征舉例　　從本質上講，神經網絡能夠通過學習得出其自身的一系列特征。在普通的邏輯回歸中，我們被限制為使用數據中的原始特征??1, ??2, . . . , ????，我們雖然可以使用一些二項式項來組合這些特征，但是我們

機器學習 scikit-learn7 - 預測貸款使用者是否會逾期 - 網路搜尋交叉驗證

網路搜尋 - 目錄 1 說明 2 程式碼使用方法 3 核心程式碼說明 3.1 交叉驗證 TODO 3.2 使用網路搜尋獲得最優的引數 3.2.1 邏輯迴歸 4 問題 1 說

《機器學習實戰》中的程序清單2-1 k近鄰算法classify0都做了什麽

列表關鍵字難解 items 位置 class 做了 ict top k def start(): group,labels = createDataSet() return classify0([3,3], group, l

機器學習需要了解的知識

目錄什麼是機器學習：機器學習基本演算法機器學習，人工智慧，深度學習三者之間的關係機器學習的分類（）監督學習非監督學習半監督學習增強學習課程使用的資料集課程不涵蓋的內容機器學習和線性代數機器

機器學習——K-均值聚類（K-means）演算法

本文轉載自：https://www.cnblogs.com/ybjourney/p/4714870.html 一 K-均值聚類（K-means）概述聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相似，各類之間的資料相

機器學習需要的數學總結

數學知識數學知識總括微積分(高等數學) 線性代數概率論與數理統計凸優化微積分微積分學，數學中的基礎分支。內容主要包括函式、極限、微分學、積

機器學習需要了解的幾個問題

推薦系統：　　1.冷啟動熱啟動區別和聯絡？各個階段需要的演算法？　　2.每個演算法的數學推導、適用情況、優缺點、改進方法、資料型別？　　3.如何平衡熱啟動時的準確率和召回率，兩者不可能同時高，怎麼平衡？從演算法本身還是業務層面？驚喜度怎麼新增？　　4.如何評價推薦系統的好壞？指標是啥？ &n

《機器學習實戰》第2章閱讀筆記2 K近鄰演算法實現（附詳細程式碼及註釋）

虛擬碼如下：對未知類別屬性的資料集中的每個點一次執行以下操作：（1）計算已知類別資料集中的點與當前點之間的距離；（2）按照距離遞增次序排序；（3）選取與當前點距離最小的k個點；（4）確定前k個點所在類別出現的頻率（5）返回前k個點出現頻率最高的類

《機器學習實戰》第2章閱讀筆記1 K近鄰演算法概述

K近鄰演算法採用測量不同特徵值之間的距離方法進行分類。 K-近鄰演算法工作原理：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中的每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類的對應關係。輸入每一標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較，然後提取

機器學習實戰（一）k-近鄰演算法kNN（k-Nearest Neighbor）

目錄 0. 前言簡單案例學習完機器學習實戰的k-近鄰演算法，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心的~ 0. 前言 k-近鄰演算法kNN（k-Neare

機器學習實戰---讀書筆記：第10章利用K均值聚類演算法對未標註資料分組---1

#!/usr/bin/env python # encoding: utf-8 import os from matplotlib import pyplot as plt from numpy import * ''' 讀書筆記之--<<機器學習實戰>>--第10章_

機器學習為什麼需要交叉驗證？怎麼使用k-fold cross validation（k-摺疊交叉驗證）

相關推薦