交叉驗證 python

阿新 • • 發佈：2019-02-18

以下簡稱交叉驗證(Cross Validation)為CV.CV是用來驗證分類器的效能一種統計分析方法,基本思想是把在某種意義下將原始資料(dataset)進行分組,一部分做為訓練集(train set),另一部分做為驗證集(validation set),首先用訓練集對分類器進行訓練,在利用驗證集來測試訓練得到的模型(model),以此來做為評價分類器的效能指標.常見CV的方法如下:
K次交叉檢驗（K-Fold Cross Validation）：
K次交叉檢驗的大致思想是將資料大致分為K個子樣本，每次取一個樣本作為驗證資料，取餘下的K-1個樣本作為訓練資料

from sklearn.model_selection import KFold
import numpy as np
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]] 
)
y = np.array([1, 2, 3, 4])
kf = KFold(n_splits=2)

for train_index, test_index in kf.split(X):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

Stratified k-fold：
StratifiedKFold()這個函式較常用，比KFold的優勢在於將k折資料按照百分比劃分資料集，每個類別百分比在訓練集和測試集中都是一樣，這樣能保證不會有某個類別的資料在訓練集中而測試集中沒有這種情況，同樣不會在訓練集中沒有全在測試集中，這樣會導致結果糟糕透頂。

from sklearn.model_selection import StratifiedKFold
import numpy as np

X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([0, 0, 1, 1])
skf = StratifiedKFold(n_splits=2)
for train_index, test_index in skf.split(X, y):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

train_test_split:(這個目前用的比較多）

隨機根據比例分配訓練集和測試集。這個函式可以調整隨機種子。

import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5, 2)), range(5)

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42)

交叉驗證 python

機器學習-交叉驗證 : python資料集劃分

K折交叉驗證-python

機器學習-CrossValidation交叉驗證Python實現

CS231n-assignment1 K-fold 交叉驗證 python 中字典的用法

交叉驗證 python

python實現周志華西瓜書《機器學習》習題3.4 對比10折交叉驗證和留一法的對率迴歸錯誤率

機器學習基礎：(Python)訓練集測試集分割與交叉驗證

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：多引數尋優

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：單一引數尋優

python交叉驗證以及將全部資料分類訓練集和測試集（分類）

CrossValidation十字交叉驗證的Python實現

交叉驗證原理及Spark MLlib使用例項(Scala/Java/Python)

python機器學習——十次交叉驗證訓練的資料準備演算法

k-fold cross validation（k-摺疊交叉驗證）,python pandas （ix & iloc &loc）的區別

[讀書筆記] 《Python 機器學習》- 使用巢狀交叉驗證進行模型選擇

python迴歸模型的評估與交叉驗證

用交叉驗證改善模型的預測表現(適用於Python和R)

Python分類演算法交叉驗證

Python機器學習庫sklearn網格搜尋與交叉驗證

【機器學習】交叉驗證、正則化例項Python程式碼實現

交叉驗證 python

相關推薦