機器學習sklearn（二十一）：模型評估（一）交叉驗證：評估估算器的表現（一）簡介

阿新 • • 發佈：2021-06-19

學習預測函式的引數，並在相同資料集上進行測試是一種錯誤的做法: 一個僅給出測試用例標籤的模型將會獲得極高的分數，但對於尚未出現過的資料它則無法預測出任何有用的資訊。這種情況稱為overfitting（過擬合）. 為了避免這種情況，在進行（監督）機器學習實驗時，通常取出部分可利用資料作為test set（測試資料集）X_test, y_test。需要強調的是這裡說的 “experiment(實驗)” 並不僅限於學術（academic），因為即使是在商業場景下機器學習也往往是從實驗開始的。下面是模型訓練中典型的交叉驗證工作流流程圖。通過網格搜尋可以確定最佳引數。

利用 scikit-learn 包中的

train_test_split輔助函式可以很快地將實驗資料集劃分為任何訓練集（training sets）和測試集（test sets）。下面讓我們載入 iris 資料集，並在此資料集上訓練出線性支援向量機:

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> from sklearn import datasets
>>> from sklearn import svm

>>> iris = datasets.load_iris()
 
>>> iris.data.shape, iris.target.shape
((150, 4), (150,))

我們能快速取樣到原資料集的 40% 作為測試集，從而測試（評估）我們的分類器:

>>> X_train, X_test, y_train, y_test = train_test_split(
...     iris.data, iris.target, test_size=0.4, random_state=0)

>>> X_train.shape, y_train.shape
((90, 4), (90,))
>>> X_test.shape, y_test.shape
(( 
60, 4), (60,))

>>> clf = svm.SVC(kernel='linear', C=1).fit(X_train, y_train)
>>> clf.score(X_test, y_test)                           
0.96...

當評價估計器的不同設定（”hyperparameters(超引數)”）時，例如手動為 SVM 設定的C引數，由於在訓練集上，通過調整引數設定使估計器的效能達到了最佳狀態；但在測試集上可能會出現過擬合的情況。此時，測試集上的資訊反饋足以顛覆訓練好的模型，評估的指標不再有效反映出模型的泛化效能。為了解決此類問題，還應該準備另一部分被稱為 “validation set(驗證集)” 的資料集，模型訓練完成以後在驗證集上對模型進行評估。當驗證集上的評估實驗比較成功時，在測試集上進行最後的評估。

然而，通過將原始資料分為3個數據集合，我們就大大減少了可用於模型學習的樣本數量，並且得到的結果依賴於集合對（訓練，驗證）的隨機選擇。

這個問題可以通過交叉驗證（CV ）來解決。交叉驗證仍需要測試集做最後的模型評估，但不再需要驗證集。

最基本的方法被稱之為，k-折交叉驗證。 k-折交叉驗證將訓練集劃分為 k 個較小的集合（其他方法會在下面描述，主要原則基本相同）。每一個k折都會遵循下面的過程：

將份訓練集子集作為 training data （訓練集）訓練模型，
將剩餘的 1 份訓練集子集用於模型驗證（也就是把它當做一個測試集來計算模型的效能指標，例如準確率）。

k-折交叉驗證得出的效能指標是迴圈計算中每個值的平均值。該方法雖然計算代價很高，但是它不會浪費太多的資料（如固定任意測試集的情況一樣），在處理樣本資料集較少的問題（例如，逆向推理）時比較有優勢。

機器學習sklearn（二十一）：模型評估（一）交叉驗證：評估估算器的表現（一）簡介

機器學習sklearn（十二）：特徵工程（三）特徵組合與交叉（一）多項式特徵

機器學習sklearn（十六）：特徵工程（七）特徵選擇（二）卡方選擇（一）卡方檢驗

機器學習sklearn（二十）：特徵工程（十一）特徵編碼（五）類別特徵編碼（三）獨熱編碼 OneHotEncoder

機器學習sklearn（二十一）：模型評估（一）交叉驗證：評估估算器的表現（一）簡介

機器學習sklearn（三十二）：演算法例項（一）分類（一）分類決策樹（一）簡介

機器學習sklearn（57）：演算法例項（十四）分類（七）邏輯迴歸（二）linear_model.LogisticRegression(一) 重要引數

機器學習sklearn（十一）：資料處理（六）非線性轉換

機器學習sklearn（十四）：特徵工程（五）特徵編碼（二）特徵雜湊(二)

機器學習sklearn（十五）：特徵工程（六）特徵選擇（一）主成分分析PCA

機器學習sklearn（十七）：特徵工程（八）特徵選擇（三）卡方選擇（二）卡方檢驗

機器學習sklearn（十八）：特徵工程（九）特徵編碼（三）類別特徵編碼（一）標籤編碼 LabelEncoder

機器學習sklearn（十九）：特徵工程（十）特徵編碼（四）類別特徵編碼（二）標籤編碼 OrdinalEncoder

機器學習sklearn（二十二）：模型評估（二）交叉驗證：評估估算器的表現（二）計算交叉驗證的指標

機器學習sklearn（三十一）：Pipeline（管道）和 FeatureUnion（特徵聯合）: 合併的評估器

機器學習sklearn（三十四）：演算法例項（三）迴歸（一）決策樹迴歸（一） DecisionTreeRegressor

機器學習sklearn（四十）：演算法例項（九）迴歸（二）隨機森林迴歸器 RandomForestRegressor

機器學習sklearn（45）：特徵工程（十二）特徵編碼（六）處理分型別特徵：編碼與啞變數/處理連續型特徵：二值化與分段

機器學習sklearn（58）：演算法例項（十五）分類（八）邏輯迴歸（三）linear_model.LogisticRegression(二) 重要引數

機器學習sklearn（72）：演算法例項（二十九）分類（十六）SVM（七）sklearn.svm.SVC（六）使用SVC時的其他考慮（選）

機器學習sklearn（75）：演算法例項（三十二）迴歸（四）線性迴歸大家族（二）多元線性迴歸LinearRegression

機器學習sklearn（二十一）： 模型評估（一）交叉驗證：評估估算器的表現（一）簡介

相關推薦

機器學習sklearn（二十一）：模型評估（一）交叉驗證：評估估算器的表現（一）簡介