Scikit-Learn學習筆記——模型驗證與超引數網格搜尋

阿新 • • 發佈：2019-02-17

超引數與模型驗證

模型驗證就是在選擇模型和超引數之後，通過對訓練資料進行學習，對比模型對已知資料的預測值與實際值的差異。模型驗證的正確方法是使用留出集評估模型效能，即先從訓練模型中的資料中留出一部分，然後用這部分留出來的資料檢驗模型效能。

但是，使用留出集使得模型失去了一部分訓練機會，解決這個問題的方法是交叉驗證,也就是做一組擬合，讓資料的每個子集既是訓練集，又是驗證集。

#使用sklearn API實現交叉驗證
#使用k近鄰分類器，資料是鳶尾花資料集
from sklearn.datasets import load_iris
from sklearn.cross_validation import 
 cross_val_score
from sklearn.neighbors import KNeighborsClassifier

iris = load_iris()
x = iris.data
y = iris.target
model = KNeighborsClassifier(n_neighbors=1)
cross_val_score(model, x, y, cv=5)

#輸出結果
Out[20]: array([0.96666667, 0.96666667, 0.93333333, 0.93333333, 1.        ])

Scikit-Learn為不同的應用場景提供了各種交叉驗證方法，都以迭代器形式在corss_validation模組中實現。例如，我們每次只用一個樣本做測試，其他樣本全用於訓練。這種交叉檢驗型別成為LOO（leave-one-out）交叉驗證。

from sklearn.cross_validation import LeaveOneOut
scores = cross_val_score(model, x, y, cv=LeaveOneOut(len(x)))
scores.mean()

#輸出結果
0.96

選擇最優模型

“最優模型”的問題基本上可以看成是找出偏差和方差的平衡點的問題。使用複雜度較低的模型（高偏差）時，訓練資料往往欠擬合，說明模型對訓練資料和新資料都缺乏預測能力。而使用複雜度較高的模型（高方差）時，訓練資料往往過擬合，說明模型對訓練資料預測能力強，但是對新資料的預測能力很很差。當使用複雜度適中的模型時，驗證曲線得分很高。說明再該模型複雜度條件下，偏差與方差達到均衡狀態。

scikit-learn驗證曲線

#用三種多項式迴歸模型來擬合同一份資料
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline

#使用管道命令來實現一個帶多項式前處理器的簡單線性迴歸模型
def PolynomialRegression(degree=2, **kwargs):
    return make_pipeline(PolynomialFeatures(degree), LinearRegression(**kwargs))

#產生資料
import numpy as np
def make_data(N, err=1.0, rseed=1):
    rng = np.random.RandomState(rseed)
    X = rng.rand(N, 1) ** 2
    y = 10 - 1./(X.ravel() + 0.1)
    if err > 0:
        y += err * rng.randn(N)
    return X, y
X,y = make_data(40)

#視覺化資料和三種多項式擬合曲線
%matplotlib inline 
import matplotlib.pyplot as plt
import seaborn; seaborn.set()

x_test = np.linspace(-0.1, 1.1, 500)[:, None]
plt.scatter(X.ravel(), y, color='black')
axis = plt.axis()
for degree in [1,3,5]:
    y_predict = PolynomialRegression(degree).fit(X, y).predict(x_test)
    plt.plot(x_test.ravel(), y_predict, '-c',label='degree={0}'.format(degree))
plt.xlim(-0.1, 1.0)
plt.ylim(-2, 12)
plt.legend(loc='best')

這裡寫圖片描述

#利用validation_curve函式視覺化驗證曲線。只要提供模型、資料、引數和驗證範圍資訊，
#函式就能自動計算驗證範圍內的訓練得分和驗證得分
from sklearn.learning_curve import validation_curve
degree = np.arange(0, 21)
train_score, val_score = validation_curve(PolynomialRegression(), X, y, 
                                          'polynomialfeatures__degree', degree, cv=7)
plt.plot(degree, np.median(train_score, 1), color='blue', label='training score')
plt.plot(degree, np.median(val_score, 1), color='red', label='validation score')
plt.legend(loc='best')
plt.ylim(0, 1)
plt.xlabel('degree')
plt.ylabel('score')

這裡寫圖片描述

學習曲線

反映訓練集規模的訓練得分/驗證的得分曲線被稱為學習曲線，學習曲線的特徵包括以下三點：

特定複雜度的模型對較小的資料集容易過擬合：此時訓練得分較高，驗證得分較低。

特定複雜度的模型對較大的資料集容易欠擬合：隨著資料的增大，訓練得分會不斷降低，而驗證的份額你會不斷升高

模型的驗證集得分不會高於訓練得分：兩條曲線一直在靠近，但永遠不會交叉。

最重要的特徵是，隨著訓練樣本數量的增加，分數會收斂到定值。因此，一旦你的資料多到使模型得分已經收斂，那麼增加更多的訓練樣本也無濟於事！改善模型效能的唯一方法就是換模型。

#計算不同多項式階數下模型的學習曲線
from sklearn.learning_curve import learning_curve
fig, ax = plt.subplots(1,2,figsize=(16, 6))
fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1)
for i, degree in enumerate([2,9]):
    N, train_lc, val_lc = learning_curve(PolynomialRegression(degree), X, y, cv=7,
                                         train_sizes=np.linspace(0.3, 1, 25))
    ax[i].plot(N, np.mean(train_lc, 1), color='blue', label='tranning score')
    ax[i].plot(N, np.mean(val_lc, 1), color='red', label='validation score')
    ax[i].hlines(np.mean([train_lc[-1], val_lc[-1]]), N[0], N[-1], color='gray', linestyle='dashed')
    ax[i].set_ylim(0,1)
    ax[i].set_xlim(N[0], N[-1])
    ax[i].set_xlabel('trainning size')
    ax[i].set_ylabel('score')
    ax[i].set_title('degree={0}'.format(degree), size=14)
    ax[i].legend(loc='best')

這裡寫圖片描述

選擇模型的超引數

上面的例子只比較了多項式次數為2和9時的學習曲線，實際情況是改變學習曲線的因素不只有多項式次數這一種變數，這使得搜尋最佳的模型超引數變得困難複雜。Scikit-Learn的grid_search提供了一個自動化工具解決這個問題。下面使用網格搜尋尋找最優多項式迴歸模型的示例。我們將在模型特徵的三維網路中尋找最優值——包括多項式的次數的搜尋範圍，迴歸模型時候符合截距，以及迴歸模型是否需要進行標準化處理。

from sklearn.grid_search import GridSearchCV
param_grid = {'polynomialfeatures__degree':np.arange(21),
              'linearregression__fit_intercept':[True, False],
              'linearregression__normalize': [True, False]}
grid = GridSearchCV(PolynomialRegression(), param_grid, cv=7)

#呼叫fit()方法在每個網格點上擬合模型，並同時記錄每個點的得分
grid.fit(X, y);
print(grid.best_params_)

#輸出結果
{'linearregression__fit_intercept': False, 'linearregression__normalize': True, 'polynomialfeatures__degree': 4}

model = grid.best_estimator_

#繪製最優模型下的擬合曲線
plt.scatter(X.ravel(), y)
lim = plt.axis()
y_test = model.fit(X, y).predict(x_test)
plt.plot(x_test.ravel(), y_test, hold=True)
plt.axis(lim);

這裡寫圖片描述

Scikit-Learn學習筆記——模型驗證與超引數網格搜尋

超引數與模型驗證模型驗證就是在選擇模型和超引數之後，通過對訓練資料進行學習，對比模型對已知資料的預測值與實際值的差異。模型驗證的正確方法是使用留出集評估模型效能，即先從訓練模型中的資料中留出一部分，然後用這部分留出來的資料檢驗模型效能。但是

[機器學習]Scikit-Learn學習筆記03——Scikit-Learn資料模型

Scikit-Learn提供了比較全的資料集,主要分為以下幾類 1. 自帶的小資料集（packaged dataset） 2. 線上下載的資料集（Downloaded Dataset） 3. 生成的資料集（Generated Dataset) 4. svm

Python scikit-learn 學習筆記—鳶尾花模型

鳶尾花資料是一個簡易有趣的資料集。這個資料集來源於科學家在一島上找到一種花的三種不同亞類別，分別叫做setosa,versicolor,virginica。但是這三個種類並不是很好分辯，所以他們又從花萼長度，花萼寬度，花瓣長度，花瓣寬度這四個角度測量不同的種類用於定量分

【SciKit-Learn學習筆記】5：核SVM分類和預測乳腺癌資料集

學習《scikit-learn機器學習》時的一些實踐。常用引數引數C SVM分類器svm.SVC()中的引數C即SVM所優化的目標函式 a

【SciKit-Learn學習筆記】8：k-均值演算法做文字聚類,聚類演算法效能評估

學習《scikit-learn機器學習》時的一些實踐。原理見K-means和K-means++的演算法原理及sklearn庫中引數解釋、選擇。 sklearn中的KMeans from sklearn.datasets import make_blobs from m

【SciKit-Learn學習筆記】7：PCA結合SVM做AT&T資料集人物影象分類

學習《scikit-learn機器學習》時的一些實踐。原理見PCA及繪製降維與恢復示意圖。 sklearn的PCA sklearn中包裝的PCA也是不帶有歸一化和縮放等預處理操作的，可以用MinMaxScaler()實現並裝在Pipeline裡封裝起來。 from

【SciKit-Learn學習筆記】6：樸素貝葉斯做文件分類並繪製混淆矩陣

學習《scikit-learn機器學習》時的一些實踐。條件獨立樸素即指的是條件獨立假設，假設n個特徵之間不相關，則可據聯合概率的條件展開式： p

【SciKit-Learn學習筆記】4：決策樹擬合泰坦尼克號資料集並提交到Kaggle

學習《scikit-learn機器學習》時的一些實踐。決策樹擬合泰坦尼克號資料集這裡用繪製引數-score曲線的方式去直觀看出模型引數對模型得分的影響，作者使用了GridSearchCV來自動做k-fold交叉驗證，並且能在多組模型引數中找到最優的一組和最優值（用平均s

【SciKit-Learn學習筆記】3：線性迴歸測算波士頓房價,Logistic迴歸預測乳腺癌

學習《scikit-learn機器學習》時的一些實踐。線性迴歸這部分和第一篇筆記"繪製隨機波動樣本的學習曲線 "部分基本類似。線性迴歸裡可以加入多項式特徵，以對模型做增強。線性迴歸增加多項式特徵,擬合sin函式 import numpy as np impor

【SciKit-Learn學習筆記】2：kNN分類/迴歸,在糖尿病資料集上的表現

學習《scikit-learn機器學習》時的一些實踐。 kNN分類在三個點周圍生成聚類樣本，然後做的kNN分類。這種把標準差取得好（不要太小），得到的就不一定是線性可分的資料了。比如圖上右側有個玫紅點和藍點交錯。 from sklearn.datasets.sa

【SciKit-Learn學習筆記】1：SVM預測digits資料集,繪製隨機波動樣本的學習曲線

學習《scikit-learn機器學習》時的一些實踐。 SVM預測digits資料集 sklearn裡的各種模型物件統一了介面，fit()做訓練，predit()做預測，用score()獲得對模型測試結果的打分。這裡的打分不是acc，應該是決定係數。檢視資料形式

ML：Scikit-Learn 學習筆記（3） --- Nearest Neighbors 最近鄰迴歸及相關演算法

1 最近鄰迴歸最近鄰迴歸是用在標籤值是連續取值的場景智商的，而不是離散取值，而是用最近鄰迴歸進行查詢的點，最後得到的結果是其所有最近鄰居的平均值。 scikit-learn 在迴歸部分，同樣實現了兩種迴歸演算法，和之前的一樣，和KNN思想近似的KNeigh

scikit-learn學習筆記（四）Ridge Regression ( 嶺迴歸 )

嶺迴歸通過對係數的大小施加懲罰來解決普通最小二乘的一些問題。 ridge coefficients ( 嶺係數 ) 最小化了懲罰的殘差平方和，這裡，是控制收縮量的複雜度引數：值越大，收縮量越大，因此係數變得對共線性變得更加魯棒。與其他線性模型一樣，Ridg

機器學習筆記--模型評估與選擇

經驗誤差與過擬合錯誤率：m個樣本中有a個樣本分類錯誤：a/m. 精度：(1−a/m)∗100% 誤差：實際預測輸出與樣本真實輸出之間的差異訓練集上：訓練誤差（training error）新樣本上：泛化誤差（generalization erro

scikit-learn學習筆記

參考資料： http://nbviewer.jupyter.org/github/donnemartin/data-science-ipython-notebooks/blob/master/kaggle/titanic.ipynb https://gith

機器學習-學習筆記模型評估與選擇

經驗誤差與過擬合瞭解錯誤率，精度，誤差，訓練誤差（經驗誤差），泛化誤差的概念過擬合(過配)和欠擬合(欠配) 過擬合就是過度擬合，即將樣本自身的一些特點當做了樣本的一般特性，使得泛化能力降低，注意，過擬合無法避免。欠擬合則與之相反。

scikit-learn 學習筆記（一）

其實前一陣一直在看《機器學習系統設計》，但是發現書上程式碼不全，不好復現，而且書針對的主要是文字的處理，正好是我最不關心的方向，所以看到一半忍痛棄坑。那麼我們開始scikit-learn文件學習的旅程吧。 1. 線性模型我對於線性模型的理解就是，將一系列的已知點回歸到一個

sklearn scikit-learn學習筆記（持續更新）

在最近的課題中，發現了機器學習的神器，sklearn，寫一些簡單的分類器對資料進行分類簡直不要舒服本部落格是我在學習官方文件的時候的一些個人的筆記，由於我只關注一些自己見過的方法的呼叫，所以本文僅供參考，建議英語過關的還是要自己看官方文件http://scikit-learn

Tensorflow學習筆記--模型儲存與調取

注：本文主要通過莫煩的python學習視訊記錄的內容，如果喜歡請支援莫煩python。謝謝目前tf的模型儲存其實只是引數儲存，所以儲存檔案時你特別要主要以下幾點： 1、一定要設定好引數的資料型別！

Scikit-Learn學習筆記——k-means聚類：影象識別、色彩壓縮

k-means聚類 k-means是一種無監督學習模型——聚類演算法的一種演算法。k-means演算法可以在不帶標籤的多維資料集中尋找確定數量的簇。最優的聚類結果需要符合一下兩個假設 “簇中心點“是屬於該簇的所有資料點座標的算術平

Scikit-Learn學習筆記——模型驗證與超引數網格搜尋

超引數與模型驗證

選擇最優模型

scikit-learn驗證曲線

學習曲線

選擇模型的超引數

相關推薦