sklearn.model_selection

阿新 • • 發佈：2020-07-09

一、交叉驗證

1.from sklearn.model_selection import train_test_split

該功能可以快速將資料隨機分為訓練集和測試集

#官方示例，使用鳶尾花的資料集
import numpy as np
from sklearn.datasets  import load_iris
from sklearn import svm #支援向量機
from sklearn.model_selection import train_test_split

x,y=load_iris(return_X_y=True)
x_train,x_test,y_train,y_test 
=train_test_split(x,y,test_size=0.4,random_state=0)
x_train.shape,y_train.shape
clf=svm.SVC(kernel='linear',C=1).fit(x_train,y_train)
clf.score(x_test,y_test)

2.from sklearn.model_selection import cross_val_score

交叉驗證的方法

#擬合模型並連續5次計算分數（每次都有不同的分割）
from sklearn.model_selection import cross_val_score
clf 
=svm.SVC(kernel='linear',C=1)
scores=cross_val_score(clf,x,y,cv=5)
scores # array([0.96666667, 1.        , 0.96666667, 0.96666667, 1.        ])

平均得分和得分估計值的95％置信區間由下式給出:

print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2)) #Accuracy: 0.98 (+/- 0.03)

交叉驗證過程：

即是將資料集分為n份，n-1份為訓練集，1份為測試集，這樣迴圈計算n次，最後將n次結果求平均值

3.from sklearn.model_selection import GridSearchCV 網格搜尋

sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose=0, pre_dispatch=‘2*n_jobs’, error_score=’raise’, return_train_score=’warn’)

引數：

1.estimator：可認為是模型

2.param_grid ：指定引數

屬性：

1.cv_results_：交叉驗證結果

2.best_estimator_：最佳模型

3.best_score_：最佳模型的分數

4.best_params_ ：最佳引數設定

5.scorer_：分數

6.利用最佳模型來進行預測:

best_model=grid.best_estimator_

predict_y=best_model.predict(Test_X)

metrics.f1_score(y, predict_y)

sklearn.model_selection

一、交叉驗證 1.from sklearn.model_selection import train_test_split 該功能可以快速將資料隨機分為訓練集和測試集

sklearn.model_selection.learning_curve學習曲線

這個函式的作用為：對於不同大小的訓練集，確定交叉驗證訓練和測試的分數。一個交叉驗證發生器將整個資料集分割k次，分割成訓練集和測試集。不同大小的訓練集的子集將會被用來訓練評估器並且對於每一個大小的訓練子集

sklearn.model_selection.RandomizedSearchCV隨機搜尋超引數

GridSearchCV可以保證在指定的引數範圍內找到精度最高的引數，但是這也是網格搜尋的缺陷所在，它要求遍歷所有可能引數的組合，在面對大資料集和多引數的情況下，非常耗時。這也是我通常不會使用GridSearchCV的原因，

【python】解決報錯：沒有sklearn.cross_validation模組，sklearn.model_selection模組的

技術標籤：python 問題 Python指令碼報錯 ModuleNotFoundError: No module named ‘sklearn.cross_validation

sklearn.model_selection.GridSearchCV

目錄 1. GridSearchCV 簡介 2. GridSearchCV 引數 3. 常用方法、屬性 \\(sklearn\\) 官網中的 GridSearchCV。

sklearn-SVC實現與類引數詳解

sklearn-SVC實現與類引數對應的API：http://scikit-learn.sourceforge.net/stable/modules/generated/sklearn.svm.SVC.html

python運用sklearn實現KNN分類演算法

KNN（K-Nearest-Neighbours Classiflication）分類演算法，供大家參考，具體內容如下最簡單的分類演算法，易於理解和實現

python sklearn常用分類演算法模型的呼叫

本文例項為大家分享了python sklearn分類演算法模型呼叫的具體程式碼，供大家參考，具體內容如下

深入淺析Python 中的sklearn模型選擇

1.主要功能如下： 1.classification分類 2.Regression迴歸 3.Clustering聚類 4.Dimensionality reduction降維

python使用sklearn實現決策樹的方法示例

1. 基本環境安裝 anaconda 環境，由於國內登陸不了他的官網 https://www.continuum.io/downloads,不過可以使用國內的映象站點： https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

OpenCV python sklearn隨機超引數搜尋的實現

本文介紹了OpenCV python sklearn隨機超引數搜尋的實現，分享給大家，具體如下：

K最近鄰演算法(KNN)---sklearn+python實現方式

k-近鄰演算法概述簡單地說，k近鄰演算法採用測量不同特徵值之間的距離方法進行分類。

sklearn+python:線性迴歸案例

使用一階線性方程預測波士頓房價載入的資料是隨sklearn一起釋出的，來自boston 1993年之前收集的506個房屋的資料和價格。load_boston()用於載入資料。

Python sklearn庫實現PCA教程(以鳶尾花分類為例)

PCA簡介主成分分析（Principal Component Analysis，PCA）是最常用的一種降維方法，通常用於高維資料集的探索與視覺化，還可以用作資料壓縮和預處理等。矩陣的主成分就是其協方差矩陣對應的特徵向量，按照對應的特

python sklearn包——混淆矩陣、分類報告等自動生成方式

preface：做著最近的任務，對資料處理，做些簡單的提特徵，用機器學習演算法跑下程式得出結果，看看哪些特徵的組合較好，這一系列流程必然要用到很多函式，故將自己常用函式記錄上。應該說這些函式基本上都會用到，像

使用sklearn的cross_val_score進行交叉驗證例項

在構建模型時，調參是極為重要的一個步驟，因為只有選擇最佳的引數才能構建一個最優的模型。但是應該如何確定引數的值呢？所以這裡記錄一下選擇引數的方法，以便後期複習以及分享。

詳解基於Jupyter notebooks採用sklearn庫實現多元迴歸方程程式設計

一、匯入excel檔案和相關庫 import pandas; import matplotlib; from pandas.tools.plotting import scatter_matrix;

python實現密度聚類(模板程式碼+sklearn程式碼)

本人在此就不搬運書上關於密度聚類的理論知識了，僅僅實現密度聚類的模板程式碼和呼叫skelarn的密度聚類演算法。

python中sklearn的pipeline模組例項詳解

最近在看《深度學習：基於Keras的Python實踐（魏貞原）》這本書，書中8.3建立了一個Scikit-Learn的Pipeline，首先標準化資料集，然後建立和評估基線神經網路模型，程式碼如下：

python實點雲分割k-means(sklearn)詳解

本文例項為大家分享了Python實點雲分割k-means（sklearn），供大家參考，具體內容如下

sklearn.model_selection

相關推薦