python sklearn包——grid search筆記

阿新 • • 發佈：2019-02-18

Preface：演算法不夠好，需要除錯引數時必不可少。比如SVM的懲罰因子C，核函式kernel，gamma引數等，對於不同的資料使用不同的引數，結果效果可能差1-5個點，sklearn為我們提供專門除錯引數的函式grid_search。

在sklearn中以API的形式給出介紹。在離線包中函式較多，但常用為GridSearchCV()這個函式。

1.GridSearchCV:

看例子最為容易懂得使用其的方法。

sklearn包中介紹的例子：

from __future__ import print_function

from sklearn import datasets
from sklearn.cross_validation import train_test_split
from sklearn.grid_search import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.svm import SVC

print(__doc__)

# Loading the Digits dataset
digits = datasets.load_digits()

# To apply an classifier on this data, we need to flatten the image, to
# turn the data in a (samples, feature) matrix:
n_samples = len(digits.images)
X = digits.images.reshape((n_samples, -1))
y = digits.target

# Split the dataset in two equal parts
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.5, random_state=0)

# Set the parameters by cross-validation
tuned_parameters = [{'kernel': ['rbf'], 'gamma': [1e-3, 1e-4],
                     'C': [1, 10, 100, 1000]},
                    {'kernel': ['linear'], 'C': [1, 10, 100, 1000]}]

scores = ['precision', 'recall']

for score in scores:
    print("# Tuning hyper-parameters for %s" % score)
    print()

    clf = GridSearchCV(SVC(C=1), tuned_parameters, cv=5,
                       scoring='%s_weighted' % score)
    clf.fit(X_train, y_train)

    print("Best parameters set found on development set:")
    print()
    print(clf.best_params_)
    print()
    print("Grid scores on development set:")
    print()
    for params, mean_score, scores in clf.grid_scores_:
        print("%0.3f (+/-%0.03f) for %r"
              % (mean_score, scores.std() * 2, params))
    print()

    print("Detailed classification report:")
    print()
    print("The model is trained on the full development set.")
    print("The scores are computed on the full evaluation set.")
    print()
    y_true, y_pred = y_test, clf.predict(X_test)
    print(classification_report(y_true, y_pred))
    print()

其中，將引數放在列表中
tuned_parameters = [{'kernel': ['rbf'], 'gamma': [1e-3, 1e-4],
                     'C': [1, 10, 100, 1000]},
                    {'kernel': ['linear'], 'C': [1, 10, 100, 1000]}]
建立分類器clf時，呼叫GridSearchCV()函式，將上述引數列表的變數傳入函式。並且可傳入交叉驗證cv引數，設定為5折交叉驗證。對訓練集訓練完成後呼叫best_params_變數，打印出訓練的最佳引數組。

Figure ：執行結果

可以看出，其得出最佳引數組字典，還有每一次用引數組進行訓練得出的得分。最後在測試集上，給出10個類別的測試報告，對於類別0，RPF都為1,。。。。這裡使用sklearn.metrics下的classification_report()函式即可，輸入測試集真實的結果和預測的結果即返回每個類別的準確率召回率F值以及巨集平均值。

對於SVM分類器，這裡只列出線性核和RBF核，其中線性核不必用gamma這個引數，RBF核可用不同懲罰值C和不同的gamma值作為組合。上述列出的結果即可看出有哪些組合。這裡的結果是RBF核，懲罰項為10，gamma值為0.001效果最佳。滷煮以為RBF核是比較好的，但是在最近的學習中，確實是不一定，用了線性核效果更好些，但選訓練非常慢，資料集不一樣效果差很多吧，可能。

python sklearn包——grid search筆記

Preface：演算法不夠好，需要除錯引數時必不可少。比如SVM的懲罰因子C，核函式kernel，gamma引數等，對於不同的資料使用不同的引數，結果效果可能差1-5個點，sklearn為我們提供專門除錯引數的函式grid_search。在sklearn中以API的形式給

python sklearn包——cross validation筆記

preface：做實驗少不了交叉驗證，平時常用from sklearn.cross_validation import train_test_split，用train_test_split()函式將資料集分為訓練集和測試集，但這樣還不夠。當需要除錯引數的時候便要用到K-f

Python sklearn包的使用示例以及引數調優示例

coding=utf-8 !/usr/bin/env python ””’ 【說明】 1.當前sklearn版本0.18 2.sklearn自帶的鳶尾花資料集樣例：（1）樣本特徵矩陣（型別：numpy.ndarray） [[ 6.7 3. 5.2 2.3] [ 6.3

python sklearn包——混淆矩陣、分類報告等自動生成

preface：做著最近的任務，對資料處理，做些簡單的提特徵，用機器學習演算法跑下程式得出結果，看看哪些特徵的組合較好，這一系列流程必然要用到很多函式，故將自己常用函式記錄上。應該說這些函式基本上都會用到，像是資料預處理，處理完了後特徵提取、降維、訓練預測、通過混淆矩陣看

【機器學習】Python sklearn包的使用示例以及引數調優示例

# coding=utf-8 # !/usr/bin/env python ''''' 【說明】 1.當前sklearn版本0.18 2.sklearn自帶的鳶尾花資料集樣例：（1）樣本特徵矩陣（型別：numpy.ndarray） [[ 6.7 3. 5.2 2

Python sklearn包——mnist資料集下不同分類器的效能實驗

Preface：使用scikit-learn各種分類演算法對資料進行處理。 2.2、Scikit-learn的測試 scikit-learn已經包含在Anaconda中。也可以在官方下載原始碼包進行安裝。本文程式碼裡封裝瞭如下機器學習演算法，我們修改資料載入函式，即可

菜鳥新手python第一個puzzle——sklearn包（scikit-learn包）的鬥爭安裝記錄

我是如何在我的python2.7及python3.7分別連線pycharm後給自己成功安裝sklearn包的。 cmd中pip3指令執行報錯解決方法：參考https://blog.csdn.net/cjeric/article/details/73518782，使用如下命令強

[Machine Learning with Python] Cross Validation and Grid Search: An Example of KNN

Train model: from sklearn.model_selection import GridSearchCV param_grid = [ # try 6 (3×2) combinations of hyperparameters {'n_neighbors': [3,

python——pandas包的一些功能筆記

pandas series import pandas as pd from pandas import Series,DataFrame data=Series([4,7,-5,3]) data.values #以陣列的形式呈現 data=S

Python sklearn 學習筆記（快速）

近期在做預測，之前完全沒有接觸過，程式語言python也是臨時找的簡單教程學習的。昨天開始在弄sklearn，然後就各種google，找到很多blog，而且sklearn主頁也有很詳盡的介紹，但是

python閉包學習筆記三

#coding:utf-8 ''''閉包作用：封裝、程式碼複用.>>>>>>>閉包存放數值型的方式''' def func_150(val): passline = 90; if val >= passli

python lxml包學習筆記

python lxml包用於解析XML和html檔案，可以使用xpath和css定位元素，個人認為相對於BeautifulSoup功能更加強大，更加靈活。本文根據lxml官方文件和自己的理解列出常用的函式, 本文程式碼為python3.4， lxml2.0

學習筆記一、Python pip包安裝

1、下載pip安裝包下載地址https://pypi.python.org/pypi/pip#downloads ：選擇source類下載 File Type Py Version Uploaded on Size Source 2016

Python re包search函式發現的一個問題

a = re.search('3*', "3456", flags=0)c = re.search('3+', "44344445346", flags=0) search函式中正則表示式中如果是隻有一個字元以及以*表示次數的話，那麼第二個引數的字串需要以這個字元開頭，否則

python框架之 Tornado 學習筆記（一）

tornado pythontornado 一個簡單的服務器的例子：首先，我們需要安裝 tornado ，安裝比較簡單： pip install tornado 測試安裝是否成功，可以打開python 終端，輸入： import tornado.https

linux和windows下安裝python拓展包及requirement.txt安裝類庫

too tor == 引導 -cp mod flask utf addition http://blog.csdn.net/pipisorry/article/details/39902327python拓展包安裝直接安裝拓展包默認路徑：Unix(Linux)默認路徑：/

python 一個包中的文件調用另外一個包文件實例

pat def pre img end import test imp clas python不同文件夾中模塊的引用調用順序，被調用的模塊中①有類的模塊.類().方法() ②無類的：模塊.方法() test包中testIm.py 調用 test1包中testIm1.

Python網絡編程筆記一

服務端 log close logs bytes 連接 message rom 傳遞 AF_INET：IPV4 AF_INET6：IPV6 套接字類型： SOCK_STREAM：TCP SOCK_DGRAM：UDP 創建TCP套接字，也可以不傳遞參數，默認創建TCP套接

python閉包和裝飾器（轉）

lee type ade 機制並且 change -1 pri neu 一、python閉包 1、內嵌函數 >>> def func1(): ... print (‘func1 running...‘) ... def func2(

python加密包

import 第三方運行模塊 key rand 分享 code 加密利用pycrypto包進行AES、DES、MD5等加密原文: http://www.cnblogs.com/darkpig/p/5676076.html 第三方Crypto包提供了較全面的

python sklearn包——grid search筆記

相關推薦