機器學習：sklearn演算法引數選擇--網格搜尋

阿新 • • 發佈：2018-12-21

機器學習中很多演算法的引數選擇是個比較繁瑣的問題，人工調參比較費時，好在sklearn給我們提供了網格搜尋引數的方法，其實就是類似暴力破解，先設定一些引數的取值，然後通過gridsearch，去尋找這些引數中表現的最好的引數。

我們依舊使用上一節的泰坦尼克號生存者預測資料集。同樣使用隨機森林演算法，看看girdsearch如何使用。

先設定要調的引數和對應的取值：

param_grid = {
    'bootstrap': [True],
    'max_depth': [10, 20, 50],
    'max_features': [len((X.columns))],
    'min_samples_leaf': [3, 4, 5],
    'min_samples_split': [4, 8],
    'n_estimators': [5, 10, 50]
}

再初始化我們要用的演算法，然後使用網格搜尋，尋找最優引數：

#初始化模型
forest = RandomForestClassifier()
#初始化網格搜尋
grid_search = GridSearchCV(estimator=forest, param_grid=param_grid, cv=3,
                           n_jobs=-1, verbose=1)
grid_search.fit(X_train, y_train)

#檢視最好的引數選擇
print(grid_search.best_params_)

最後用網格搜尋得到的引數，進行模型訓練：

#使用網格搜尋得到的最好的引數選擇進行模型訓練
best_forest = grid_search.best_estimator_
best_forest.fit(X_train, y_train)

全部的程式碼如下：

# -*- coding: utf-8 -*-
# @Time    : 2018/12/14 上午9:59
# @Author  : yangchen
# @FileName: gridsearch.py
# @Software: PyCharm
# @Blog    ：https://blog.csdn.net/opp003/article

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_recall_fscore_support
from sklearn.model_selection import train_test_split


#匯入資料
df = pd.read_csv('processed_titanic.csv', header=0)

#設定y值
X = df.drop(["survived"], axis=1)
y = df["survived"]

#訓練集和測試集劃分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0, shuffle=True)


#構建網格引數
param_grid = {
    'bootstrap': [True],
    'max_depth': [10, 20, 50],
    'max_features': [len((X.columns))],
    'min_samples_leaf': [3, 4, 5],
    'min_samples_split': [4, 8],
    'n_estimators': [5, 10, 50]
}

#初始化模型
forest = RandomForestClassifier()
#初始化網格搜尋
grid_search = GridSearchCV(estimator=forest, param_grid=param_grid, cv=3,
                           n_jobs=-1, verbose=1)
grid_search.fit(X_train, y_train)

#檢視最好的引數選擇
print(grid_search.best_params_)

#使用網格搜尋得到的最好的引數選擇進行模型訓練
best_forest = grid_search.best_estimator_
best_forest.fit(X_train, y_train)

# 預測
pred_train = best_forest.predict(X_train)
pred_test = best_forest.predict(X_test)

#準確率
train_acc = accuracy_score(y_train, pred_train)
test_acc = accuracy_score(y_test, pred_test)
print ("訓練集準確率: {0:.2f}, 測試集準確率: {1:.2f}".format(train_acc, test_acc))

#其他模型評估指標
precision, recall, F1, _ = precision_recall_fscore_support(y_test, pred_test, average="binary")
print ("precision: {0:.2f}. recall: {1:.2f}, F1: {2:.2f}".format(precision, recall, F1))

#特徵重要度
features = list(X_test.columns)
importances = best_forest.feature_importances_
indices = np.argsort(importances)[::-1]
num_features = len(importances)


#將特徵重要度以柱狀圖展示
plt.figure()
plt.title("Feature importances")
plt.bar(range(num_features), importances[indices], color="g", align="center")
plt.xticks(range(num_features), [features[i] for i in indices], rotation='45')
plt.xlim([-1, num_features])
plt.show()

#輸出各個特徵的重要度
for i in indices:
    print ("{0} - {1:.3f}".format(features[i], importances[i]))

得到的結果：


{'bootstrap': True, 'max_depth': 20, 'max_features': 7, 'min_samples_leaf': 4, 'min_samples_split': 8, 'n_estimators': 5}
訓練集準確率: 0.86, 測試集準確率: 0.76
precision: 0.86. recall: 0.79, F1: 0.82
sex - 0.428
age - 0.294
fare - 0.204
sibsp - 0.036
embarked - 0.030
parch - 0.008
pclass - 0.000

我們可以看到結果和上節所得到的結果，略有提升。其實網格搜尋雖然方便了模型調參，但是還是需要建模人員有一定的調參經驗作為基礎的。

機器學習：sklearn演算法引數選擇--網格搜尋

機器學習中很多演算法的引數選擇是個比較繁瑣的問題，人工調參比較費時，好在sklearn給我們提供了網格搜尋引數的方法，其實就是類似暴力破解，先設定一些引數的取值，然後通過gridsearch，去尋找這些引數中表現的最好的引數。我們依舊使用上一節的泰坦尼克號生存者預測資料集。同樣使用隨機森林演算

機器學習：sklearn.svm.SVC 引數說明

2.sklearn.svm.SVC()引數引數： l C：C-SVC的懲罰引數C?預設值是1.0 C越大，相當於懲罰鬆弛變數，希望鬆弛變數接近0，即對誤分類的懲罰增大，趨向於對訓練集全分對的情況，這樣對訓練集測試時準確率很高，但泛化能力弱。C值小，對誤分類的懲罰

機器學習：模型評估和選擇

val 上一個 bootstrap 自助法 break all 誤差 rec 數據集 2.1 經驗誤差與擬合精度（accuracy）和錯誤率（error rate）：精度=1-錯誤率訓練誤差（training error）或經驗誤差（empirical error）泛

機器學習：sklearn模型指標和特徵貢獻度檢視

模型訓練完成後，即使模型評估很好，各項指標都很到位，業務人員肯定也是心裡沒底的，哪怕有模型公式，他們也看不懂啊。咋整，當然是先把模型的重要評估指標列印給他們看，再把特徵貢獻度從大到小，畫成圖給他們看啦。今天就通過sklearn實現模型評估指標和特徵貢獻度的圖形檢視。本文的資料集採用泰坦尼克號倖

機器學習：模型估計於選擇(二)

交叉驗證t檢驗是在一個數據集上比較兩個演算法的效能，但有時我們需要在一組資料集上對多個演算法進行比較，可以使用基於演算法排序的Friendman檢驗。我們假設D1_{1}1、D2_{2}2、D3_{3}3、D4_{4}4四個資料集對演算法A、B、C進行比較，首先使用留出發或交叉驗證法得到每個演算法在

機器學習：sklearn&pydotplus實現Decision Tree

import csv from sklearn.feature_extraction import DictVectorizer from sklearn import preprocessing from sklearn import tree import pydotplus ''' 資料集

機器學習：AdaBoost演算法及其實現

文章目錄楔子演算法描述： adaboost裡的樣本權重和話語權演算法描述 AdaBoost的實現：數學基礎(瞭解）楔子前面提到boosting演算法為一類演算法，這一類演算法框架分為3步

機器學習：sklearn資料集與機器學習組成

二、模型的選擇演算法是核心，資料和計算是基礎。這句話很好的說明了機器學習中演算法的重要性。那麼我們開看下機器學習的幾種分類：監督學習分類 k-近鄰演算法、決策樹、貝葉斯、邏輯迴歸(LR)、支援

機器學習：迴歸演算法

監督學習指的是有目標變數或預測目標的機器學習方法。迴歸與分類的不同，就在於其目標變數是連續數值型。線性迴歸原理迴歸的目的是預測數值型的目標值。最直接的辦法是依據輸入寫出一個目標值

機器學習：各演算法小結（3）

將最近接觸的幾個機器學習演算法小結一下，順便理理自己的思路。近年來在機器學習的研究中，對演算法的創新主要是在原有的基礎上，通過結合不同演算法的優點，得到一種更有效的演算法，如結合遺傳演算法的決策樹、

機器學習：KNN演算法(MATLAB實現)

K-近鄰演算法的思想如下：首先，計算新樣本與訓練樣本之間的距離，找到距離最近的K 個鄰居；然後，根據這些鄰居所屬的類別來判定新樣本的類別，如果它們都屬於同一個類別，那麼新樣本也屬於這個類；否則，對每個後選類別進行評分，按照某種規則確定新樣本的類別。（統計出現的頻率）

機器學習：整合演算法

整合演算法往往被稱為三個臭皮匠，賽過一個諸葛亮，整合演算法的起源是來自與PAC中的強可學習和弱可學習，如果類別決策邊界可以被一個多項式表示，並且分類正確率高，那麼就是強學習的，如果分類正確率不高，僅僅只是比隨機猜測好一點，那麼就是弱可學習，後來有人證明強可學習和弱可學習是等價的，那麼弱可學習就可以提升為強可學

機器學習系列之交叉驗證、網格搜尋

第一部分：交叉驗證機器學習建立和驗證模型，常用的方法之一就是交叉驗證。在機器學習過程中，往往資料集是有限的，而且可能具有一定的侷限性。如何最大化的利用資料集去訓練、驗證、測試模型，常用的方法就是交叉驗證。交叉驗證，就是重複的使用資料，對樣本資料進行劃分為多組不同的訓練集和測試集（訓練集訓練模型

機器學習模型選擇：調參引數選擇

調參經驗好的實驗環境是成功的一半由於深度學習實驗超參眾多，程式碼風格良好的實驗環境，可以讓你的人工或者自動調參更加省力，有以下幾點可能需要注意：將各個引數的設定部分集中在一起。如果引數的設定分佈在程式碼的各個地方，那麼修改的過程想必會非常痛苦。可以輸出模型的損失函式值以及訓練

斯坦福大學公開課機器學習： advice for applying machine learning | deciding what to try next(revisited)（針對高偏差、高方差問題的解決方法以及隱藏層數的選擇）

ice 簡單 pos .com img 想要技術分割就是針對高偏差、高方差問題的解決方法： 1、解決高方差問題的方案：增大訓練樣本量、縮小特征量、增大lambda值 2、解決高偏差問題的方案：增大特征量、增加多項式特征（比如x1*x2,x1的平方等等）、減少la

Python機器學習：5.9 sklearn中的核PCA

sklearn 不同圖片 html post 技術分享 posit src 數據 sklearn.decomposition中有核PCA的實現，看看怎麽用：通過kernel參數設定不同的核函數。將轉換後的數據可視化： Python機器學習中文版目錄（http://

機器學習：K近鄰演算法，kd樹

https://www.cnblogs.com/eyeszjwang/articles/2429382.html kd樹詳解 https://blog.csdn.net/v_JULY_v/article/details/8203674 一、K-近鄰演算法（KNN）概述

規則化和模型選擇（Regularization and model selection）——機器學習：交叉驗證Cross validation

零問題提出在機器學習中的偏差與方差一文中提到了偏差與方差。那麼在多種預測模型，如線性迴歸(y=θTx)，多項式迴歸(y=θTx^(1~m))等，應使用那種模型才能達到偏差與方差的平衡最優？形式化定義：假設可選的模型集合是M={M1,M2,...,Md}，比如SVM，

機器學習：Python實現純程式碼邏輯迴歸演算法

之前寫了一篇邏輯迴歸的理論知識，寫得還算詳盡，包含了公式的詳細推導過程。這篇文章將結合之前的理論推導，通過Python程式碼實現邏輯迴歸演算法，並用來預測鳶尾花種類。由於這篇文章是對照著之前的理論文章進行講解的，所以最好先看前一篇理論文章，再看這篇實踐文章。理論的文章連結為：https://blog

Python：機器學習庫 sklearn

安裝： pip install -U scikit-learn 資料標準化 from sklearn import preprocessing a = np.array([[10, 2.7, 3.6], [-100, 5, -2],

機器學習：sklearn演算法引數選擇--網格搜尋

相關推薦