scikit基礎與機器學習入門（3）機器學習任務的一般流程——以鳶尾花分類為例

阿新 • • 發佈：2021-09-19

機器學習任務的一般流程

本文以鳶尾花資料集為例，對機器學習人物的一般步驟進行了梳理

下面是baseline

資料的獲取/匯入

首先匯入有關的庫

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import datasets

這裡匯入iris庫

iris =  datasets.load_iris()

匯入後的資料庫是一個字典，其中data類為內容，feature_names為特徵名,target為分類

利用內容和特徵名構建DataFrame

data = pd.DataFrame(iris.data, columns=iris.feature_names)

可以進行簡單的視覺化

data.plot()

資料的預處理

一般包括資料標準化，資料歸一化，資料二值化，非線性轉換，資料特徵編碼，處理缺失值等

from sklearn import preprocessing
scaler = preprocessing.MinMaxScaler()    #將樣本特徵值縮放到0，1之間
scaler.fit(iris.data)    #先fit
data = scaler.transform(iris.data)     #再transform，得到輸入模型的資料

和前面講的一樣對於這種API都是先fit再transform

被縮放後的資料如圖所示

target = iris.target  #作為特徵備用

模型的訓練

根據問題特點選擇適當的估計器estimater模型

分類
迴歸
聚類
降維

資料集的劃分

首先進行資料集的劃分

from sklearn.model_selection import train_test_split

劃分資料集的方法在model_selection模組中

X_train,X_test,Y_train,Y_test = train_test_split(data,target,test_size=1/3)

引數指測試集所佔比例

模型的訓練

匯入支援向量機進行分類

from sklearn import svm
clf = svm.SVC(kernel = 'linear',C = 1,probability=True)    #匯入支援向量機，設定引數
clf.fit(X_train,Y_train)

用這種方法簡單地檢查一下正確率，為零的就是判斷無誤的

可以用get_params方法獲取模型有關引數

clf.get_params()

也可以獲取每一種可能的概率，此時需要匯入模型時的probability=True

clf.predict_proba(X_test)

利用cf.score對模型進行評分

clf.score(X_test,Y_test)
#對不同型別的模型有不同的評分演算法，由score內部決定

模型的評估

模型的評估和模型的優化相關功能再sklearn.model_selection中除了使用estimator的score函式簡單評估之外，在sklearn.metrics模組提供了各種評估指標並且可以建立使用者自定義的評估值

詳細的評估方法

from sklearn.metrics import classification_report
print(classification_report(target,clf.predict(data),target_names = iris.target_names))

多折交叉驗證

from sklearn.model_selection import cross_val_score
scores = cross_val_score(clf, data, target, cv=5)    # cv後的數目是折數
scores

得到一個數組，分別是每次交叉驗證的值

所以可得到結論

print('Accuracy: %0.2f(+/-%0.2f)'%(scores.mean(),scores.std()*2))

假設結果呈正態分佈

模型的優化

優化模型的方法包括：網格搜尋法，隨機搜尋法，模型特定交叉驗證，資訊準則優化

網格搜尋法在指定的超引數空間中對每一種可能的情況進行交叉驗證評分並選出最好的超引數組合

這裡用網格搜尋法來搜尋最佳引數

from sklearn import svm
from sklearn.model_selection import GridSearchCV
svc = svm.SVC()   #注意，這裡沒有引數

設定備擇引數

param_grid = [{'C':[0.1, 1, 10, 100, 1000],'kernel':['linear']},
             {'C':[0.1, 1, 10, 100, 1000],'gamma':[0.001,0.01],'kernel':['rbf']}]

設定尋優標準

scoring = 'accuracy'

然後進行網格搜尋

clf = GridSearchCV(svc, param_grid,scoring = scoring, cv=10)
clf.fit(data,target)

得到的是一個優化的分類器

clf.predict(data)

可以利用get_params()進行引數查詢

{'cv': 10,
'error_score': nan,
'estimator__C': 1.0,
'estimator__break_ties': False,
'estimator__cache_size': 200,
'estimator__class_weight': None,
'estimator__coef0': 0.0,
'estimator__decision_function_shape': 'ovr',
'estimator__degree': 3,
'estimator__gamma': 'scale',
'estimator__kernel': 'rbf',
'estimator__max_iter': -1,
'estimator__probability': False,
'estimator__random_state': None,
'estimator__shrinking': True,
'estimator__tol': 0.001,
'estimator__verbose': False,
'estimator': SVC(),
'iid': 'deprecated',
'n_jobs': None,
'param_grid': [{'C': [0.1, 1, 10, 100, 1000], 'kernel': ['linear']},
 {'C': [0.1, 1, 10, 100, 1000], 'gamma': [0.001, 0.01], 'kernel': ['rbf']}],
'pre_dispatch': '2*n_jobs',
'refit': True,
'return_train_score': False,
'scoring': 'accuracy',
'verbose': 0}

利用best_params_和best_score_進行最優引數的搜尋

clf.best_params_

clf.best_score_

模型持久化

對於儲存的模型，如果要儲存，通常採取以下方式

import pickle
s = pickle.dumps(clf) #儲存模型為字串
clf2 = pickle.loads(s) #從字串中載入模型

其中s是一個字串

利用第三方庫一般是這種流程，可以用這個過程做一個模板，具體問題進行具體修改

很喜歡聽到一個老師說的“半年理論”，現在做出的努力，一般要在半年的沉澱之後，才能出結果，所以在遇到瓶頸之時，不妨再努力半年

scikit基礎與機器學習入門（3）機器學習任務的一般流程——以鳶尾花分類為例

機器學習任務的一般流程本文以鳶尾花資料集為例，對機器學習人物的一般步驟進行了梳理

TensorFlow強化學習入門（3）——構建模擬環境來進行強化學習

在上一篇文章中，我演示瞭如何設計一個基於策略的強化學習agent來解決CartPole任務。在本文中，我們將從另一個角度重新審視這個問題——如何構建模擬環境來提升agent在當前環境下的效能。

scikit基礎與機器學習入門（1）背景介紹

scikit基礎與機器學習入門（1）第一章僅對概念進行大略地描述，具體演算法的具體原理後續再說

scikit基礎與機器學習入門（4） sklearn模組資料集的使用——自帶資料集和自定義資料集

API通用方法型別獲取方式自帶的小資料集 sklearn.datasets.load_ 線上下載的資料集 sklearn.datasets.fetch_

scikit基礎與機器學習入門（5）歸一化，標準化和正則化，二值化

歸一化，標準化和正則化，二值化概念和含義資料歸一化：將資料集中某一列數值特徵的值縮放到0-1區間內

scikit基礎與機器學習入門（7）特徵的選擇

選擇特徵有以下兩方面依據：特徵是否發散：如果一個特徵不發散，例如方差接近於0，也就是說樣本在這個特徵上基本上沒有差異，這個特徵對於樣本的區分並沒有什麼用。

scikit基礎與機器學習入門（6）編碼，增加多項式特徵和缺失值處理

分類特徵編碼_獨熱編碼為了解決這個問題，我們可以使用一種叫做\"one-of-K\"或稱做\"one-hot\"（獨熱）的編碼方式。即兩

scikit基礎與機器學習入門（9）Pipeline和FeatureUnion的構建——構築有條理的機器學習系統

Pipeline訓練過程第一級進行資料預處理，第二級完成資料降維，第三級實現分類、迴歸或聚類功能。

scikit基礎與機器學習入門（8） sklearn主要解決的三類問題——分類，迴歸和聚類

其實這篇沒啥內容，就是在熟悉一下程式碼\\((*^_^*)\\) 分類模型的訓練——以決策樹為例

scikit基礎與機器學習入門（11）欠擬合，過擬合和交叉驗證

欠擬合和過擬合的定義在機器學習問題中，經常會出現模型在訓練資料上的得分很高，但是在新的資料上表現很差的情況，這稱之為過擬合overfitting,又叫高方差high variance

scikit基礎與機器學習入門（10）模型的評估

除了使用estimator的score函式簡單粗略地評估模型的質量之外，在sklearn.metrics模組針對不同的問題型別提供了各種評估指標並且可以建立使用者自定義的評估指標

scilit基礎和機器學習入門（12）模型的優化

超引數的取值和搜尋超引數是不直接在估計器內學習的引數。在 scikit-learn 包中，它們作為估計器類中建構函式的引數進行傳遞。典型的例子有：用於支援向量分類器的 C 、kernel 和 gamma ，用於Lasso的 alpha等。

（3）機器學習實戰筆記：樸素貝葉斯

優點：資料比較少的時候仍然有效，可以處理多類別問題缺點：對於輸入資料的準備方式比較敏感

深度學習——學習筆記（3）神經網路入門（新聞分類）

# 載入路透社資料集 from keras.datasets import reuters (train_data,train_labels),(test_data,test_labels) = reuters.load_data(num_words=10000)

美賽常用演算法學習筆記（3）插值與擬合

技術標籤：筆記美賽常用演算法學習筆記（3）插值與擬合美賽快開始了，抱佛腳學習網課https://www.bilibili.com/video/BV13i4y1u7MN的筆記

python製表符不轉義_Python零基礎入門（3）：基礎資料型別字串篇

技術標籤：python製表符不轉義介紹過了數字，我們再來介紹下字串。何為字串？

JDBC基礎入門（3）

事務事務是由一步/幾步資料庫操作序列組成的邏輯執行單元, 這些操作要麼全部執行, 要麼全部不執行.

bash shell學習日記（3）特殊字元（二）之逗號與引號

目錄 1、引號 1.1 引號的分類及在bash shell中中的用法 1.2 引號+變數賦值指令碼練習與分析

Bootstrap 學習筆記（3）--Jumbotron、警報、按鈕

Jumbotron Jumbotron（超大螢幕）會建立一個大的灰色背景框，裡面可以設定一些特殊的內容和資訊

Django學習筆記（3）orm模型操作

orm概述什麼是ORM1.Python、PHP、Java是一種開發語言，而MySQL、SQL Server則採用資料庫語言，不同語言之間如何實現互操作？2.SQL語言包括包括資料定義語言DDL、資料控制語言DCL、資料查詢語言DQL、資料操作語言DML等

scikit基礎與機器學習入門（3）機器學習任務的一般流程——以鳶尾花分類為例

機器學習任務的一般流程

資料的獲取/匯入

資料的預處理

模型的訓練

資料集的劃分

模型的訓練

模型的評估

詳細的評估方法

多折交叉驗證

模型的優化

模型持久化

相關推薦