Python玩機器學習簡易教程

阿新 • • 發佈：2022-04-29

本文介紹利用Python和Python的機器學習庫scikit-learn完成一個端到端的機器學習專案。

俗話說，“師傅領進門，修行在個人”。本文就是扮演領進門這種角色，至於各位看官能夠修行到什麼境界，全憑自己。

1 設定環境
2 匯入所需庫和模組
3 載入資料集
4 資料集劃分為訓練集和測試集
5 資料預處理
6 引數調優
7 模型優化（交叉驗證）
8 全資料擬合
9 模型評估
10 模型儲存

1 設定環境

檢查電腦是否安裝了Python以及相應庫numpy/pandas/scikit-learn。若是沒有，推薦一鍵式安裝Anaconda（安裝教程）。安裝好後，測試一下版本號。 Code：

import sysprint("Python版本：%s" %sys.version)
import numpyprint("numpy版本：%s" %numpy.__version__)
import matplotlibprint("matplotlib版本：%s" %matplotlib.__version__)
import pandasprint("pandas版本：%s" %pandas.__version__)
import sklearnprint("sklearn版本：%s" %sklearn.__version__)

Result：

2 匯入所需庫和模組

科學計算庫numpy 資料處理和分析庫pandas 資料集劃分模組train_test_split 資料預處理模組preprocessing 資料演算法模組RandomForestRegressor 模型優化模組make_pipeline和GridSearchCV 模型評估模組mean_squared_error和r2_score 模型儲存模組joblib

Code:

import numpy as np 
import pandas as pd 
from sklearn.model_selection 
import train_test_splitfrom sklearn 
import preprocessingfrom sklearn.ensemble 
import RandomForestRegressorfrom sklearn.pipeline 
import make_pipelinefrom sklearn.model_selection 
import GridSearchCVfrom sklearn.metrics 
import mean_squared_error, r2_scorefrom sklearn.externals 
import joblib

3 載入資料集

俗話說“巧婦難為無米之炊”。 “資料”是原材料。本教程使用wine data資料集。載入資料集和資料簡單探索性分析。 Code:

dataset_url = "http://mlr.cs.umass.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"data = pd.read_csv(dataset_url, sep = ";")print(data.head())print(data.shape)print(data.describe())

4 資料集劃分為訓練集和測試集

資料集劃分目的用來評估模型的效能和效果。 Code:

y = data.qualityX = data.drop("quality", axis = 1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 123, stratify=y)

train_test_split模組的引數說明：

test_size: 設定測試集佔總樣本的比例
random_state: 設定隨機種子，便於可重複性試驗
stratify=y：讓訓練集和測試集具有相似性，服務模型評估

5 資料預處理

使用Transformer API 做資料預處理，具體步驟如下：

對訓練資料集擬合生成一個轉換器（儲存均值和標準差）
利用轉換器對訓練集做預處理
利用轉換器對測試集做預處理（使用了與訓練集相同的均值和標準差）程式碼如下：有時候，我們設定交叉驗證管道（pipeline）時，不需要手工設定Transformer API,我們可以建立一個管道物件，如下：這個pipeline物件首先使用StandardScaler()對資料做預處理，然後用隨機森林迴歸演算法擬合生成一個模型。
1. pipeline = make_pipeline(preprocessing.StandardScaler(), RandomForestRegressor(n_estimators=100))
2. scaler = preprocessing.StandardScaler().fit(X_train)
3. X_train_scaled = scaler.transform(X_train)
4. print(X_train_scaled.mean(axis=0))
5. print(X_train_scaled.std(axis=0))
6. X_test_scaled = scaler.transform(X_test)
7. print(X_test_scaled.mean(axis=0))
8. print(X_test_scaled.std(axis=0))

6 引數調優

一個模型裡面包括兩個方面的引數：

方面一：模型引數，從資料中最終可以學習到的引數，例如迴歸演算法的係數。
方面二：超引數，從資料中學習不到的引數，在做模型之前需要事先設定好的引數。

舉例說明：隨機森林迴歸演算法的超引數隨機森林需要生成多少棵樹？隨機森林中樹產生的標準？（MSE或者MAE）下面羅列隨機森林迴歸演算法的超引數程式碼如下：

print(pipeline.get_params())

與超引數相關結果如下：

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,max_features='auto', max_leaf_nodes=None,min_impurity_split=1e-07, min_samples_leaf=1,min_samples_split=2, min_weight_fraction_leaf=0.0,n_estimators=100, n_jobs=1, oob_score=False, random_state=None,verbose=0, warm_start=False)

交叉驗證時設定需要調整的超引數程式碼如下:

hyperparameters = { 'randomforestregressor__max_features' : ['auto', 'sqrt', 'log2'],'randomforestregressor__max_depth': [None, 5, 3, 1]}

7 模型優化（交叉驗證）

交叉驗證是模型效能評估的一種可靠方法。常用10-折交叉驗證為例。

把資料集劃分成10等分；
利用9等分訓練模型；
剩下的1等分評估模型效果；
重複2和3步10次，每次採用不同的1等分用來做模型驗證；
聚合10次模型評估效能，當做模型效能最終值；

基於管道物件實現交叉驗證程式碼

clf = GridSearchCV(pipeline, hyperparameters, cv=10)clf.fit(X_train, y_train)print(clf.best_params_)

結果發現超引數預設值為最佳。

8 全資料擬合

當使用交叉驗證方法找到最佳的超引數後，為了進一步改善模型的效能需要對全部訓練資料做模型擬合。 GridSearchCV已經用最佳超引數對全部訓練資料集做了模型擬合，程式碼檢視如下。

print(clf.refit)

結果為True

9 模型評估

在測試集上做模型評估程式碼如下

y_pred = clf.predict(X_test)print(r2_score(y_test, y_pred))print(mean_squared_error(y_test, y_pred))

結果如下： 0.465495005751 0.344901875

截止到目前，基於隨機森林迴歸模型，已經完成了。這個模型是否為解決問題的最佳模型呢？可以從以下三方面思考。

模型能否解決好問題？
模型的效能相對於基準線是什麼情況？
模型的效能優化點有哪些？

改善模型效能的常用方法總結。

收集更多的資料
花更多時間做好特徵工程
嘗試其他模型和演算法（正則化迴歸、提升樹等）
吸收更多有用的領域知識
採用整合學習的思想

10 模型儲存

模型儲存，以便後續使用和模型部署與實施。程式碼

joblib.dump(clf, 'rf_regressor.pkl')
clf2 = joblib.load('rf_regressor.pkl')
clf2.predict(X_test)

附錄：完整程式碼參考

## Python玩機器學習簡易教程##開始時間：2017年8月24日##結束時間：2017年9月16日## 第一步：設定環境
import sysprint("Python版本：%s" %sys.version)
import numpyprint("numpy版本：%s" %numpy.__version__)
import matplotlibprint("matplotlib版本：%s" %matplotlib.__version__)
import pandasprint("pandas版本：%s" %pandas.__version__)
import sklearnprint("sklearn版本：%s" %sklearn.__version__)
## 第二步：匯入所需庫
import numpy as np 
import pandas as pd 
from sklearn.model_selection 
import train_test_splitfrom sklearn 
import preprocessingfrom sklearn.ensemble 
import RandomForestRegressorfrom sklearn.pipeline 
import make_pipelinefrom sklearn.model_selection 
import GridSearchCVfrom sklearn.metrics 
import mean_squared_error, r2_scorefrom sklearn.externals 
import joblib
## 第三步：載入資料集
dataset_url = "http://mlr.cs.umass.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
data = pd.read_csv(dataset_url, sep = ";")
print(data.head())print(data.shape)
print(data.describe())
## 第四步：資料集劃分
y = data.qualityX = data.drop("quality", axis = 1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 123, stratify=y)
## 第五步：資料預處理## 對訓練集的所有特徵進行標準化處理
pipeline = make_pipeline(preprocessing.StandardScaler(), RandomForestRegressor(n_estimators=100))
## 第六步：引數調優
print(pipeline.get_params())
hyperparameters = { 'randomforestregressor__max_features' : ['auto', 'sqrt', 'log2'], 'randomforestregressor__max_depth': [None, 5, 3, 1]}
## 第七步：模型優化(交叉驗證)
clf = GridSearchCV(pipeline, hyperparameters, cv=10)
clf.fit(X_train, y_train)print(clf.best_params_)
## 第八步：全資料擬合print(clf.refit)
## 第九步：模型評估
y_pred = clf.predict(X_test)
print(r2_score(y_test, y_pred))
print(mean_squared_error(y_test, y_pred))
## 第十步：模型儲存
joblib.dump(clf, 'rf_regressor.pkl')
clf2 = joblib.load('rf_regressor.pkl')
# 載入模型預測新的資料集clf2.predict(X_test)

Python玩機器學習簡易教程

本文介紹利用Python和Python的機器學習庫scikit-learn完成一個端到端的機器學習專案。

Python&機器學習——學習筆記1

技術標籤：學習筆記python列表字串 Python基礎 1. Python資料型別和迴圈學習來源： https://www.liaoxuefeng.com/wiki/1016959663602400/1017063413904832

拓端tecdat：Python整合機器學習：用AdaBoost、決策樹、邏輯迴歸整合模型分類和迴歸和網格搜尋超引數優化

原文連結：http://tecdat.cn/?p=24231 原文出處：拓端資料部落公眾號 Boosting 是一類整合機器學習演算法，涉及結合許多弱學習器的預測。

[Python][SVM][機器學習筆記]SVM的sklearn實現及技術細節

調庫 import numpy as np from sklearn.multiclass import OutputCodeClassifier from sklearn.svm import LinearSVC

【Python環境】探索 Python、機器學習和 NLTK 庫

挑戰：使用機器學習對 RSS 提要進行分類最近，我接到一項任務，要求為客戶建立一個 RSS 提要分類子系統。目標是讀取幾十個甚至幾百個 RSS 提要，將它們的許多文章自動分類到幾十個預定義的主題領域當中。客戶網站的

Python做機器學習的生態系統簡介

Python，一門語言，一種工具，一個平臺，深的一批人喜歡和力挺！機器學習很火，Python做機器學習已構建成一個完整的生態系統了。

用Python進行機器學習小案例

概要本文是用Python程式語言來進行機器學習小實驗的第一篇。主要內容如下：

Python經典機器學習的四大常用的第三方庫

Python程式設計中，幾乎都離不開第三方庫。更何況是入門人工智慧工作，Python是入門必備，第三方庫特別是科學計算機器學習庫就是入門中的入門。我們這裡既然說機器學習，當然和深度學習是不一樣的。所以機智客的意思

python機器學習實現決策樹

本文例項為大家分享了python機器學習實現決策樹的具體程式碼，供大家參考，具體內容如下

python機器學習庫xgboost的使用

1.資料讀取利用原生xgboost庫讀取libsvm資料 import xgboost as xgb data = xgb.DMatrix(libsvm檔案)

深度學習“四大名著”釋出！Python、TensorFlow、機器學習、深度學習四件套！

Python 程式設計師深度學習的“四大名著”：這四本書著實很不錯！我們都知道現在機器學習、深度學習的資料太多了，面對海量資源，往往陷入到“無從下手”的困惑出境。而且並非所有的書籍都是優質資源，浪費大量的時

[斯坦福大學2014機器學習教程筆記]第六章-決策界限(decision boundary)

這一節主要介紹的是決策界限(decision boundary)的概念，這個概念可以幫組我們更好地理解邏輯迴歸的假設函式在計算什麼。

機器學習：Python中如何使用最小二乘法

之所以說”使用”而不是”實現”，是因為python的相關類庫已經幫我們實現了具體演算法，而我們只要學會使用就可以了。隨著對技術的逐漸掌握及積累，當類庫中的演算法已經無法滿足自身需求的時候

Python Matplotlib簡易教程(小白教程)

簡單演示 import matplotlib.pyplot as plt import numpy as np # 從[-1,1]中等距去50個數作為x的取值

《機器學習 caffe 環境搭建——redhat7.1 和 caffe 的 python 介面編譯》

機器學習 caffe 環境搭建——redhat7.1 和 caffe 的 python 介面編譯相信看這篇文章的都知道 caffe 是幹嘛的了，無非就是深度學習、神經網路、計算機視覺、人工智慧這些，這個我就不多介紹了，下面說說我

【機器學習 Azure Machine Learning】Azure Machine Learning 訪問SQL Server 無法寫入問題 (使用微軟Python AML Core SDK）

問題情形使用Python SDK在連線到資料庫後，連線資料庫獲取資料成功，但是在Pandas中用 to_sql 反寫會資料庫時候報錯。錯誤資訊為：ProgrammingError: (\'42000\', \"[42000] [Microsoft][SQL Server Native Client

使用python機器學習和深度學習的5個很棒的計算機視覺專案創意

專案構想(Project Ideas) Computer Vision is a field of artificial intelligence that deals with images and pictures to solve real-life visual problems. The ability of the computer to r

Python機器學習預測分析核心演算法1

最近在學習Michael Bowles著的《Python 機器學習預測分析核心演算法》，記錄一下學習過程。

一天入門Python--資料分析和機器學習的程式設計基礎

整理了一下碩士階段學習機器學習課程前的Python先導課的知識點，資料來源為課堂ppt和公開的學習資料，適合剛入門程式設計的小白整理回顧。後續會陸續分享機器學習及金融資料分析的python實現。

python機器學習 | 入門介紹

最近在接觸機器學習這一塊的內容，不知道能學到哪個程度。先簡單地介紹它到底是什麼？

Python玩機器學習簡易教程

1 設定環境

2 匯入所需庫和模組

3 載入資料集

4 資料集劃分為訓練集和測試集

5 資料預處理

6 引數調優

7 模型優化（交叉驗證）

8 全資料擬合

9 模型評估

10 模型儲存

相關推薦