機器學習sklearn（三十）：模型儲存

阿新 • • 發佈：2021-06-20

在訓練完 scikit-learn 模型之後，最好有一種方法來將模型持久化以備將來使用，而無需重新訓練。以下部分為您提供了有關如何使用 pickle 來持久化模型的示例。在使用 pickle 序列化時，我們還將回顧一些安全性和可維護性方面的問題。

pickle的另一種方法是使用相關專案中列出的模型匯出工具之一將模型匯出為另一種格式。與pickle不同，一旦匯出，就不能恢復完整的Scikit-learn estimator物件，但是可以部署模型進行預測，通常可以使用支援開放模型交換格式的工具，如“ONNX”或“PMML”。

1. 持久化示例

可以通過使用 Python 的內建持久化模型將訓練好的模型儲存在 scikit 中，它名為

pickle:

>>> from sklearn import svm
>>> from sklearn import datasets
>>> clf = svm.SVC()
>>> iris = datasets.load_iris()
>>> X, y = iris.data, iris.target
>>> clf.fit(X, y)
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
 decision_function_shape 
='ovr', degree=3, gamma='auto', kernel='rbf',
 max_iter=-1, probability=False, random_state=None, shrinking=True,
 tol=0.001, verbose=False)

>>> import pickle
>>> s = pickle.dumps(clf)
>>> clf2 = pickle.loads(s)
>>> clf2.predict(X[0:1])
array([0])
>>> y[0]
0

在這個 scikit 的特殊示例中，使用 joblib 來替換 pickle（joblib.dump

&joblib.load）可能會更有意思，這對於內部帶有 numpy 陣列的物件來說更為高效，通常情況下適合 scikit-learn estimators（預估器），但是也只能是 pickle 到硬碟而不是字串:

>>> from sklearn.externals import joblib
>>> joblib.dump(clf, 'filename.pkl')

之後你可以使用以下方式回撥 pickled model 可能在另一個 Python 程序中）:

>>> clf = joblib.load('filename.pkl')

注意joblib.dump和joblib.load函式也接收類似 file-like 的物件而不是檔名。更多有關使用 Joblib 來持久化資料的資訊可以參閱這裡.

2. 安全性和可維護性的侷限性

pickle（和通過擴充套件的 joblib），在安全性和可維護性方面存在一些問題。有以下原因，

絕對不要使用未經 pickle 的不受信任的資料，因為它可能會在載入時執行惡意程式碼。
雖然一個版本的 scikit-learn 模型可以在其他版本中載入，但這完全不建議並且也是不可取的。還應該瞭解到，對於這些資料執行的操作可能會產生不同及意想不到的結果。

為了用以後版本的 scikit-learn 來重構類似的模型, 額外的元資料應該隨著 pickled model 一起被儲存：

訓練資料，例如：引用不可變的快照
用於生成模型的 python 原始碼
scikit-learn 的各版本以及各版本對應的依賴包
在訓練資料的基礎上獲得的交叉驗證得分

這樣可以檢查交叉驗證得分是否與以前相同。

由於模型內部表示可能在兩種不同架構上不一樣，因此不支援在一個架構上轉儲模型並將其載入到另一個體系架構上。

機器學習sklearn（三十）：模型儲存

1. 持久化示例

2. 安全性和可維護性的侷限性

機器學習sklearn（三十）：模型儲存

機器學習sklearn（二十）：特徵工程（十一）特徵編碼（五）類別特徵編碼（三）獨熱編碼 OneHotEncoder

機器學習sklearn（二十三）：模型評估（三）交叉驗證：評估估算器的表現（三）交叉驗證迭代器

機器學習sklearn（四十）：演算法例項（九）迴歸（二）隨機森林迴歸器 RandomForestRegressor

機器學習sklearn（三十一）：Pipeline（管道）和 FeatureUnion（特徵聯合）: 合併的評估器

機器學習sklearn（三十二）：演算法例項（一）分類（一）分類決策樹（一）簡介

機器學習sklearn（三十四）：演算法例項（三）迴歸（一）決策樹迴歸（一） DecisionTreeRegressor

機器學習sklearn（三十七）：演算法例項（六）分類（四）分類決策樹（四）Bonus Chapter I 例項：分類樹在合成數集上的表現

機器學習sklearn（三十九）：演算法例項（八）分類（四）隨機森林分類器 RandomForestRegressor

機器學習sklearn（二十一）：模型評估（一）交叉驗證：評估估算器的表現（一）簡介

機器學習sklearn（二十二）：模型評估（二）交叉驗證：評估估算器的表現（二）計算交叉驗證的指標

Flink例項（三十）：狀態管理（一）概述

Flink基礎（三十）：FLINK SQL(六)ALTER 語句

機器學習筆記（二十）——Tensorflow 2 入門（mnist與fashion_mnist）

SpringCloud微服務實戰——搭建企業級開發框架（三十）：整合EasyExcel實現資料表格匯入匯出功能

機器學習sklearn（十二）：特徵工程（三）特徵組合與交叉（一）多項式特徵

機器學習sklearn（十七）：特徵工程（八）特徵選擇（三）卡方選擇（二）卡方檢驗

機器學習sklearn（十八）：特徵工程（九）特徵編碼（三）類別特徵編碼（一）標籤編碼 LabelEncoder

機器學習sklearn（58）：演算法例項（十五）分類（八）邏輯迴歸（三）linear_model.LogisticRegression(二) 重要引數

機器學習sklearn（75）：演算法例項（三十二）迴歸（四）線性迴歸大家族（二）多元線性迴歸LinearRegression

機器學習sklearn（三十）：模型儲存

1. 持久化示例

2. 安全性和可維護性的侷限性

相關推薦