5行程式碼使Scikit-Learn引數學習速度提高5倍

阿新 • • 發佈：2020-10-28

作者|Michael Chau
編譯|VK
來源|Towards Data Science

大家都知道Scikit-Learn——它是資料科學家基本都知道的產品，提供了幾十種易於使用的機器學習演算法。它還提供了兩種現成的技術來解決超引數調整問題：網格搜尋（GridSearchCV）和隨機搜尋（RandomizedSearchCV）。

這兩種技術都是找到正確的超引數配置的強力方法，但是這是一個昂貴和耗時的過程！

如果想加快這個過程呢

在這篇部落格文章中，我們介紹了tune-sklearn(https://github.com/ray-project/tune-sklearn)，它使得在使用Scikit-Learn API的同時更容易利用這些新演算法。

Tune sklearn是Scikit Learn模型選擇模組的一個替代品，採用了先進的超引數調整技術（貝葉斯優化、早期停止、分散式執行）——這些技術比網格搜尋和隨機搜尋提供了顯著的加速！

以下是tune sklearn提供的功能：

與Scikit Learn API的一致性：tune sklearn是GridSearchCV和RandomizedSearchCV的一個替換，因此你只需要在標準Scikit Learn指令碼中更改不到5行即可使用API。
現代超引數調整技術：tune-sklearn允許你通過簡單地切換幾個引數，就可以輕鬆地利用貝葉斯優化、超空間和其他優化技術。
框架支援：tune-sklearn主要用於調優Scikit-Learn模型，但它也支援併為許多其他具有Scikit-Learn框架提供示例，例如Skorch （Pytorch）、KerasClassifiers（Keras）和XGBoostClassifiers（XGBoost）。
分散式：Tune sklearn利用Ray Tune，一個分散式超引數調優庫，高效透明地並行化多核甚至多臺機器上的交叉驗證。

Tune sklearn也很快。為了看到這一點，我們在標準的超引數掃描上，將tune sklearn（啟用早期停止）與本機Scikit Learn進行基準測試。在我們的基準測試中，我們可以看到普通膝上型電腦和48個CPU核心的大型工作站的顯著效能差異。

對於更大的基準48核計算機，Scikit Learn花了20分鐘在大小為40000的資料集上搜索75個超引數集。Tune sklearn只花了3.5分鐘，並且以最小影響效能的方式執行。

第一個圖：在個人雙核i5 8gb ram膝上型電腦上，搜尋6個超參集。第二個圖：在一臺48核250gb ram的大型計算機上，搜尋75個超參集。

注意：對於較小的資料集（10000個或更少的資料點），在試圖應用早期停止時，可能會犧牲準確性。我們預計這不會對使用者產生影響，因為該庫旨在用大型資料集加速大型訓練任務。

簡單的60秒漫遊

執行pip install tune-sklearn ray[tune]開始下面章節的示例程式碼。

讓我們來看看它是如何工作的。

Hyperparam set 2是一組沒有希望的超引數，它將被tune的早期停止機制檢測到，並提前停止以避免浪費訓練時間和資源。

TuneGridSearchCV示例

首先，只需更改import語句即可獲得Tune的網格搜尋交叉：

# from sklearn.model_selection import GridSearchCV
from tune_sklearn import TuneGridSearchCV

從這裡開始，我們將像在Scikit Learn的介面風格中繼續！讓我們使用一個“虛擬”自定義分類資料集和一個SGD分類程式來對資料進行分類。

我們選擇SGDClassifier是因為它有一個partial_fit的 API，這使得它能夠停止擬合特定超引數配置的資料。如果估計器不支援早期停止，我們將回到並行網格搜尋。

# 匯入其他庫
import numpy as np
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import SGDClassifier

# 設定訓練集和驗證集
X, y = make_classification(n_samples=11000, n_features=1000, n_informative=50, 
                           n_redundant=0, n_classes=10, class_sep=2.5)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1000)

# 從SGDClassifier調優的示例引數
parameters = {
   'alpha': [1e-4, 1e-1, 1],
   'epsilon':[0.01, 0.1]
}

如你所見，這裡的設定正是你為Scikit Learn所做的設定！現在，讓我們試著擬合一個模型。

tune_search = TuneGridSearchCV(
    SGDClassifier(),
    parameters,
    early_stopping=True,
    max_iters=10
)
import time # 比較擬合時間
start = time.time()
tune_search.fit(X_train, y_train)
end = time.time()
print("Tune Fit Time:", end - start)
pred = tune_search.predict(X_test)
accuracy = np.count_nonzero(np.array(pred) == np.array(y_test)) / len(pred)
print("Tune Accuracy:", accuracy)

請注意我們在上面介紹的細微差別：

一個新的early_stopping變數，以及
max_iters引數

early_stopping決定何時停止，MedianStoppingRule 是一個很好的預設設定，但是請參閱Tune的關於排程器的文件，以獲得可供選擇的完整列表：https://docs.ray.io/en/master/tune-schedulers.html

max_iters是給定的超引數集可以執行的最大迭代次數；如果提前停止搜尋超引數集，則可以執行較少的迭代。

請嘗試將其與GridSearchCV進行比較

from sklearn.model_selection import GridSearchCV
# n_jobs=-1 使用所有核心
sklearn_search = GridSearchCV(
   SGDClassifier(),
   parameters,
   n_jobs=-1
)

start = time.time()
sklearn_search.fit(X_train, y_train)
end = time.time()
print("Sklearn Fit Time:", end - start)
pred = sklearn_search.predict(X_test)
accuracy = np.count_nonzero(np.array(pred) == np.array(y_test)) / len(pred)
print("Sklearn Accuracy:", accuracy)

TuneSearchCV貝葉斯優化示例

除了網格搜尋介面之外，tunesklearn還提供了一個介面TuneSearchCV，用於從超引數分佈中進行取樣。

此外，只需幾行程式碼更改，就可以輕鬆地對TuneSearchCV中的發行版啟用貝葉斯優化。

執行pip install scikit-optimize以嘗試以下示例：

from tune_sklearn import TuneSearchCV

# 其他匯入
import scipy
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import SGDClassifier

# 設定訓練集和驗證集
X, y = make_classification(n_samples=11000, n_features=1000, n_informative=50, 
                           n_redundant=0, n_classes=10, class_sep=2.5)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1000)

# 從SGDClassifier調優的示例引數
# 注意，如果需要貝葉斯優化，則使用元組
param_dists = {
   'alpha': (1e-4, 1e-1),
   'epsilon': (1e-2, 1e-1)
}

tune_search = TuneSearchCV(SGDClassifier(),
   param_distributions=param_dists,
   n_iter=2,
   early_stopping=True,
   max_iters=10,
   search_optimization="bayesian"
)

tune_search.fit(X_train, y_train)
print(tune_search.best_params_)

第17、18和26行是為啟用貝葉斯優化而更改的程式碼行

如你所見，將tunesklearn整合到現有程式碼中非常簡單。你可以看看更詳細的例子：https://github.com/ray-project/tune-sklearn。

另外請看一看Ray對joblib的替代，它允許使用者在多個節點（而不僅僅是一個節點）上並行化訓練，從而進一步加快了訓練速度。

文件和示例

文件：https://docs.ray.io/en/master/tune/api_docs/sklearn.html
示例：Skorch with tune-sklearn：https://github.com/ray-project/tune-sklearn/blob/master/examples/torch_nn.py)
示例：Scikit-Learn Pipelines with tune-sklearn：https://github.com/ray-project/tune-sklearn/blob/master/examples/sklearn_pipeline.py
示例：XGBoost with tune-sklearn：https://github.com/ray-project/tune-sklearn/blob/master/examples/xgbclassifier.py
示例：KerasClassifier with tune-sklearn：https://github.com/ray-project/tune-sklearn/blob/master/examples/keras_example.py
示例：LightGBM with tune-sklearn：https://github.com/ray-project/tune-sklearn/blob/master/examples/lgbm.py

注意：從匯入ray.tune如連結文件所示，僅在nightly Ray wheels上可用，不久將在pip上提供

原文連結：https://towardsdatascience.com/5x-faster-scikit-learn-parameter-tuning-in-5-lines-of-code-be6bdd21833c

歡迎關注磐創AI部落格站：
http://panchuang.net/

sklearn機器學習中文官方文件：
http://sklearn123.com/

歡迎關注磐創部落格資源彙總站：
http://docs.panchuang.net/

5行程式碼使Scikit-Learn引數學習速度提高5倍

如果想加快這個過程呢

簡單的60秒漫遊

TuneGridSearchCV示例

TuneSearchCV貝葉斯優化示例

文件和示例

5行程式碼使Scikit-Learn引數學習速度提高5倍

Python用5行程式碼實現批量摳圖的示例程式碼

用Python寫一個隨機數字生成程式碼，5行程式碼超簡單

scikit-learn機器學習筆記——特徵提取、特徵處理

爬蟲驗證碼識別免費開源版(5行程式碼解決)

《第一行程式碼：Android篇》學習筆記（四）

《第一行程式碼：Android篇》學習筆記（三）

《第一行程式碼：Android篇》學習筆記（二）

《第一行程式碼：Android篇》學習筆記（五）

《第一行程式碼：Android篇》學習筆記（六）

《第一行程式碼：Android篇》學習筆記（七）

《第一行程式碼：Android篇》學習筆記（八）

微軟研究出新的分子控制器，使 DNA 儲存寫入速度提高 1000 倍

有黑客帝國那味了：人腦細胞在培養皿中學會打遊戲，比 AI 學習速度快 18 倍還省電

5行Python程式碼實現影象分割的步驟詳解

5 行 Python 程式碼！就能實現火爆全網的多型條形圖！

5行Python程式碼就能實現刷爆全網的動態條形圖！

【機器學習】scikit-learn中的特徵選擇小結

Kotlin-高階函式詳解，inline, noinline, crossinline關鍵字解析（第一行程式碼Kotlin學習筆記7）

機器學習筆記之scikit learn基礎知識和常用模組

5行程式碼使Scikit-Learn引數學習速度提高5倍

如果想加快這個過程呢

簡單的60秒漫遊

TuneGridSearchCV示例

TuneSearchCV貝葉斯優化示例

文件和示例

相關推薦