免費GPU！平民玩家的機器學習春天來了！

阿新 • • 發佈：2019-01-15

文-William Koehrsen
譯- Allen

近年來，資料科學呈現出了兩個明顯的趨勢:

1.越來越多的資料分析和模型訓練通過雲端計算完成

2.機器學習工作流水線（英文名稱為pipeline）自身正在通過演算法進行優化

使用Google Colab進行雲計算

如今，幾乎每個人都擁有自己的計算機。但膝上型電腦和臺式電腦一般只適用於日常性的工作。而如今機器學習要處理的資料集越來越大，對算力的要求也越來越高，利用雲端計算進行機器學習幾乎是普通使用者的不二選擇。

在本文，我們將用雲上的Jupyter Notebook來執行一個簡單的資料工作流程。使用的是Google最新的黑科技Google Colab——一個免費線上的Jupyter Notebooks（目前只有Python核心）。這個產品的出現意味著無論你身處哪裡，個人電腦是否帶在身邊，只要能聯網，就可以跑自己的機器學習模型。Google的虛擬機器上已經配置好了大部分你所需要的資料科學庫，無需配置環境就可以直接使用，而且還可以免費使用一個NVIDIA Tesla K80 GPU！！！

複製到Chrome瀏覽器，直接開啟，需要登入Google賬號。開啟之後的介面是下面這樣的，點選檔案>在雲端硬碟中儲存一份副本。然後你就可以在自己的Drive上開啟這個檔案進行編輯和執行。

可以說，Google Colab明顯降低了利用雲端計算的門檻。不難想象，類似的線上資源在日後將會越來越容易獲得。對於已經在本地電腦用過Jupyter Notebooks的同學來說，這是一個向雲端計算過渡的好機會。

適用TPOT進行機器學習自動化

接下來，向同學們介紹另外一樣神器——機器學習自動化（縮寫為Auto-ml）。它能夠通過演算法為特定的問題設計和優化機器學習工作流水線。在本文中，機器學習流水線包括以下幾個步驟:

1.特徵預處理: 填充缺失值，縮放，構建新的特徵

2.特徵選擇:降維

3.模型選擇:對多個模型進行評估

4.調參:找到最佳的模型超引數設定

對以上的四個步驟進行組合你可以得到幾乎無限多種流水線，而每個問題的最佳解決方式都不一樣。設計一個機器學習流水線是一個非常消耗時間以及容易踩坑的過程，所以我們一般無法遍歷所有流水線，也就是說你永遠不知道你設計出來的流水線是不是最優的。這個時候，機器學習自動化出現了，它可以幫助你評估成千上萬種可能的流水線的表現，自動找出最優的（或接近最優的）解決方案。

機器學習只是資料科學的一部分，機器學習自動化並不意味著可以替代資料科學家。相反，機器學習自動化可以解放資料科學家的雙手，讓他們可以專注於更有價值的部分，比如資料收集、模型解釋等等

目前已經有許多機器學習自動化的工具——H20、auto-sklearn、Google Cloud AutoML以及接下來我要重點介紹的TPOT（Tree-based Pipeline Optimization Tool，樹型流水線優化工具）。TPOT主要是基於遺傳演算法的原理來尋找最佳的機器學習流水線。

遺傳演算法對於建立機器學習模型的主要好處就是深度的探索。對於人來說，即使沒有時間的限制，也無法嘗試完所有的預處理、模型、超引數的組合，畢竟個人的知識和想象力是有限的。而遺傳演算法對於任何機器學習流水線都不會有初始的偏見（人類可能會根據自己的經驗，產生一些偏見），每一條流水線都會被客觀地評估。此外，遺傳演算法中的適應度函式使得流水線探索空間中，最有潛力的組合區域比表現差的區域探索地更為徹底，這也是遺傳演算法的一大優勢。

兩者相結合:雲上的機器學習自動化

來來來，這個實現其實很簡單！有了前面所述的背景，我們就可以愉快地在Google Colab上使用TPOT來實現機器學習的自動化。

我們接下來嘗試去解決一個監督迴歸的問題 : 通過紐約市的能源資料，我們希望預測出建築物的能源星級。筆者曾經手動地進行特徵工程、降維、模型篩選、調參，最後訓練出了一個Gradient Boosting 迴歸模型，在測試集上的平均絕對誤差是9.06。讓我們來看看自動化後得到的模型效能如何？

資料集包含了幾十個連續型數值變數（比如建築的能源使用量和建築面積）以及兩個獨熱編碼的分類變數（地區名與建築型別），總計有82個特徵。

首先，我們需要確定在Google Colab的環境裡面是否已經安裝了TPOT。一般來說，大多數的資料科學包都已經安裝好了，如果要新增新的包，可以使用如下的命令（記得在前面加“！”）:

在讀取資料後，我們通常會填充缺失的值以及將特徵歸一化。好訊息是，除了前面所述的特徵工程、模型選擇、調參，TPOT還會自動填充缺失值和進行特徵縮放！所以，我們下一步只需要建立TPOT優化器就可以了。

使用預設引數，TPOT優化器會建立100個流水線，每個流水線演化100代，得出這1萬個流水線的評分。使用十折交叉驗證，這意味著將有10萬次訓練要跑！即使我們使用的是Google的計算資源，但還是會有時間限制的。為了避免超出Colab伺服器的使用時限（Google只允許12個小時的連續執行時間），我們將設定TPOT的執行時間最大為8小時，儘管TPOT的一般執行時間是幾天，但是通過幾個小時的優化，我們仍然能得到不錯的模型。

我們將設定如下的引數:

● scoring = neg_mean_absolute error : 迴歸表現的評估指標

● max_time_minutes = 480: 限制執行時間為8小時

● n_jobs = -1: 使用計算機上的所有可用核心

● verbosity = 2: 訓練時顯示有限的資訊

● cv = 5: 使用5折交叉驗證（預設值為10）

當然，還有其他的引數可以設定，但是它們保留預設值也適用於大多數情況，在這裡就不再另外設定。

TPOT優化器的語法設計與Scikit-Learn模型相同，因此我們可以使用.fit方法訓練優化器。

在訓練過程中，我們獲得瞭如下的資訊:

由於時間限制，每個流水線只能演化15代，這意味著我們評估了1500個不同的獨立流水線的得分，已經比我們手動嘗試要多得多了！

一旦模型訓練好了，我們可以通過 tpot.fitted_pipeline_ 檢視最優的流水線。我們還可以將模型儲存到一個Python指令碼中:

由於我們使用的是Google Colab notebook,如果我們要從伺服器上將這個流水線下載到本地，則需要使用Google Colab的檔案管理庫:

我們可以開啟 tpot_exported_pipeline.py 檔案檢視完整的流水線:

（這個檔案的下載地址在文末）

我們可以看到，優化器已經為我們填充了缺失值並且建立了一個完整的流水線！最終的預測模型是一個融合了 LassoLarsCV 和 GradientBoostingRegressor 兩種演算法的融合模型(Stacking model)。實話說，如果我自己動手訓練，可能無法得到這樣一個複雜的模型。

現在，激動人心的時刻到了，讓我們來看看模型在測試集上的表現。我們可以使用.score來獲得平均絕對誤差:

這個專案我曾經自己手動花了幾個小時完成，最終得到的Gradient Boosting Regressor 模型得到的平均絕對誤差是9.06。機器學習自動化真的顯著地提高了最終模型的表現，也大幅減少了開發時間。

總結一下

在這篇文章中，我們簡要地介紹了使用雲端計算進行機器學習以及機器學習自動化。只要你有谷歌賬號同時能聯網，那麼就可以使用Google Colab 進行開發，執行和分享機器學習工作檔案。使用TPOT，可以通過自動化的訓練和評估過程獲得最優的機器學習流水線（包括特徵預處理、模型選擇、調參）.另外，我們也意識到，機器學習自動化並不會替代資料科學家，反而它會讓資料科學家能夠抽出更多的時間花在更有價值的工作中。

作為一個新誕生的事物，TPOT已經相對成熟，而且非常易於使用。大家還不趕緊運用這個方法去嘗試解決機器學習的問題（Kaggle上有很多不錯的專案）!在Google Colab 的notebook上執行一個自動化的機器學習專案，簡直未來感十足有木有，而且門檻居然如此之低，不說了，小編突然想在手機上跑下試試~

完美執行!

文中所提到的相關檔案下載地址:

免費GPU！平民玩家的機器學習春天來了！

使用Google Colab進行雲計算

適用TPOT進行機器學習自動化

兩者相結合:雲上的機器學習自動化

免費GPU！平民玩家的機器學習春天來了！

收藏！超全機器學習資料合集！（附下載）

流程的冬天來了？不，春天來了！

亞馬遜的VR購物新體驗！網購者的福利來了！

您有一份免費的機器學習課程待領取！

唐宇迪-機器學習/深度學習系列課程福利大發送！不單優惠還送機器學習必備實戰書籍！

11月最佳機器學習開源專案Top10！

外行人都能看得懂的機器學習，錯過了血虧！

12月19日雲棲精選夜讀 | 外行人都能看得懂的機器學習，錯過了血虧！

【機器學習】超詳細！上線一個機器學習專案你需要哪些準備？

用 Python 做機器學習至關重要的庫！

每週一書：290頁《機器學習導論》分享！

超詳細！如何準備機器學習競賽？

機器學習第5周！

拜託，別再問怎麼深入學習分散式架構了！

阿里深度學習框架開源了！無縫對接TensorFlow、PyTorch

重磅邀請函來了！首屆騰訊雲加社群開發者大會免費報名！

為什麼某個問題可以用機器學習方法來解決？

重磅邀請函來了！首屆“騰訊雲+社群開發者大會”免費報名！

有了深度學習，傳統的機器學習演算法沒落了嗎，還有必要去學習嗎？

免費GPU！平民玩家的機器學習春天來了！

使用Google Colab進行雲計算

適用TPOT進行機器學習自動化

兩者相結合:雲上的機器學習自動化

相關推薦