機器學習專案主要步驟詳細清單(精)

阿新 • • 發佈：2019-02-09

對於機器學習專案來說,你開始獲得之後有一個總體思路很重要,也需要一些預設遵守的原則.
個人記錄翻譯
Hands-On Machine Learning with Scikit-Learn and TensorFlow 附錄B

指導你完成你機器學習專案的清單列表

主要是有8個主要步驟：

從整體上思考觀察所需要解決的問題.
獲得資料.
仔細觀察你的資料得到對這些資料的思路與想法.
將資料處理成符合機器學習演算法所需要求.
找不同演算法模型, 並尋找效果最好一個.
微調模型並將它們組合成一個很好的解決方案.
提出解決方法.
啟動,監控和維護.

<1>從整體上思考所需要解決的問題

定義業務目標的解決方案.
解決方案如何使用?
目前的解決方案是什麼(如果之前存在的話)?
如何去構建解決方案(監督學習/無監督學習, 線上/線下)?
如何衡量效能效果(例誤差率這些)?
效能效果的提升與否是否與業務目標一致?
業務目標所需的最低效能標準是多少?
是否存在類似的專案, 是否存在可以重用的工具或者經驗？
是否有人類專業知識？
你將會如何手動解決問題？
列出至今為止做出的假設.
如果可能驗證假設.

<2>獲得資料

Note: 儘可能地自動化，以便輕鬆地獲取資料

列出需要的資料列表與資料量大小.
尋找資料並且記錄找到這些資料的方法.
檢查這需要多少空間.
檢查法律義務，必要時申請授權.

獲得訪問許可權授權.
建立工作空間.
取得資料.
將資料成方便你操作的型別(無需改變資料本身).
確保刪除或者刪除隱私資訊.
檢查資料的大小和型別（時間序列，樣本，地理位置等）.
抽取一部分資料集作為測試集，放到一邊不要看.

<3>探索你的資料

Note: 跟領域專家探討下列這些步驟

複製資料(如果需要, 抽樣成一個可管理的大小).
建立一個 Jupyter notebook 記錄探索資料過程.
研究每個特徵和屬性:
– 名稱
– 型別（明確，有界/無界，文字，結構化的，等等）
– 資料缺失率
– 噪聲與噪聲型別（隨機，異常值，舍入誤差等）
– 可能對專案有用嘛？
– 資料分佈情況（高斯分佈，均勻，對數）.

<4>準備資料

Notes:

在複製資料上工作（保證源資料的完整性）
為所有資料的轉換編寫函式，為下列5個理由：
- 為了更容易地準備資料當你獲取得新資料
- 可以應用這些轉換在未來的專案
- 清洗和準備測試集
- 清洗和準備新資料一旦解決方案是實時的
- 便於選擇超引數

資料清洗
–修復或者移除離群值（可選）.
–填充缺失值（0，平均值，中位數等等）或者刪除這一行或列
特徵選擇（可選）
–刪除不提供任務有用資訊的屬性
特徵工程，恰當時
– 分離連續特徵
– 分解特徵（例如：分類，日期/時間等）
– 新增可能有用的特徵轉換（log(x), sqrt(x), x^2 等）
– 聚合特徵去形成可能有效果的新特徵
特徵縮放，標準化特徵

<5>列出可能有效的模型列表

Notes:
– 如果你有大資料集，你可能想要抽樣小資料集便於在可能的時間內多次試用不同的模型（但要記得小資料集會懲罰複雜的模型，如隨機森林，大型神經網路等）
– 一再強調，儘可能地自動化這些步驟：

訓練來自不同類別的許多快速的模型（例如，線性，樸素
貝葉斯，SVM，隨機森林，神經網路等）使用標準引數。
測量和比較他們的表現
– 對於每個模型，使用N折交叉驗證，測試每個模型效能的平均值與標準差.
分析每個模型的最重要屬性.
分析每個模型出現誤差的原因.
– 人們一般如何解決這些誤差
快速進行功能選擇和工程設計.
對上述5個步驟進行一次或兩次快速迭代.
找出最可能表現得最好的3到5個模型, 更傾向於那些誤差原因不同的模型.

<6>微調模型

Notes:
– 儘可能地準備更多的資料以用於模型微調.
– 儘可能自動化

使用驗證微調你的超引數.
– 將資料選擇轉換視為超引數，特別當你不確定時(例如缺失值是否用平均值，中位數填充，或者乾脆刪除)
– 除非要探索的超引數值非常少，否則更喜歡隨機
搜尋網格搜尋。如果訓練時間很長，您可能更喜歡貝葉斯訓練
優化方法.
嘗試合併的方法.組合表現最好的模型往往比你單獨使用他們表現來得好.
一旦決定你的最終模型，測量它在測試集上的效能表現，用於評價模型誤差.

ps：測量泛化誤差後，請勿調整模型，你只是開始過度擬合測試集.(不明白）

<7>提出你的解決方案

記錄你完成的事情.
建立一個漂亮的簡報
解釋解決方案實現業務目標的原因.
不要忘記提出一些有趣的點.
– 如哪一些有效，哪一些無效，列出你的假設與系統的限制
確保通過視覺化一些精美的圖表與容易記住的陳述來傳達您的主要發現.

<8>啟動

準備好生產解決方案（插入生產資料輸入，寫入
單元測試等）。
編寫監控程式碼，以定期檢查系統的實時效能。
vals並在它下降時觸發警報。
謹防緩慢退化：隨著資料的發展，模型往往會“腐爛”。
測量效能可能需要人工管道（例如，通過人群 -
服務）。
還監控輸入的質量（例如，傳送故障的感測器 -
dom值，或其他團隊的輸出變得陳舊）。這尤其如此
對線上學習系統很重要。
定期在新資料上重新訓練模型（儘可能自動化）
BLE）

機器學習專案主要步驟詳細清單(精)

對於機器學習專案來說,你開始獲得之後有一個總體思路很重要,也需要一些預設遵守的原則. 個人記錄翻譯 Hands-On Machine Learning with Scikit-Learn and TensorFlow 附錄B 指導你完成你機器學習專案的

【機器學習】超詳細！上線一個機器學習專案你需要哪些準備？

Canvas是用於設計和記錄機器學習系統的模板。它比簡單的文字文件具有優勢，因為Canvas用簡

機器學習專案流程清單

翻譯自《Hands On Machine Learning with Scikit Learn and TensorFlow》的APPENDIX B: Machine Learning Project Checklist 翻譯過程根據筆者的習慣進行了文

從軟件project的角度寫機器學習3——主要監督學習算法的project性分析

求解大戰 dsm 二次它的 mar 集成 href .info 主要機器學習算法的project適用性分析前段時間AlphaGo跟李世石的大戰及相關的深度學

機器學習專案的例項分析設計（附原始碼）

摘要說明：最近在學習“Hands-On Machine Learning with Scikit-Learn &TensorFlow”,其中一些機器學習的思考和處理方式很具有專案級開發的特點。我在原文提供的例項基礎上，結合自己的分析，模擬了一個機器學習專案的分析和實現過程，包括專

關於那些羞羞的不可描述的動作分析，一個正經的機器學習專案

參加 2018 AI開發者大會，請點選 ↑↑↑ 作者 | Unknown 譯者 | czh912019784 編輯 | 查無此人出品 | AI科技大本營現在，機器學習已經應用在各行各業中，開發工程師隊伍越發壯大，其中有一類工程師的工作內容在外行

結構化機器學習專案_課程筆記_第一、二週

第一週機器學習策略_1 這一門課主要介紹了在具體專案實踐中會遇到的一些問題以及採取的策略。所擷取的圖片依然來源於吳恩達老師的相關視訊資源。 1. 正交化（Orthogonalization） Andrew建議機器學習的調參過程應保持正交化。上圖所示的機器學習的4個流程，每一步的除

Deep Learning.ai學習筆記_第三門課_結構化機器學習專案

目錄第一週機器學習策略（1）第二週機器學習策略（2）目標：學習一些機器學習優化改進策略，使得搭建的學習模型能夠朝著最有希望的方向前進。第一週機器學習策略（1）搭建機器學習系統的挑戰：嘗試和改變的東西太多，比如超引數。什麼是正交化？

Python機器學習全流程項目實戰精講（2018版）

進階需求分析課程 baidu 流程 tps 經歷有趣的數據分析 Python機器學習全流程項目實戰精講（2018版）網盤地址：https://pan.baidu.com/s/16SSVq74YC07M0dW1iDekPg 提取碼: vu7r備用地址（騰訊微雲）：ht

2018年最出色30個機器學習專案 (公號回覆“機器學習2018”下載PDF資料)

2018年最出色30個機器學習專案 (公號回覆“機器學習2018”下載PDF資料) 原創：秦隴紀資料簡化DataSimp 今天資料簡化DataSimp導讀：《2018年最出色的30個機器學習專案》是美國IT媒體Medium原標題30 Amazing Machine Learning

機器學習-2（機器學習程式的步驟）

1 收集資料這一塊你要的知識是如何獲得資料如果不是自己的生產環境產生的真實資料，你還需要獲得爬蟲的技能，來從外部獲取資料到自己的分析庫。 2 準備輸入資料這一塊可以理解為資料轉換，把資料格式轉

分享《TensorFlow機器學習專案實戰》中文PDF+英文PDF+原始碼

下載：https://pan.baidu.com/s/1U3OiYNhS9ncvzpHGMoZfjA 更多資料分享：http://blog.51cto.com/3215120 《TensorFlow機器學習專案實戰》中文PDF+英文PDF+原始碼中文PDF，331頁，帶書籤目錄，文字可以複製，彩色配圖。英

十個例子，教你用統計學方法高效完成機器學習專案（下）【楚才國科】

五、資料準備：資料一般不會直接拿來建模。為了改變資料的形狀或結構，使它更適用於選定的問題架構或學習演算法，需要對資料進行必要的轉化。資料準備也會用到統計模型，例如： 1、縮放。例如標準化和規範化。 2、編碼。例如整數編碼和獨熱編碼。 3、變換。例如 Box-Cox

十個例子，教你用統計學方法高效完成機器學習專案（上）【楚才國科】

統計學和機器學習是兩個聯絡特別緊密的領域事實上，這兩者的界限有時候非常模糊。然而有一些明顯屬於統計學領域的方法，不僅可用於機器學習的專案，並且極具價值。公平地說，需要統計學方法來有效地完成機器學習預測建模專案。一、問題架構：這包括了問題型別的選擇，例如是迴歸還是分類，也許

《TensorFlow機器學習專案實戰》[ Rodolfo，Bonnin 著]中文PDF+英文PDF+原始碼下載

本書是介紹如何在產品中使用TensorFlow的實用教程。本書介紹了可以使用TensorFlow的多種情況，並通過真實世界的專案，向讀者展示瞭如何使用TensorFlow。本書還講解了在實際環境中使用TensorFlow的創新方法。本書主要介紹第二代機器學習與數值計算，提供了

【機器學習】EM演算法詳細推導和講解

眾所周知，極大似然估計是一種應用很廣泛的引數估計方法。例如我手頭有一些東北人的身高的資料，又知道身高的概率模型是高斯分佈，那麼利用極大化似然函式的方法可以估計出高斯分佈的兩個引數，均值和方差。這個方法基本上所有概率課本上都會講，我這就不多說了，不清楚的請百度。　　然而現在我面臨的是這種情況，我

資源 | 過去一年最牛逼的30個機器學習專案！

這是一個競爭極為激烈的列表！因為這是從2017年1月至12月期間釋出的最佳開源機器學習庫、資料集和應用程式裡精心挑選出來的。挑選的基數高達8800個。這是一個評價嚴謹的列表！為了更好地評價這些專案，使用Mybridge A

機器學習專案實戰--邏輯迴歸（Logistic Regression）

（一）邏輯迴歸邏輯迴歸演算法是一種廣義的線性迴歸分析模型, 可用於二分類和多分類問題, 常用於資料探勘、疾病自動診斷、經濟預測等領域。通俗來說, 邏輯迴歸演算法通過將資料進行擬合成一個邏輯函式來預估一個事件出現的概率，因此被稱為邏輯迴歸。因為演算法輸出的為事件發生概率, 所以其輸出值應該在0

機器學習專案開發過程（End-to-End Machine Learning Project）

引言：之前對於機器學習的認識停留在演算法的分析上，這篇文章主要從專案開發的角度分析機器學習的應用。這篇文章主要解釋實際專案過程中的大致方針，每一步涉及的技術不會介紹很細緻。機器學習專案開發步驟如下： 1. Look at the big picture. 2. Get the dat

機器學習總結之——機器學習專案完整流程

機器學習總結之——機器學習專案的完整流程 1、分析專案需求，明確具體問題進行一個專案前，首先要做的是要分析專案各個需求，以及明確各個需求所對應的具體問題並將其抽象成一個個數學問題，將專案過程轉換成數學建模過程。 PS：這裡的抽象成數學問題

機器學習專案主要步驟詳細清單(精)

指導你完成你機器學習專案的清單列表

主要是有8個主要步驟：

<1>從整體上思考所需要解決的問題

<2>獲得資料

<3>探索你的資料

<4>準備資料

<5>列出可能有效的模型列表

<6>微調模型

<7>提出你的解決方案

<8>啟動

相關推薦