《機器學習應用開發典型步驟》

阿新 • • 發佈：2019-02-08

假設我們要開發一個房價評估系統，系統的目標是對已知特徵的房子價格進行評估預測，建立一個這樣的系統一般需要以下幾個步驟。

第一部分：資料採集和標記

1、資料採集：獲取實驗所需的訓練樣本或者資料集（大量不同特徵的房子和對應的價格資訊），這些訓練樣本需要有不同的特徵（比如：房子的面積、地理位置）。特徵越全，資料越多，訓練出來的模型才會越準確。

2、標記：資料標記對有監督學習是必須的。像垃圾郵件過濾系統，我們的訓練樣例必須包含這個郵件是否為垃圾郵件的標記資料。

第二部分：資料清洗

假設我們採集到的資料裡，關於房子面積，有按平方米計算的，也有按平方英尺計算的，這是需要對面積單位進行統一，這個過程稱為資料清洗。資料清洗還包括去掉重複的資料及噪聲資料，讓資料具備結構化特徵，以方便作為機器學習演算法的輸入。

第三部分：特徵選擇

假設我們採集到了100個房子的特徵，通過逐個分析這些特徵，最終選擇了30個特徵作為輸入，這個過程稱為特徵選擇。

1、人工選擇：人為對每個特徵進行分析，然後選擇適合的特徵集合。

2、自動選擇：通過模型來自動完成，例如：PCA演算法

第四部分：模型選擇

房價評估系統是屬於有監督學習的迴歸學習型別，我們可以選擇而最簡單的線性方程來模擬，選擇哪個模型。

第五部分：模型訓練和測試

把資料集分成訓練資料集和測試資料集，一般按照8:2或7:3來劃分，然後用訓練資料集來訓練模型。訓練出引數後再使用測試資料集來測試模型的準確度。

第六部分：模型效能評估和優化

模型出來後，我們需要對機器學習的演算法模型進行效能評估。其中包括訓練時長

（需要花多少時間來訓練這個模型，有的時候會很長）。

《機器學習應用開發典型步驟》

第一部分：資料採集和標記

第二部分：資料清洗

第三部分：特徵選擇

第四部分：模型選擇

第五部分：模型訓練和測試

第六部分：模型效能評估和優化

《機器學習應用開發典型步驟》

『Python』MachineLearning機器學習入門_極小的機器學習應用

Python 機器學習之開發環境

第六週（機器學習應用建議）-【機器學習-Coursera Machine Learning-吳恩達】

機器學習應用在幾種形態下落地的問題和參考架構

機器學習應用思路

機器學習專案開發過程（End-to-End Machine Learning Project）

python機器學習應用mooc_(1)KNN

Stanford機器學習-應用機器學習的建議

如何交付機器學習專案：一份機器學習工程開發流程指南

【經驗】學習android開發的步驟

機器學習應用實踐難？看完這十大訣竅瞬間懂了！

【MOOC】Python機器學習應用-北京理工大學

17個最受歡迎的機器學習應用標準資料集

NLTK01 《NLTK基礎教程--用NLTK和Python庫構建機器學習應用》

五款實用免費的Python機器學習整合開發環境（5 free Python IDE for Machine Learning）（圖文詳解）

機器學習任務的一般步驟

1，機器學習應用概述

【Machine Learning, Coursera】機器學習Week6 機器學習應用建議

Stanford機器學習---第十四講.機器學習應用舉例之Photo OCR

《機器學習應用開發典型步驟》

第一部分：資料採集和標記

第二部分：資料清洗

第三部分：特徵選擇

第四部分：模型選擇

第五部分：模型訓練和測試

第六部分：模型效能評估和優化

相關推薦