1. 程式人生 > >《機器學習應用開發典型步驟》

《機器學習應用開發典型步驟》

假設我們要開發一個房價評估系統,系統的目標是對已知特徵的房子價格進行評估預測,建立一個這樣的系統一般需要以下幾個步驟。

第一部分:資料採集和標記

1、資料採集:獲取實驗所需的訓練樣本或者資料集(大量不同特徵的房子和對應的價格資訊),這些訓練樣本需要有不同的特徵(比如:房子的面積、地理位置)。特徵越全,資料越多,訓練出來的模型才會越準確。

2、標記:資料標記對有監督學習是必須的。像垃圾郵件過濾系統,我們的訓練樣例必須包含這個郵件是否為垃圾郵件的標記資料。

第二部分:資料清洗

假設我們採集到的資料裡,關於房子面積,有按平方米計算的,也有按平方英尺計算的,這是需要對面積單位進行統一,這個過程稱為資料清洗。資料清洗還包括去掉重複的資料及噪聲資料,讓資料具備結構化特徵,以方便作為機器學習演算法的輸入。

第三部分:特徵選擇

假設我們採集到了100個房子的特徵,通過逐個分析這些特徵,最終選擇了30個特徵作為輸入,這個過程稱為特徵選擇

1、人工選擇:人為對每個特徵進行分析,然後選擇適合的特徵集合。

2、自動選擇:通過模型來自動完成,例如:PCA演算法

第四部分:模型選擇

房價評估系統是屬於有監督學習的迴歸學習型別,我們可以選擇而最簡單的線性方程來模擬,選擇哪個模型。

第五部分:模型訓練和測試

把資料集分成訓練資料集測試資料集,一般按照8:2或7:3來劃分,然後用訓練資料集來訓練模型。訓練出引數後再使用測試資料集來測試模型的準確度。

第六部分:模型效能評估和優化

模型出來後,我們需要對機器學習的演算法模型進行效能評估。其中包括訓練時長

(需要花多少時間來訓練這個模型,有的時候會很長)。