《機器學習應用開發典型步驟》
阿新 • • 發佈:2019-02-08
假設我們要開發一個房價評估系統,系統的目標是對已知特徵的房子價格進行評估預測,建立一個這樣的系統一般需要以下幾個步驟。
第一部分:資料採集和標記
1、資料採集:獲取實驗所需的訓練樣本或者資料集(大量不同特徵的房子和對應的價格資訊),這些訓練樣本需要有不同的特徵(比如:房子的面積、地理位置)。特徵越全,資料越多,訓練出來的模型才會越準確。
2、標記:資料標記對有監督學習是必須的。像垃圾郵件過濾系統,我們的訓練樣例必須包含這個郵件是否為垃圾郵件的標記資料。
第二部分:資料清洗
假設我們採集到的資料裡,關於房子面積,有按平方米計算的,也有按平方英尺計算的,這是需要對面積單位進行統一,這個過程稱為資料清洗。資料清洗還包括去掉重複的資料及噪聲資料,讓資料具備結構化特徵,以方便作為機器學習演算法的輸入。
第三部分:特徵選擇
假設我們採集到了100個房子的特徵,通過逐個分析這些特徵,最終選擇了30個特徵作為輸入,這個過程稱為特徵選擇。
1、人工選擇:人為對每個特徵進行分析,然後選擇適合的特徵集合。
2、自動選擇:通過模型來自動完成,例如:PCA演算法
第四部分:模型選擇
房價評估系統是屬於有監督學習的迴歸學習型別,我們可以選擇而最簡單的線性方程來模擬,選擇哪個模型。
第五部分:模型訓練和測試
把資料集分成訓練資料集和測試資料集,一般按照8:2或7:3來劃分,然後用訓練資料集來訓練模型。訓練出引數後再使用測試資料集來測試模型的準確度。
第六部分:模型效能評估和優化
模型出來後,我們需要對機器學習的演算法模型進行效能評估。其中包括訓練時長 (需要花多少時間來訓練這個模型,有的時候會很長)。