1. 程式人生 > >機器學習套路三步走

機器學習套路三步走

機器學習的套路

  • 1.model如何對現實的場景進行抽象
  • 2.model如何對引數進行求解
  • 3.model的效果如何評價

1.抽象

例如線性迴歸,就是認為預測變數y和特徵X之間存線上性關心,老掉牙的例子就是房價和地區收入,人口密度等等的線性關係
線性迴歸的數學假設有兩個部分:
1. y的預測值是資料特徵的線性變換。這裡的引數是一組係數。而y的係數和資料特徵的線性組合。
2.y的預測值和實際值之間存在一個誤差,這個誤差是符合正太分佈的

2.引數求解

引數求解每個模型都不一樣,一般通用的就是SGD和各種變種
還以上面的線性迴歸為例,求解的引數就是y=Wx中的W

3.評價

評價模型的效果好不好,均方誤差,logloss等等
上面的線型模型因為假設預測值和實際值的誤差是符合正太分佈,所以一般用均方誤差

總結

第一步抽象很重要,第二步作為普通人主要是使用現成的演算法進行引數求解,第三步往往已經在實際的生產環境中確定了模型的評價標準
一般的經驗是在用一個模型對資料進行訓練的時候,如果訓練集上欠擬合,可能是模型的表徵能力不行對應;如果在測試集上過擬合,那可能就是模型的表徵能力太強,噪聲都被學習了。至於模型的迭代和改進這又是另一個問題了。