1. 程式人生 > >模型效果驗證方法

模型效果驗證方法

        對於迴歸問題,一般採用均方誤差驗證。

        對於分類問題,首先要明確兩個概念:查準率和查全率。資料可以分成四種類別:真正例TP、真反例TN、假正例FP、假反例FN。TP是指預測結果是正例,實際也是正例的資料;TN指預測結果是反例,實際也是反例的資料;FP是指預測結果是正例,實際是反例的資料;FN指預測結果是反例,實際是正例的資料。它們可以構成一個混淆矩陣。查準率表示在所有預測為正例/反例的資料中實際也是正例/反例的資料的比例,舉例像晚上我們買了幾個西瓜,買的時候覺得它們都很甜,拿回去切開後才發現有幾個還沒熟。查全率表示在實際是正例/反例的資料中預測為正例/反例的比例,就好比瓜農拿了幾個好瓜給我們,我們覺得有幾個瓜比較甜,實際上全都很甜。查準率和查全率是比較矛盾的兩個指標,一方較大那麼另一方往往會較小。

        P-R曲線可以用來評估兩個學習器的效果好壞,它以查準率為橫軸、查全率為縱軸。如果一條學習器的曲線能完全包住另一條曲線,那麼前者的效果比後者好。如果兩條曲線有交叉,那麼平衡點離兩個座標軸較遠的學習器效果較好。

        f1指標是查準率和查全率的調和平均值,它兼顧考慮了兩個量。

        對於roc曲線而言,如果一個學習器的曲線能夠完全包住另一條曲線,那麼前者的效果好於後者,這和P-R曲線相同。當兩條曲線有交叉時也考慮曲線與座標軸的面積,大者較好,auc就是表示roc曲線與座標軸面積的量。