【機器學習】分類器效能指標
1. 錯誤率:
e = 錯誤分類個數/總樣本數
2. 正確率:
TP:分類正確正例
TN:分類正確負例
FP:分類錯誤正例
FN:分類錯誤負例
precision = 分類正確的正類/(預測結果中被分為正類的個數) = TP/(TP+FP)
3. 召回率:
recall = 分類正確的正類/(所有正類的個數) = TP/(TP+FN)
4. F1 score
5. ROC曲線
ROC(receiver operating characteristic)“受試者工作特徵”。ROC縱軸為“真正例率”(TPR),橫軸是“假正例率”(FPR),其中:
TPR = 分類正確正例/ 所有正例 = TP/(TP+FN)
FPR = 分類錯誤的正例/ 所有負例 = FP/(TN+FP)
生成過程:
① 將分類結果按照分成正例的概率從小到大排序,最左邊即最不可能是正例的例子;
② 從左往右依次將每個樣例設為閾值,閾值左邊(包含當前樣例)均判為正例,右邊均判為負例;
③ 然後計算對應的TPR和FPR,即為RUC的一個座標;(計算tipes:假設上一輪的座標為(x,y)若當前的閾值是正例則更新y = y + 1/正例個數,若當前值是反例則更新x= x + 1/反例個數)。
由上圖:
① 左上角表示效能最佳的分類器(所有樣例分類正確),右下角表示效能最差的分類器(所有樣例分類錯誤)。
②ROC曲線越靠左上角,分類器效能越好。
③圖中的虛直線表示“隨機猜測”的ROC線,也就是有50%的樣例被預測錯誤;
③ ROC所圍成的區域的面積稱為AUC,AUC越大分類效果越好。AUC > 0.5, 效果好於隨機猜測。AUC = 0.5, 效果和隨機猜測一樣。AUC<0.5, 效果不如隨機猜測。AUC代表了分類器的平均效能。
圖中2和3的ROC曲線覆蓋了1的,說明2和3的分類效能好;2和3的ROC曲線大部分重合,為了判斷哪個更好,可以使用AUC面積來比較。