1. 程式人生 > >【機器學習】分類器效能指標

【機器學習】分類器效能指標

1. 錯誤率:

e = 錯誤分類個數/總樣本數

2. 正確率:

TP:分類正確正例

TN:分類正確負例

FP:分類錯誤正例

FN:分類錯誤負例

precision = 分類正確的正類/(預測結果中被分為正類的個數)  = TP/(TP+FP)

3. 召回率:

recall = 分類正確的正類/(所有正類的個數) = TP/(TP+FN)

4. F1 score

F1 = \frac{2PR}{P+R}

5. ROC曲線

ROC(receiver operating characteristic)“受試者工作特徵”。ROC縱軸為“真正例率”(TPR),橫軸是“假正例率”(FPR),其中:

TPR = 分類正確正例/ 所有正例 = TP/(TP+FN)

FPR = 分類錯誤的正例/ 所有負例 = FP/(TN+FP)

生成過程:

① 將分類結果按照分成正例的概率從小到大排序,最左邊即最不可能是正例的例子;

② 從左往右依次將每個樣例設為閾值,閾值左邊(包含當前樣例)均判為正例,右邊均判為負例;

③ 然後計算對應的TPR和FPR,即為RUC的一個座標;(計算tipes:假設上一輪的座標為(x,y)若當前的閾值是正例則更新y = y + 1/正例個數,若當前值是反例則更新x= x + 1/反例個數)。

由上圖:

① 左上角表示效能最佳的分類器(所有樣例分類正確),右下角表示效能最差的分類器(所有樣例分類錯誤)。

②ROC曲線越靠左上角,分類器效能越好。 

③圖中的虛直線表示“隨機猜測”的ROC線,也就是有50%的樣例被預測錯誤;

③ ROC所圍成的區域的面積稱為AUC,AUC越大分類效果越好。AUC > 0.5, 效果好於隨機猜測。AUC = 0.5, 效果和隨機猜測一樣。AUC<0.5, 效果不如隨機猜測。AUC代表了分類器的平均效能。

圖中2和3的ROC曲線覆蓋了1的,說明2和3的分類效能好;2和3的ROC曲線大部分重合,為了判斷哪個更好,可以使用AUC面積來比較。