分類演算法中常用的評價指標
阿新 • • 發佈:2019-01-03
混淆矩陣
labeled as positive | labeled as negative | |
---|---|---|
predicted as positive | True Positive (TP) |
False Positive (FP) |
predicted as negative | False Negative (FN) |
True Negative (TN) |
混淆矩陣(Confusion Matrix)中包含四種資料:
- TP:實際為正例,被預測為正例,預測正確
- FP:實際為負例,被預測為正例,預測錯誤
- FN:實際為正例,被預測為負例,預測錯誤
- TN:實際為負例,被預測為正例,預測正確
由以上四種資料得到四種比率如下:
- TPR(True Positive Rate,又稱 靈敏度:sensitivity):
TPR=TPTP+FN ,即正例被正確預測為正例的數目實際正例的數目 - FPR(False Positive Rate):
FPR=FPFP+TN ,即負例被錯誤預測為正例的數目實際負例的數目 - FNR(False Negative Rate):
FNR=FNTP+FN ,即正例被錯誤預測為負例的數目實際正例的數目 - TNR(True Negative Rate,又稱 特指度:specificity):
TNR=TNFP+TN ,即負例被正確預測為負例的數目實際負例的數目
評價指標
- Precision,即查準率:
P=TPTP+FP - Recall,即查全率:
R=TPTP+FN - F-Score,即precision和recall的調和平均值,更接近precision和recall中較小的那一個值:
F=2×P×RP+R - Accuracy,分類器對整體樣本的分類能力,即正例分為正例,負例分為負例:
A=TP+TNTP+FP+FN+TN - ROC,Receiver Operating Characteristic,主要用於畫ROC曲線(橫座標為FPR,縱座標為TPR)
ROC曲線中,關於四個關鍵點的解釋:
(FPR=0,TPR=0):將全部正例分為負例,全部負例分為負例
(FPR=0,TPR=1):全部劃分正確,即正例全部分為正例,負例全部分為負例
(FPR=1,TPR=1):將全部負例分為正例,全部正例分為正例
所以,ROC曲線越靠近左上角,說明分類器的效果越好。
- AUC,Area Under ROC Curve
在實際的資料集中經常會出現類不平衡(class imbalance)現象,即負樣本比正樣本多很多(或者相反),而且測試資料中的正負樣本的分佈也可能隨著時間變化,這樣ROC曲線會出現加大的波動。
AUC的值就是處於ROC curve下方的那部分面積的大小。通常,AUC的值介於0.5到1.0之間,較大的AUC代表了較好的performance。如果模型是完美的,那麼它的AUG = 1,如果模型是個簡單的隨機猜測模型,那麼它的AUG = 0.5,如果一個模型好於另一個,則它的曲線下方面積相對較大。