分類模型的評價指標--混淆矩陣,F1-score,ROC曲線,AUC,KS曲線
1. 混淆矩陣---確定截斷點後,評價學習器效能
TP(實際為正預測為正),FP(實際為負但預測為正),FN(實際為正但預測為負),TN(實際為負預測為負)
通過混淆矩陣我們可以給出各指標的值:
查全率(召回率,Recall):樣本中的正例有多少被預測準確了,衡量的是查全率,預測對的正例數佔真正的正例數的比率:
查全率 = TP / (TP+FN)
查準率(精準率,Precision):針對預測結果而言,預測為正的樣本有多少是真正的正樣本,衡量的是查準率,預測正確的正例數佔預測為正例總量的比率:
查準率 = TP / (TP+FP)
準確率(Accuracy):反映分類器對整個樣本的判定能力,能將正的判定為正,負的判定為負的能力,計算公式:
Accuracy=(TP+TN) / (TP+FP+TN+FN)
陰性預測值:可以理解為負樣本的查準率,陰性預測值被預測準確的比例,計算公式:
NPV=正確預測到的負例數/實際負例總數=TN / (TN+FN)
如果為多分類,也可以通過混淆矩陣得到上述指標的具體值。
查準率和查全率通常是一對矛盾的度量,通常一個高,另外一個就低。兩個指標都很重要,我們應該根據實際情況綜合考慮這兩個指標。會有一個查準率=查全率的“平衡點”,過了這個點,查全率將增加,查準率將降低。
2. F1-score---查準率和查全率的加權調和平均數
(1)當認為查準率和查全率一樣重要時,權重相同時:
(2)當查準率和查全率的重要性不同時,即權重不同時:
1. β=1,查全率的權重=查準率的權重,就是F1
2. β>1,查全率的權重>查準率的權重
3. β<1,查全率的權重<查準率的權重
除了F1分數之外,F0.5分數和F2分數在統計學中也得到了大量應用。其中,F2分數中,查全率的權重高於查準率,而F0.5分數中,查準率的權重高於查全率。另外,F1分數又分為巨集-F1和微-F1。
3. ROC曲線, AUC---評價學習器效能,檢驗分類器對客戶進行正確排序的能力
分類器產生的結果通常是一個概率值不是直接的0/1變數,通常數值越大,代表正例的可能性越大。
根據任務的不同也會採取不同的“截斷點”,大於則為正例,小於則為反例。如重視查全率,則閾值可以設定低一些;而重視查準率,閾值可以設定高一些。
如果設定了截斷點或明確了任務,那麼我們根據混淆矩陣就可以知道分類器的效果好壞(計算出P、R和截斷點或閾值進行比較)。
在未設定截斷點(任務不明確)情況下,我們如何評價一個分類模型的效果的好壞或者比較不同分類模型效果呢?
我們可以觀察這個學習器利用所有可能的截斷點(就是所有樣本的預測結果)對樣本進行分類時的效果,注意要先對所有可能的截斷點進行排序,方便對比觀察。
ROC曲線描繪的是不同的截斷點時,並以FPR和TPR為橫縱座標軸,描述隨著截斷點的變小,TPR隨著FPR的變化。
縱軸:TPR=正例分對的概率 = TP/(TP+FN),其實就是查全率
橫軸:FPR=負例分錯的概率 = FP/(FP+TN)
如果是隨機分類,沒有進行任何學習器,FPR=TPR,即正例分對和負例分錯概率相同,預測出來的正例負例和正例負例本身的分佈是一致的,所以是一條45°的直線。因此,ROC曲線越向上遠離這條45°直線,說明用了這個學習器在很小的代價(負例分錯為正例,橫軸)下達到了相對較大的查全率(TPR)。
4. KS曲線,KS值---學習器將正例和反例分開的能力,確定最好的“截斷點”
KS曲線和ROC曲線都用到了TPR,FPR。KS曲線是把TPR和FPR都作為縱座標,而樣本數作為橫座標。