Roc曲線評價標準
1、一個二分問題,即將例項分成正類(positive)或負類(negative)。對一個二分問題來說,會出現四種情況。如果一個例項是正類並且也被預測成正類,即為真正類(Truepositive),如果例項是負類被預測成正類,稱之為假正類(False positive)。相應地,如果例項是負類被預測成負類,稱之為真負類(True negative),正類被預測成負類則為假負類(false negative)。
真正TP:正確肯定的數目;
假負FN:漏報,沒有正確找到的匹配的數目;
假正FP:誤報,給出的匹配是不正確的;
真負TN:正確拒絕的非匹配對數;
2、列聯表如下表所示,1代表正類,0代表負類。
預測 |
||||
1 |
0 |
合計 |
||
實際 |
1 |
True Positive(TP) |
False Negative(FN) |
Actual Positive(TP+FN) |
0 |
False Positive(FP) |
True Negative(TN) |
Actual Negative(FP+TN) |
|
合計 |
Predicted Positive(TP+FP) |
Predicted Negative(FN+TN) |
TP+FP+FN+TN |
真正率(TruePositive Rate , TPR)或靈敏度(sensitivity)
TPR = TP /
假負率(FalseNegative Rate , FNR)
FNR = FN /(TP + FN)= 1 - TPR(被預測為負的正樣本結果數 / 正樣本實際數)
假正率(FalsePositive Rate , FPR)
FPR = FP /(FP + TN)(被預測為正的負樣本結果數 /負樣本實際數)
真負率(TrueNegative Rate , TNR)或特指度(specificity)
TNR = TN /(TN + FP)= 1 - FPR(負樣本預測結果數 / 負樣本實際數)
目標屬性的被選中的那個期望值稱作是“正”(positive
其中,兩列Truematches和True non-match分別代表應該匹配上和不應該匹配上的
兩行Pred matches和Pred non-match分別代表預測匹配上和預測不匹配上的
3、roc
在一個二分類模型中,對於所得到的連續結果,假設已確定一個閥值,比如說 0.6,大於這個值的例項劃歸為正類,小於這個值則劃到負類中。如果減小閥值,減到0.5,固然能識別出更多的正類,也就是提高了識別出的正例佔所有正例的比類,即TPR,但同時也將更多的負例項當作了正例項,即提高了FPR。為了形象化這一變化,在此引入ROC,ROC曲線可以用於評價一個分類器。
ROC曲線上幾個關鍵點的解釋:
(TPR=0,FPR=0 ) 把每個例項都預測為負類的模型
(TPR=1,FPR=1 ) 把每個例項都預測為正類的模型
(TPR=1,FPR=0 ) 理想模型
一個好的分類模型應該儘可能靠近圖形的左上角,而一個隨機猜測模型應位於連線點(TPR=0,FPR=0)和(TPR=1,FPR=1)的主對角線上。
4、AUC
ROC曲線下方的面積(Area Under the ROC Curve, AUC)提供了評價模型平均效能的另一種方法。如果模型是完美的,那麼它的AUC = 1,如果模型是個簡單的隨機猜測模型,那麼它的AUC = 0.5,如果一個模型好於另一個,則它的曲線下方面積相對較大
ROC曲線概念