1. 程式人生 > >Roc曲線評價標準

Roc曲線評價標準

1、一個二分問題,即將例項分成正類(positive)或負類(negative)。對一個二分問題來說,會出現四種情況。如果一個例項是正類並且也被預測成正類,即為真正類(Truepositive,如果例項是負類被預測成正類,稱之為假正類(False positive)。相應地,如果例項是負類被預測成負類,稱之為真負類(True negative,正類被預測成負類則為假負類(false negative)。

真正TP:正確肯定的數目;

假負FN:漏報,沒有正確找到的匹配的數目;

假正FP:誤報,給出的匹配是不正確的;

真負TN:正確拒絕的非匹配對數;

2、列聯表如下表所示,1代表正類,0代表負類。

預測

1

0

合計

實際

1

True Positive(TP)

False Negative(FN)

Actual Positive(TP+FN)

0

False Positive(FP)

True Negative(TN)

Actual Negative(FP+TN)

合計

Predicted Positive(TP+FP)

Predicted Negative(FN+TN)

TP+FP+FN+TN

真正率(TruePositive Rate , TPR)或靈敏度(sensitivity

TPR = TP /

TP + FN(正樣本預測結果數 / 正樣本實際數)

假負率(FalseNegative Rate , FNR

FNR = FN /TP + FN= 1 - TPR(被預測為負的正樣本結果數 / 正樣本實際數

假正率(FalsePositive Rate , FPR

FPR = FP /FP + TN(被預測為正的負樣本結果數 /負樣本實際數)

真負率(TrueNegative Rate , TNR)或特指度(specificity

TNR = TN /TN + FP)= 1 - FPR(負樣本預測結果數 / 負樣本實際數)

目標屬性的被選中的那個期望值稱作是“正”(positive

 

其中,兩列TruematchesTrue non-match分別代表應該匹配上和不應該匹配上的

兩行Pred matchesPred non-match分別代表預測匹配上和預測不匹配上的


3roc

在一個二分類模型中,對於所得到的連續結果,假設已確定一個閥值,比如說 0.6,大於這個值的例項劃歸為正類,小於這個值則劃到負類中。如果減小閥值,減到0.5,固然能識別出更多的正類,也就是提高了識別出的正例佔所有正例的比類,即TPR,但同時也將更多的負例項當作了正例項,即提高了FPR。為了形象化這一變化,在此引入ROCROC曲線可以用於評價一個分類器

ROC曲線上幾個關鍵點的解釋:

(TPR=0,FPR=0 ) 把每個例項都預測為負類的模型

(TPR=1,FPR=1 ) 把每個例項都預測為正類的模型

(TPR=1,FPR=0 ) 理想模型

一個好的分類模型應該儘可能靠近圖形的左上角,而一個隨機猜測模型應位於連線點(TPR=0,FPR=0)和(TPR=1,FPR=1)的主對角線上。

4AUC

ROC曲線下方的面積(Area Under the ROC Curve, AUC)提供了評價模型平均效能的另一種方法。如果模型是完美的,那麼它的AUC = 1,如果模型是個簡單的隨機猜測模型,那麼它的AUC = 0.5,如果一個模型好於另一個,則它的曲線下方面積相對較大

ROC曲線概念