精確率 召回率 F1值 準確率 ROC曲線 AUC評價指標
對於二分類問題來說,經過分類器分類後一般會出現下面四種情況(假設positive表正類,negative表負類):
- 將正類預測為正類,記該類樣本數為TP (true positive)
- 將正類預測為負類,記該類樣本數為FN (false negative)
- 將負類預測為正類,記該類樣本數為FP (false positive)
- 將負類預測為負類,記該類樣本數為TN (true negative)
混淆矩陣如下:
精確率
精確率(precision):被預測成正的樣本中預測正確的比例。越接近1,預測效果越好
召回率
召回率(recall):原為正樣本中被正確預測的比例。越接近1,效果越好
F1 值
化簡得
準確率
準確率(accuracy):被正確預測的樣本數佔總樣本數的比例:
ROC
ROC(Receiver operating characteristic curve)
再寫一下混淆矩陣:
引入兩個概念真陽性率TPR(被正確判斷為正類即Positive的概率)和偽陽性率FPR(被錯誤判斷為正類的概率)
由上混淆矩陣可知:
真陽性率:
偽陽性率:
對於某個二分類模型來說,一般劃分正類(positive)和負類(negative)是通過同閾值相比較來劃分的,所以說只要調整閾值的大小,就能得出多組TPR和FPR。
將得到的FPR作為橫座標,TPR作為縱座標,就可以得出對於該分類模型的ROC曲線圖了。
如對於某個二分類模型,閾值取
首先來看一下一條特殊的線
還有特殊的兩個點
那對於
AUC
AUC (Area under the Curve of ROC) ROC曲線下方面積
結合ROC不難得知:
AUC=1 完美分類器0.5<AUC<1 優於隨機分類AUC=0.5 效果同隨機分類0<AUC<0.5 劣於隨機分類,但只要反著分類就優於隨機分類AUC=0 反著預測就是完美分類器