1. 程式人生 > >機器學習相關指標

機器學習相關指標

1 ROC

ROC((Receiver Operating Characteristic Curve)),即受試者工作特徵曲線。ROC曲線是用來驗證一個分類器(二分)模型的效能的。其工作原理是,給出一個模型,輸入已知正負類的一組資料,並通過對比模型對該組資料進行的預測,衡量這個模型的效能。

TP:實際是正樣本預測成正樣本的樣本數
FN:實際是正樣本預測成負樣本的樣本數
FP:實際是負樣本預測成正樣本的樣本數
TN:實際是負樣本預測成負樣本的樣本數
TPR=TP/(TP+FN),也稱為“命中率”
FPR=FP/(FP+TN),也稱為“假報率”
TNR=TN/(FP+TN),也稱為“敏感度”

  • ROC曲線如下圖所示

    (0,0):分類器全部預測成負樣本,這種情況說明閾值選得過高
    (0,1):全部完美預測正確
    (1,0):全部完美預測錯誤
    (1,1):分類器全部預測成正樣本,這種情況說明閾值選得過低
    TPR=FPR,斜對角線,預測為正樣本的結果一半是對的,一半是錯的,代表隨機分類器的預測效果

2 AUC

  • AUC(Area Under Curve):ROC曲線與FPR軸線形成的面積,是對ROC曲線的量化指標。AUC的值越大越好,其取值範圍為(0.5,1)

3 ACC

  • ACC(Accuracy):準確率,ACC=(TP+TN)/(TP+TN+FP+FN),即分類器準確識別真陽性和假陰性的比率。
  • ACC沒辦法較好地脫離測試資料對模型進行評價,這也就是我們為什麼要用ROC的原因。(如一組資料負樣本比例極高,ACC值高,表明對負類預測很準;但另一組資料正樣本比例高,這樣ACC的值會很低)

4 召回率(Recall)

  • 召回率表示樣本中的正例有多少被預測正確,有兩種可能:一種是把原來的正類預測成正類(TP),另一種就是把原來的正類預測為負類(FN)。
  • R=TPR=TP/(TP+FN)

5 精度(Precision)

  • 精度表示預測為正的樣本中有多少是正確的,有兩種可能:一種就是把正類預測為正類(TP),另一種就是把負類預測為正類(FP)。
  • P=TP/(TP+FP)

參考

https://blog.csdn.net/shenpibaipao/article/details/78033218
https://blog.csdn.net/sunflower_sara/article/details/81214897