1. 程式人生 > >什麼是 ROC AUC

什麼是 ROC AUC

本文結構:

  1. 什麼是 ROC?
  2. 怎麼解讀 ROC 曲線?
  3. 如何畫 ROC 曲線?
  4. 程式碼?
  5. 什麼是 AUC?
  6. 程式碼?

ROC 曲線和 AUC 常被用來評價一個二值分類器的優劣。

先來看一下混淆矩陣中的各個元素,在後面會用到:

1. ROC :

縱軸為 TPR 真正例率,預測為正且實際為正的樣本佔所有正例樣本的比例。 橫軸為 FPR 假正例率,預測為正但實際為負的樣本佔所有負例樣本的比例。

對角線對應的是 “隨機猜想”

當一個學習器的 ROC 曲線被另一個學習器的包住,那麼後者效能優於前者。 有交叉時,需要用 AUC 進行比較。

2. 先看圖中的四個點和對角線:

  • 第一個點,(0,1),即 FPR=0, TPR=1,這意味著 FN(false negative)=0,並且FP(false positive)=0。這意味著分類器很完美,因為它將所有的樣本都正確分類。
  • 第二個點,(1,0),即 FPR=1,TPR=0,這個分類器是最糟糕的,因為它成功避開了所有的正確答案。
  • 第三個點,(0,0),即 FPR=TPR=0,即 FP(false positive)=TP(true positive)=0,此時分類器將所有的樣本都預測為負樣本(negative)。
  • 第四個點(1,1),分類器將所有的樣本都預測為正樣本。
  • 對角線上的點表示分類器將一半的樣本猜測為正樣本,另外一半的樣本猜測為負樣本。

因此,ROC 曲線越接近左上角,分類器的效能越好。

3. 如何畫 ROC 曲線

例如有如下 20 個樣本資料,Class 為真實分類,Score 為分類器預測此樣本為正例的概率。

  • 按 Score 從大到小排列
  • 依次將每個 Score 設定為閾值,然後這 20 個樣本的標籤會變化,當它的 score 大於或等於當前閾值時,則為正樣本,否則為負樣本。
  • 這樣對每個閾值,可以計算一組 FPR 和 TPR,此例一共可以得到 20 組。
  • 當閾值設定為 1 和 0 時, 可以得到 ROC 曲線上的 (0,0) 和 (1,1) 兩個點。

4. 程式碼:

輸入 y 的真實標籤,還有 score,設定標籤為 2 時是正例:

y = np.array([1, 1, 2, 2])
scores = np.array([0.1, 0.4, 0.35, 0.8])
fpr, tpr, thresholds = metrics.roc_curve(y, scores, pos_label=2)

就會得到相應的 TPR, FPR, 截斷點 :

fpr = array([ 0. ,  0.5,  0.5,  1. ])
tpr = array([ 0.5,  0.5,  1. ,  1. ])
thresholds = array([ 0.8 ,  0.4 ,  0.35,  0.1 ])#截斷點

5. AUC:

是 ROC 曲線下的面積,它是一個數值,當僅僅看 ROC 曲線分辨不出哪個分類器的效果更好時,用這個數值來判斷。

The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example.

從上面定義可知,意思是隨機挑選一個正樣本和一個負樣本,當前分類演算法得到的 Score 將這個正樣本排在負樣本前面的概率就是 AUC 值。AUC 值是一個概率值,AUC 值越大,分類演算法越好。

6. 程式碼:

import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
roc_auc_score(y_true, y_scores)

0.75

作者:不會停的蝸牛 連結:https://www.jianshu.com/p/42bfe1a79d12 來源:簡書 簡書著作權歸作者所有,任何形式的轉載都請聯絡作者獲得授權並註明出處。