1. 程式人生 > >機器學習——模型測試與評估方法與指標

機器學習——模型測試與評估方法與指標

評估模型的方法與指標

           3.mAP4.IOU

1.P-R曲線

查準率(precision)-------P-R曲線的縱座標

查全率,召回率(recall)------------P-R曲線的橫座標

對於二分類問題,可以將樣例根據其真實類別和學習器預測類別的組合劃分四種情況:

真正例(true positive)----TP
假正例(false positive)---FP
真反例(true negative)----TN
假反例(false negative)---FN
真實情況 預測結果 預測結果
正例 反例
正例 TP(正確的標記為正)實際是人臉,你把它標註為人臉,是對的 FN(錯誤的標記為負)實際是人臉,但你標註他不是人臉,所以你標錯了,你錯誤的把他標註成不是人臉
反例 FP(錯誤的標記為正)實際不是人臉,但是你把它標為人臉,所以標註錯了,你錯誤的把不是的標為是了 TN(正確的標記為負)實際不是人臉,然後你正確的把它標註為不是人臉,標對了

查準率關心的是”預測出正例的正確率”即從正反例子中挑選出正例的問題.
查全率關心的是”預測出正例的保證性”即從正例中挑選出正例的問題。
​
準確率P是評估你預測的準不準(看預測列),而召回率R是看你找的全不全(看實際行).
查準率和查全率是相互矛盾的,一般來說,當查準率高時,查全率往往會偏低,而查全率高時,查準率會偏低,魚與熊掌的關係

在進行比較時,若一個學習器的P-R曲線被另一個完全包住,則可斷言後者優於前者,如圖,A優於C;如果兩個學習器的P-R曲線發生了交叉,如A和B,則難以一般性的斷言兩者孰優孰劣,只能在具體的P或R條件下進行比較。然而,在很多情形下,人們往往仍希望把學習器A和B比個高低,這時一個比較合理的判斷依據是比較曲線下面積的大小,它在一定程度上表徵了學習器在P和R上取得相對“雙高”的比例,但這個值不太容易估算,因此人們設計了一些綜合考慮P和R的度量。平衡點(brerak-even point,BEP)就是這樣一個度量,是P=R時的取值,基於BEP,可判斷A優於B。

2.ROC曲線

ROC曲線(受試者工作特徵曲線--receiver operating characteristic curve)

橫座標--假正例率(True Positive Rate)----TPR

縱座標--真正例率(False Positive Rate)---FPR

AUC (Area Under ROC Curve) 被定義為ROC曲線下的面積,顯然這個面積的數值不會大於1。又由於ROC曲線一般都處於y=x這條直線的上方,所以AUC的取值範圍一般在0.5和1之間。

從AUC判斷分類器(預測模型)優劣的標準(AUC越大,分類效果就越好):

  • AUC = 1,是完美分類器,採用這個預測模型時,存在至少一個閾值能得出完美預測。絕大多數預測的場合,不存在完美分類器。

  • 0.5 < AUC < 1,優於隨機猜測。這個分類器(模型)妥善設定閾值的話,能有預測價值。

  • AUC = 0.5,跟隨機猜測一樣,就像扔硬幣一樣,模型沒有預測價值。

  • AUC < 0.5,比隨機猜測還差;但只要總是反預測而行,就優於隨機猜測。

3.mAP

mAP:mean Averge Precision,作為object detection中衡量檢測精度的指標。

在目標檢測中,每一類都可以根據recall和precision繪製P-R曲線,AP就是該曲線下的面積。而mAP就是所有類AP的平均值。

  1. 計算AP值,若use_07_metric=true,則用11個點取樣的方法,將rec從0-1分成11個點,這些點prec值求平均近似表示AP

  2. 若use_07_metric=false,則採用更為精確的逐點積分方法

4.IOU

重疊度IOU--------Intersection over Union

物體檢測需要定位出物體的bounding box,對於bounding box的定位精度,有一個很重要的概念: 因為我們演算法不可能百分百跟人工標註的資料完全匹配,因此就存在一個定位精度評價公式:IOU。 它定義了兩個bounding box的重疊度,

一般來說,這個score > 0.5 就可以被認為一個不錯的結果了。