影象識別分析的評價方法
深度學習交流QQ群:116270156
影象識別分析資料集是一個多分類資料集,在預測結果評估過程中與需要注意一些問題[Everingham M]:
1. 在影象分類任務中,僅用一個標籤標示樣本,而影象中可能包含多個類別的物體。面對這種問題,可以借鑑影象檢索的評估思路,使用top @k 模型對模型進行評估,只要前k個標籤中有一個正確的,就算分類正確。
2. 每類物體的樣本數量分佈不均勻,避免使用準確率(accuracy)等對有偏資料集上的結果評估不佳的方法。這一現象尤其在物體檢測中明顯:當使用滑窗演算法時可能會面對大比例的負樣本這一情況。
3. 評估演算法需要有普適性,具有與演算法無關的獨立性。需要構造一個適用於影象分類、物體檢測以及影象分割等多種任務的統一評估方案。
針對以上問題,我們將影象分類、物體檢測和影象分割問題全部都看作對N個相互獨立類別的二分類問題,從而將多種任務的評估問題統一到影象分類的評估體系中,增強評估方案的有效性和可行性。
1. 影象分類
在影象分類任務的研究中,通常使用多類別混淆矩陣及其衍生的統計量評估各個演算法的效能。得到混淆矩陣後,可以對分類器整體效能和單一分類器效能評估,從而全面地評估分類模型的效能。
對於多分類問題的整體分類精度,通常使用整體分類精度(Overall accuracy)進行評估。總體分類精度只考慮了對角線方向上被正確分類的像元數,而Kappa係數則同時考慮了對角線以外的各種漏分和錯分像元。可以利用Kappa係數評估分類模型的整體精度,當Kappa係數的值大於0.80時,意味著分類資料和檢驗資料的一致性較高,即分類精度較高。
對於整體分類精度的評估並不能完全反應單個分類器的效能。一般可以根據混淆矩陣得到每個分類器的準確率(accuracy) 、精確率(precision)、召回率(recall),繪製ROC曲線、PR曲線,從而評估表分類器精度的高低。
平均正確率(Average Precision, AP)最初用於資訊檢索IR的評價指標,它是對不同召回率點上的正確率進行平均。直觀地來看,AP就是PR曲線下的面積,這裡average的含義是對recall取平均。而平均正確率均值mean average precision,其中mean的含義是對所有類別取平均(每一個類當做一次二分類任務)。現在的影象分類論文基本都是用mAP作為標準。
對於大規模的資料集,比如ImageNet[Olga Russakovsky*]有1000類共一千萬張影象,對大量樣本的分類計算量十分巨大。該資料集的分類任務評估採用了總體錯誤率,當分類錯誤時累加1最後求均值,該指標是總體正確率(Overall Accuracy)的補集。
2. 目標檢測
目標檢測需要同時實現目標定位和目標識別兩項任務。其中,通過比較預測邊框和ground truth邊框的重疊程度和閾值的大小判定目標定位的正確性;通過置信度分數和閾值的比較確定目標識別的正確性。以上兩步綜合判定目標檢測是否正確,最終將目標檢測轉換為“檢測正確、檢測錯誤”的分類問題,從而可以構造混淆矩陣,使用目標分類的指標評估模型精度。
**重點內容**PASCAL Visual Object Classes Challenge2007 (VOC2007) [Everingham]資料集使用P-R曲線進行定性分析,使用average precision(AP)定量分析模型精度。重複檢測同一目標只算一次正確,其餘判為錯誤。
重點內容對於大規模資料集ImageNet[Olga Russakovsky*],為每一個類別的檢測結果計算精確率(Precision)、召回率(Recall)。對於每個目標類別的最終評測指標是平均精度(AP),即P-R曲線的積分值。單目標類別檢測AP最高者獲勝,檢測目標類別獲勝數目最多的團隊贏得目標檢測的挑戰。
3. 影象分割
畫素級影象分割的評估問題也可以轉換為分類模型的評估。ISPRS[ISPRS]提出了一種經典的基於累加混淆矩陣的分類精度評估方法。首先將原始影象劃分為treue ortho photo (TOP) tiles,然後統計tile中每一個畫素點所屬的類別,從而構建基於畫素的混淆矩陣,最後將每個tile的混淆矩陣累加起來得到累加混淆矩陣(accumulated confusion matrix)。得到累加混淆矩陣後,就可以計算精確率(Precision)、召回率(Recall)、F1 score等精度指標,從而評估分割效能。
PASCAL Visual Object Classes Challenge2007 (VOC2007) [Everingham]資料集採用的評估指標是平均分割準確率,即所有類的分割準確率的算術平均值。每一類的分割準確率是正確分割的畫素點數目除以該類ground truth的畫素點數目(實際上是精確率Precision)。
Reference
Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015
Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes (voc) challenge[J]. International journal of computer vision, 2010, 88(2): 303-338.