資訊檢索指標-查準率(Precision),查全率(Recall),平均準確率(mAP)
一.查準率和查全率
查準率=準確率(Precision)=檢索到的該類影象/檢索到的所有影象數
查全率=召回率(Recall)=檢索到的該類影象/資料庫中所有的該類影象
二.MAP(Mean Average Precision)平均精度均值
MAP可以由它的三個部分來理解:P,AP,MAP
P(Precision)精度,正確率。在資訊檢索領域用的比較多,和正確率一塊出現的是召回率Recall。對於一個查詢,返回了一系列的文件,正確率指的是返回的結果中相關的文件佔的比例,而召回率則是返回結果中相關文件佔所有相關文件的比例。相關概念如上。
MAP(Mean Average Precision):單個主題的平均準確率是每篇相關文件檢索出後的準確率的平均值。主集合的平均準確率(MAP)是每個主題的平均準確率的平均值。 MAP 是反映系統在全部相關文件上效能的單值指標。系統檢索出來的相關文件越靠前(rank 越高),MAP就可能越高。如果系統沒有返回相關文件,則準確率預設為0。
對一個搜尋引擎或推薦系統而言返回的結果必然是有序的,而且越相關的文件排的越靠前越好,於是有了AP的概念。對一個有序的列表,計算AP的時候要先求出每個位置上的precision,然後對所有的位置的precision再做個average。
多類別識別中,每類物體都可以根據查全率和查準率畫出一條曲線,AP就是該曲線下的面積,mAP就是多類別的AP面積的平均值。
例1:假設有兩個主題,主題1有4個相關網頁,主題2有5個相關網頁。
某系統對於主題1檢索出4個相關網頁,其rank分別為1, 2, 4, 7;對於主題2檢索出3個相關網頁,其rank分別為1,3,5。
對於主題1,平均準確率為(1/1+2/2+3/4+4/7)/4=0.83。
對於主題 2,平均準確率為(1/1+2/3+3/5+0+0)/5=0.45。則MAP= (0.83+0.45)/2=0.64。
例2:分析圖為主題1有五個相關,主題2有三個相關。主題一rank為1,3,6,9,10,主題二rank為2,5,7.
1/1,2/3,3/6,4/9,5/10
1/2,2/5,3/7
例3:
若該位置返回的結果相關,計算該位置的正確率,若不相關,正確率置為0。若返回的這四個的相關文件排在1,2,3,4號位,則對於的正確率都為1,AP也就等於1,可見計算方法是對排序位置敏感的,相關文件排序的位置越靠前,檢出的相關文件越多,AP值越大。
例4:
比如一個數據庫,男5人,女5人
系統1搜尋女,結果排序如下:
1 女
2 男
3 男
4 男
5 女
6 女
7 女
系統2 搜尋女,結果排序如下:
1 女
2 女
3 女
4 女
5 男
6 男
7 男
對於系統1:
查全率=系統檢索到的相關檔案 / 系統所有相關的檔案總數=4/5
準確率=系統檢索到的相關檔案 / 系統所有檢索到的檔案總數=4/7
mAP=(1/1+2/5+3/6+4/7)/5
對於系統2:
查全率=系統檢索到的相關檔案 / 系統所有相關的檔案總數=4/5
準確率=系統檢索到的相關檔案 / 系統所有檢索到的檔案總數=4/7
mAP=(1/1+2/2+3/3+4/4)/5
結論:系統1和系統2,查全率和準確率相同,此時用mAP來衡量系統好壞,更加有效。