1. 程式人生 > >資訊檢索評價指標NDCG、a-NDCG

資訊檢索評價指標NDCG、a-NDCG

PAMM中使用的檢索多樣性的評估方法為:

在NDCG中,文件的相關度可以分為多個等級進行打分。

(1)CG(Cumulative Gain):

表示前p個位置累計得到的效益,公式為:

其中rel表示第i個文件的相關等級,如2表示非常相關,1表示相關,0表示無關,-1表示垃圾檔案。

(2)DCG(Discounted Cumulative gain)

在CG中的計算沒有考慮到位置資訊,比如檢索到了三個文件相關度一次為(3,-1,1)和(-1,1,3),顯然前面的排序好一點,但是兩個排名的CG值是相同的,所以要在CG運算中中加入位置資訊的計算。假設每個位置按照從小到大排序,它們的價值依次遞減,如:假設第i個位置的價值為

DCG的公式為:

另一種比較常用的,用來增加相關度影響比重的DCG計算方式是:

(3)IDCG(ideal DCG)

IDCG是指理想情況下的DCG,即DCG取得最大值的情況。公式為:

其中|REL|表示文件按照相關性從大到小的順序排序,取前p個文件組成的集合。

(4)NDCG(Normalize DCG)

由於每個查詢語句所能檢索到的結果文件集合長度不一,p值的不同會對DCG的計算有較大的影響。所以不能對不同查詢語句的DCG進行求平均,需要進行歸一化處理。NDCG就是用IDCG進行歸一化處理,表示當前DCG比IDCG還差多大的距離。公式如下:

這樣每個查詢語句的NDCG就是從0到1,不同查詢語句之間就可以做比較,就可以求多個查詢語句的平均NDCG。[email protected][email protected]分別表示求p為10和20的時候的NDCG。

(5)PAMM中的

NDCG的變形,其中新發現的subtopics被獎勵,多餘的subtopics被懲罰。等級k的得分可以通過將標準[email protected]中的原始增益值替換為新穎性收益來定義。公式為:

其中是排名列表y中排在r位置的新穎性收益;

是包含第s個subtopic的r-1排名內觀察到的文件數目;

為在正排名中排在r位的新穎性收益;

y(k)是排名為k的文件索引; 

引數通常設定為0.5 。