機器翻譯評價指標
評價機器學習系統是的指標同樣適用於圖像或者視頻描述領域。BELU、Meteor、ROUGE、CIDEr和SPICE。前兩個是評測機器翻譯的,第三個是評測自動摘要的,最後兩個應該是為caption定制的。
1、BLEU
Bilingual Evaluation Understudy用於分析候選譯文(待評價的譯文)和參考譯文中N元組共同出現的程度,IBM於2002年提出的。
對於一個待翻譯的句子,候選譯文用Ci表示,而對應的一組參考譯文表示為Si={Si1,Si2,Si3,...,Sim}€S
N-gram表示N個單詞長度的詞組集合,另Wk表示第k組可能的n-grams
hk(Ci)表示Wk在候選譯文Ci中出現的次數,hk
BLEU則根據計算對應語句中的語料庫層面上的重合精度
其中k表示可能存在的n-gram序號
容易看出CPn(C,S)是一個精確度度量,在語句較短時表現更好,所以我們引入一個懲罰因子BP(Brevity Penalty):
其中Ic表示候選譯文Ci的長度,Is表示參考譯文Sij的有效長度(當存在多個參考譯文時,選取和Ic最接近的長度)
本質上,BLEU時一個n-gram精確度的加權幾何平均,按照下式計算:
其中,N可取1,2,3,4,而Wh一般對所有n取常值,即1/n
BLEU在語料庫層級上具有很好匹配的語句上表現很好,但隨著n的增加,在句子層級上的匹配越來越差。
BLEU的優點是它考慮的粒度是 n-gram 而不是詞,考慮了更長的匹配信息;BLEU的缺點是不管什麽樣的 n-gram 被匹配上了,都會被同等對待。比如說動詞匹配上的重要性從直覺上講應該是大於冠詞的。
例子:
待評價譯文:1:It is a guide to action which ensures that the military always obeys the commands of the party
2: It is to insure the troops forever hearing the activity guidebook that party direct
參考譯文1:It is a guide to action that ensures that the military will forever heed Party commands
2: It is the guidingprinciple which guarantees the military forces always being under the command of the Party
3: It is the practical guide for the army always to heed the directions of the party
當n=1時,待評價譯文1的 修正過的精確度值是17/18,待評價譯文2的 修正過的精確度值是8/14
當n=2時,待評價譯文1的 修正過的精確度值是10/17,待評價譯文2的 修正過的精確度值是1/13
2、METEOR
METEOR標準於2004年由lavir發現在評價指標中召回率的意義後提出的
他們的研究表明,召回率基礎上的標準相比於那些單純基於精度的標準(如BLEU),其結果和人工判斷的結果有較高相關性
METEOR測度基於單精度的加權調和平均數和單字召回率,其目的是解決一些BLEU標準中固有的缺陷
METEOR也包括其他指標沒有發現一些其他功能,如同義詞匹配等
計算METEOR需要預先給定一組校準(alignment)m,而這一校準基於WordNet的同義詞庫,通過最小化對應語句中連續有序的塊(chunks)chch來得出
則METEOR計算為對應最佳候選譯文和參考譯文之間的準確率和召回率的調和平均:
其中α、γ和θ均為用於評價的默認參數
因此,METEOR的最終評價基於塊(chunk)的分解匹配和表征分解匹配質量的一個調和平均,並包含一個懲罰系數P
和BLEU不同,METEOR同時考慮了基於整個語料庫上的準確率和召回率,而最終得出測度
3、CIDEr
這個指標將每個句子都看作“文檔”,將其表示成 tf-idf 向量的形式,然後計算參考caption與模型生成的caption的余弦相似度,作為打分。換句話講,就是向量空間模型。考慮一張圖片是Ii€I(I:全部測試集圖片的集合)
對於一個n-gram Wk和參考caption 8ij,tf-idf計算方式是
式中的 Ω是全部 n-gram 構成的詞表。可以看出 idf 的分母部分代表的是Wk出現於參考caption的圖片個數。
F
那麽,CIDEr的值可以用余弦相似度的平均值來計算:
類似於BLEU的做法:
這個指標的motivation之一是剛才提到的BLEU的一個缺點,就是對所有匹配上的詞都同等對待,而實際上有些詞應該更加重要。
P
機器翻譯評價指標