BLEU機器翻譯評價指標學習筆記
BLEU機器翻譯評價指標學習筆記
BLEU(bilingual evaluation understudy),雙語互譯質量評估輔助工具,主要用來評估機器翻譯質量的工具。
評判思想:機器翻譯結果越接近專業人工翻譯的結果,則越好。
實際工作:判斷兩個句子的相似程度。
計算公式:
其中,BP為懲罰因子,
為多元精度,
為多元精度對應的權重。
多元精度n-gram precision
原始多元精度
原文:貓坐在墊子上
機器譯文: the the the the the the the.
參考譯文:The cat is on the mat.
-
1元精度 1-gram
6個詞中,5個詞命中譯文,1元精度 為5/6.
-
2元精度 2-gram
2元片語的精度則是 3/5.
-
3元精度 3-gram
3元片語的精度為1/4.
-
4元精度 4-gram
4元片語的精度為0。
一般情況,1-gram可以代表原文有多少詞被單獨翻譯出來,可以反映譯文的充分性,2-gram以上可以反映譯文的流暢性,它的值越高說明可讀性越好。
-
異常情況
原文:貓坐在墊子上
機器譯文: the the the the the the the.
參考譯文:The cat is on the mat.此時,1-gram匹配度為7/7,顯然,此譯文翻譯並不充分,此問題為常用詞幹擾。
改進多元精度
其中, 為單詞 在機器譯文中出現的次數, 為單詞 在第 個譯文中出現的次數, 為單詞 對於第 個參考譯文的截斷計數, 為單詞 在所有參考翻譯裡的綜合截斷計數, 為各階N-gram的精度, 的公式分子部分表示 元組在翻譯譯文和各參考譯文中出現的最小次數之和,分母部分表示 元組在各參考譯文中出現的最大次數之和。
此時對於異常情況: