機器翻譯評價指標

阿新 • • 發佈：2017-06-09

兩個如同 absolute nor pre ring block 解決 blog

評價機器學習系統是的指標同樣適用於圖像或者視頻描述領域。BELU、Meteor、ROUGE、CIDEr和SPICE。前兩個是評測機器翻譯的，第三個是評測自動摘要的，最後兩個應該是為caption定制的。

1、BLEU

Bilingual Evaluation Understudy用於分析候選譯文（待評價的譯文）和參考譯文中N元組共同出現的程度，IBM於2002年提出的。

對於一個待翻譯的句子，候選譯文用Ci表示，而對應的一組參考譯文表示為Si={Si1，Si2，Si3，...，Sim}€S

N-gram表示N個單詞長度的詞組集合，另W_k表示第k組可能的n-grams

h_k（Ci）表示W_k在候選譯文Ci中出現的次數，h_k

（Sij）表示W_k在參考譯文Sij中出現的次數

BLEU則根據計算對應語句中的語料庫層面上的重合精度

技術分享

其中k表示可能存在的n-gram序號

容易看出CPn（C,S）是一個精確度度量，在語句較短時表現更好，所以我們引入一個懲罰因子BP（Brevity Penalty）：

技術分享

其中Ic表示候選譯文Ci的長度，Is表示參考譯文Sij的有效長度（當存在多個參考譯文時，選取和Ic最接近的長度）

本質上，BLEU時一個n-gram精確度的加權幾何平均，按照下式計算：

技術分享

其中，N可取1,2,3,4，而Wh一般對所有n取常值，即1/n

BLEU在語料庫層級上具有很好匹配的語句上表現很好，但隨著n的增加，在句子層級上的匹配越來越差。

BLEU的優點是它考慮的粒度是 n-gram 而不是詞，考慮了更長的匹配信息；BLEU的缺點是不管什麽樣的 n-gram 被匹配上了，都會被同等對待。比如說動詞匹配上的重要性從直覺上講應該是大於冠詞的。

例子：

待評價譯文：1：It is a guide to action which ensures that the military always obeys the commands of the party

2: It is to insure the troops forever hearing the activity guidebook that party direct

參考譯文1：It is a guide to action that ensures that the military will forever heed Party commands

2: It is the guidingprinciple which guarantees the military forces always being under the command of the Party

3: It is the practical guide for the army always to heed the directions of the party

當n=1時，待評價譯文1的修正過的精確度值是17/18，待評價譯文2的修正過的精確度值是8/14

當n=2時，待評價譯文1的修正過的精確度值是10/17，待評價譯文2的修正過的精確度值是1/13

2、METEOR

METEOR標準於2004年由lavir發現在評價指標中召回率的意義後提出的

他們的研究表明，召回率基礎上的標準相比於那些單純基於精度的標準(如BLEU)，其結果和人工判斷的結果有較高相關性
METEOR測度基於單精度的加權調和平均數和單字召回率，其目的是解決一些BLEU標準中固有的缺陷
METEOR也包括其他指標沒有發現一些其他功能，如同義詞匹配等
計算METEOR需要預先給定一組校準(alignment)m，

Pen=γ(chm)θ

其中α、γ和θ均為用於評價的默認參數

式中的

Fmean=PmRmαPm+(1?α)Rm

類似於BLEU的做法：

技術分享

這個指標的motivation之一是剛才提到的BLEU的一個缺點，就是對所有匹配上的詞都同等對待，而實際上有些詞應該更加重要。

Pm=|m|∑khk(ci)

機器翻譯評價指標

兩個如同 absolute nor pre ring block 解決 blog 評價機器學習系統是的指標同樣適用於圖像或者視頻描述領域。BELU、Meteor、ROUGE、CIDEr和SPICE。前兩個是評測機器翻譯的，第三個是評測自動摘要的，最後兩個應該是為capti

機器翻譯評價指標

機器翻譯評價指標

機器翻譯評價指標之BLEU詳細計算過程

BLEU機器翻譯評價指標學習筆記

關於機器翻譯評價指標BLEU(bilingual evaluation understudy)的直覺以及個人理解

聚類模型性能評價指標

scikit-learn中評價指標

詳細講解準確率、召回率和綜合評價指標

Python機器學習：6.6 不同的性能評價指標

顯著性檢測(saliency detection)評價指標之KL散度距離Matlab代碼實現

多分類評價指標python代碼

機器學習面試--算法評價指標

目標檢測評價指標

【機器學習】機器學習分類器模型評價指標機器學習分類器模型評價指標

二分類模型評價指標-AUC

機器學習演算法——評價指標彙總

機器學習演算法的評價指標

人體關鍵點評價指標---OKS計算

搜尋評價指標——NDCG

分類問題的幾個評價指標（Precision、Recall、F1-Score、Micro-F1、Macro-F1

線性迴歸模型的效能評價指標

機器翻譯評價指標

相關推薦