[DeeplearningAI筆記]序列模型3.6Bleu得分/機器翻譯得分指標

阿新 • • 發佈：2019-02-09

5.3序列模型與注意力機制

覺得有用的話,歡迎一起討論相互學習~Follow Me

3.6Bleu得分

在機器翻譯中往往對應有多種翻譯，而且同樣好，此時怎樣評估一個機器翻譯系統是一個難題。 常見的解決方法是通過BLEU得分來進行判斷

評價機器翻譯Evaluating machine translation

Papineni K. Bleu:A Method for Automatic Evaluation of Machine Translation[J]. Proc Acl, 2002.

示例法語句子 :Le chat est sur le tapis
- 人工翻譯參考1
  
  The cat is on the mat
- 人工翻譯參考2 There is a cat on the mat
- 實際上兩個翻譯都能準確地翻譯了這個法語句子，BLEU得分做的就是給定一個機器生成的翻譯，這個演算法能夠自動地計算一個分數來評價機器翻譯的好壞。如果機器翻譯的語句能夠與任意一個人工翻譯參考相近，其就會得到很高的BLEU分數。
BLEU 代表 bilingual evalution understudy–雙語評估替補 在戲劇界，替補演員通過學習資深演員以能夠在適當時機替代資深演員。 BLEU 相當於請評估員人工評估機器翻譯系統，BLEU得分 相當於一個候補者代替人類來評估機器翻譯的每一個翻譯結果。 BLEU得分

背後的理念是 觀察機器生成的翻譯，然後看生成的詞是否至少出現在一個人工翻譯參考之中 因此這些人工翻譯的參考會包含在開發集或測試集中

觀察輸出結果的每一個詞看起是否出現在人工參考中

衡量機器翻譯輸出質量的方法之一是 觀察輸出結果的每一個詞看起是否出現在人工參考中，這被定義為機器翻譯的精確度
- 機器翻譯結果MT 假設機器翻譯得到一個極端的解：the the the the the the the
  - 這種情況下，得到了7個單詞，並且這七個單詞都出現在了兩個參考中，因此根據定義這個輸出的精確度是7/7 ，看上去這個結果十分好但是實際結果卻不是這樣。
  - 所以把出現在參考中的詞在MT輸出的所有詞中所佔的比例作為精確度評估標準並不是很有用

改良後的精確度評估方法

把每個詞的計分上限定位它在參考句子中出現的最多次數， 在參考一中單詞 the 出現了2次，所以上限是2。參考二中，單詞the只出現了1次，取參考句子中單詞出現的最大值，所以單詞“the”的計分上限是2 所以機器翻譯結果最終的分數是 2/7

二元組BLEU得分 Bleu score on bigrams

考慮BLEU得分不僅只考慮單個單詞，還應該考慮成對的單詞(相鄰的單片語)的得分
示例法語句子 :Le chat est sur le tapis
- 人工翻譯參考1 The cat is on the mat
- 人工翻譯參考2 There is a cat on the mat
- MT機器翻譯 The cat the cat on the mat
機器翻譯中的二元組
- Count_Clip(截斷計數) 定義為演算法的得分上限，上限值為二元片語出現在參考1和參考2中的最大次數。
- 所以改進後的 Bleu分數 即為 Count_Clip之和除以Count之和
Bigrams Count Count_Clip

the cat 2 1

cat the 1 0

cat on 1 1

on the 1 1

the mat 1 1
- 此例中 Bleu分數 為 $\frac{4}{6}$

Bigrams	Count	Count_Clip
the cat	2	1
cat the	1	0
cat on	1	1
on the	1	1
the mat	1	1

N元組BLEU得分

一元組Bleu得分
$P_{1} = \frac{\sum_{u n i g r a m \in \hat{y}} c o u n t_{c l i p} (u n i g r a m)}{\sum_{u n i g r a m \in \hat{y}} c o u n t (u n i g r a m)}$
N元組Bleu得分
$P_{n} = \frac{\sum_{n - g r a m \in \hat{y}} c o u n t_{c l i p} (n - g r a m)}{\sum_{n - g r a m \in \hat{y}} c o u n t (n - g r a m)}$

Bleu 得分細節

$P_{n}$ 表示n元片語這一項的BLEU得分，為了使用一個數值來評價一個機器翻譯系統，需要將 $P_{1}, P_{2}, P_{3}, P_{4} . . .$ 的數值整合進行計算。
$B l e u s c o r e = B P e x p (\frac{1}{4} \sum_{n = 1}^{4} P_{n})$
使用BP進行 簡短懲罰(brevity penalty) ,意思是如果機器翻譯輸出了一個非常簡短的翻譯，則其很容易得到一個高分的Bleu值(輸出的大部分詞可能都出現在參考之中，但是如果我不想要很簡短的翻譯，則需要使用到簡短懲罰) ，其是一個懲罰項，能夠懲罰輸出了太短的 機器翻譯系統
公式
- 即如果 機器翻譯的長度 大於 人工翻譯輸出的長度 ，BP=1，而其他情況下 BP的定義會遵從一個式子，從而減小Bleu得分的值。
Bleu得分 是一個 單一實數評價指標 ，其在 機器翻譯 和 圖片描述 中應用廣泛，用以評價機器生成的語句和實際人工生成的結果是否相近。

[DeeplearningAI筆記]序列模型3.6Bleu得分/機器翻譯得分指標

5.3序列模型與注意力機制覺得有用的話,歡迎一起討論相互學習~Follow Me 3.6Bleu得分在機器翻譯中往往對應有多種翻譯，而且同樣好，此時怎樣評估一個機器翻譯系統是一個難題

[DeeplearningAI筆記]序列模型3.9-3.10語音辨識/CTC損失函式/觸發字檢測

5.3序列模型與注意力機制覺得有用的話,歡迎一起討論相互學習~Follow Me 3.9語音辨識 Speech recognition 問題描述對於音訊片段(audio clip)x

[DeeplearningAI筆記]序列模型2.7負采樣Negative sampling

叠代的區別 text rep 新的 -h 表示 form 監督學習 5.1循環序列模型覺得有用的話,歡迎一起討論相互學習~Follow Me 2.7 負采樣 Negative sampling Mikolov T, Sutskever I, Chen K, et al

[DeeplearningAI筆記]序列模型2.7負取樣Negative sampling

5.2自然語言處理覺得有用的話,歡迎一起討論相互學習~Follow Me 2.7 負取樣 Negative sampling Mikolov T, Sutskever I, Chen

[DeeplearningAI筆記]序列模型1.1-1.2序列模型及其數學符號定義

5.1迴圈序列模型覺得有用的話,歡迎一起討論相互學習~Follow Me 1.1什麼是序列模型在進行語音識別時，給定了一個輸入音訊片段X，並要求輸出片段對應的文字記錄Y，這個例子中的

【論文閱讀筆記3】序列模型入門之LSTM和GRU

本文只是吳恩達視訊課程關於序列模型一節的筆記。參考資料：吳恩達深度學習工程師微專業之序列模型博文——理解LSTM 吳恩達本來就是根據這篇博文的內容來講的，所以個人認為認真學習過吳恩達講的那個課程後可以不用再看那篇博文了，能獲得的新的知識不多，另外網上的博文基本也都是根據那篇

DeepLearning.ai筆記:(5-3) -- 序列模型和注意力機制

title: ‘DeepLearning.ai筆記:(5-3) – 序列模型和注意力機制’ id: dl-ai-5-3 tags: dl.ai categories: AI Deep Learning date: 2018-10-18 18:39:10

Coursera吳恩達《序列模型》課程筆記（3）-- Sequence models & Attention mechanism

《Recurrent Neural Networks》是Andrw Ng深度學習專項課程中的第五門課，也是最後一門課。這門課主要介紹迴圈神經網路（RNN）的基本概念、模型和具體應用。該門課共有3周課時，所以我將分成3次筆記來總結，這是第三節筆記。 1. B

吳恩達Coursera深度學習課程 deeplearning.ai (5-3) 序列模型和注意力機制--課程筆記

3.1 基礎模型 sequence to sequence sequence to sequence：兩個序列模型組成，前半部分叫做編碼，後半部分叫做解碼。用於機器翻譯。 image to sequence sequence to sequenc

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（5-3）-- 序列模型和注意力機制

完結撒花！以下為吳恩達老師 DeepLearning.ai 課程專案中，第五部分《序列模型》第三週課程“序列模型和注意力機制”關鍵點的筆記。同時我在知乎上開設了關於機器學習深度學習的專欄收錄下面的筆記，以方便大家在移動端的學習。歡迎關注我的知

[DeeplearningAI筆記]卷積神經網絡2.3-2.4深度殘差網絡

.com 殘差網絡效率 info cti 所有網絡 com 調整 4.2深度卷積網絡覺得有用的話,歡迎一起討論相互學習~Follow Me 2.3殘差網絡Residual Networks(ResNets) 非常非常深的網絡是很難訓練的，因為存在梯度消失和梯度爆炸的

[吳恩達機器學習筆記]15.1-3非監督學習異常檢測算法/高斯回回歸模型

閾值訓練集 jpg -a 情況 color 訓練 ase 需要 15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.1問題動機 Problem motivation 飛機引擎異常檢測假想你是一個飛機引擎制造

迴圈序列模型——05.序列模型第一週課程筆記

一、為什麼使用序列模型能處理非固定大小輸入的問題，例如語音識別，DNA序列分析，機器翻譯這種是一串序列的問題。二、數學符號表示以自然語言處理為例： x: Harry Potter and Hermione Granger invented a new spell. 以

序列模型（3）---LSTM（長短時記憶）

false 我們 height 需要 img 問題決定 mov clas 一、RNN回顧略去上面三層，即o,L,y，則RNN的模型可以簡化成如下圖的形式：二、LSTM模型結構：整體模型：由於RNN梯度消失的問題，大牛們對於序列索引位置t的隱藏結構做

[吳恩達機器學習筆記]15.1-3非監督學習異常檢測演算法/高斯回回歸模型

15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.1問題動機 Problem motivation 飛機引擎異常檢測

吳恩達序列模型學習筆記--迴圈神經網路（RNN）

1. 序列模型的應用序列模型能解決哪些激動人心的問題呢？語音識別：將輸入的語音訊號直接輸出相應的語音文字資訊。無論是語音訊號還是文字資訊均是序列資料。音樂生成：生成音樂樂譜。只有輸出的音樂樂譜是序列資料，輸入可以是空或者一個整數。情感分類：將輸入的評論句子轉換

DeepLearning.ai作業:(5-3) -- 序列模型和注意力機制

title: ‘DeepLearning.ai作業:(5-3) – 序列模型和注意力機制’ id: dl-ai-5-3h tags: dl.ai homework categories: AI Deep Learning date: 2018-10-18 1

吳恩達Coursera深度學習課程 deeplearning.ai (5-3) 序列模型和注意力機制--程式設計作業(二)：觸發字檢測

Part 2: 觸發字檢測關鍵詞語音喚醒觸發字檢測歡迎來到這個專業課程的最終程式設計任務！在本週的視訊中，你瞭解瞭如何將深度學習應用於語音識別。在本作業中，您將構建一個語音資料集並實現觸發字檢測演算法（有時也稱為關鍵字檢測或喚醒檢測）。觸發字

吳恩達DeepLearning.ai筆記（5-1）-- 迴圈序列模型

吳恩達DeepLearning.ai筆記（5-1）– 迴圈序列模型 1.一些序列資料例子 2.數學符號 x<1>x<1>輸入序列X第一個單詞，TixTxi輸入序列X的單詞個數，X（i）<t>X（i）&l

【Coursera】吳恩達 deeplearning.ai 05.序列模型第一週迴圈序列模型課程筆記

迴圈序列模型為什麼選擇序列模型在語音識別、音樂生成、情感分類、DNA序列分析、機器翻譯、視訊識別、命名實體識別等任務中，共同特點是輸入X和/或輸出Y都是序列。數學符號例如，對於命名實體識別的問題：對於輸入序列，用 x&l

[DeeplearningAI筆記]序列模型3.6Bleu得分/機器翻譯得分指標

5.3序列模型與注意力機制

覺得有用的話,歡迎一起討論相互學習~Follow Me

3.6Bleu得分

評價機器翻譯Evaluating machine translation

觀察輸出結果的每一個詞看起是否出現在人工參考中

改良後的精確度評估方法

二元組BLEU得分 Bleu score on bigrams

N元組BLEU得分

Bleu 得分細節

相關推薦