1. 程式人生 > >Paper Summary: Neural Machine Translation

Paper Summary: Neural Machine Translation

一、 Sequence to Sequence Learning with Neural Networks - [email protected]

1、提出背景:
(1)雖然DNN可以解決現實生活中的很多問題,但是在解決機器翻譯過程中,主要的問題是其輸入和輸出的長度一致。

也許你覺得可以通過padding等方式使得輸入和輸出長度變得不一樣,比如輸入是10,固定輸出也是10,如果輸出是5,則將剩下的5個輸出使用null填充等,但是這樣不太合適,而且對於很多翻譯任務而言,並不能預先知道翻譯結果的最大長度。

(2)另外,DNN不能充分考慮序列之間的前後關係,其翻譯僅僅基於當前詞。

2、提出的方法:
使用Encoder-Decoder架構,如下圖所示:
在這裡插入圖片描述
左側是Encoder部分,其主要功能是將輸入的序列處理成一個固定長度的語義特徵向量W,W中含有輸入序列的資訊,Encoder Cell可以是RNN/GRU/LSTM。右側是Decoder部分,主要任務是將語義特徵W作為輸入,首先生成target的第一個層詞X,基於X和W再生成Y…,Decoder Cell可以是RNN/GRU/LSTM。(Encoder Cell和Decoder Cell的選取可以在RNN/RGU/LSTM中隨便組合),文章中使用的是LSTM。

3、實驗任務
English-French的翻譯任務。

4、提到的小技巧


輸入序列逆序的情況下,翻譯效果剛好,可能是如下原因(作者好像也只是猜測):
在這裡插入圖片描述
如圖,在將“ABCDE”翻譯成“XYZWH”任務中(假設翻譯結果與次序一對一),分析如下:

對於正序的情況,A翻譯成X,中間間隔距離為5;B翻譯成Y也一樣…。而在逆序的情況,A翻譯成X,中間間隔距離為1;B翻譯成Y,中間間隔距離為2,…也就是說再逆序的情況下,引入了很多短期依賴,這使得在翻譯開始的詞比較準確,這些準確的詞會對後面的翻譯帶來正面影響,使得結果比正序輸入更好。

二、 Neural Machine Translation by Jointly Learning to Align and Translate -
[email protected]

1、提出背景:
在普通的encoder-decoder模型中,將輸入的整個句子encode成一個語義編碼向量c,基於c再進行decoder的過程。但是語義編碼向量c是效能的一個瓶頸,因為固定長度向量所包含的資訊總歸是有限的,而且若句子非常長,其儲存的資訊也非常受限。

2、提出的方法:
本文提出了一個Soft-Search的方法,也就是現在大家說的“Attention”機制,這種機制能夠在翻譯 y i y_i 的時候自動搜尋哪些輸入words對當前的輸出比較有用,並給這些有用的詞更多的權重,使得其對輸出的作用更大。
其架構如下:
在這裡插入圖片描述
其和傳統的Encoder-Decoder模型的不同在於:
(1)在傳統的Encoder-Deocder模型中,直接接Encoder過程得到的語義編碼向量c輸入到每一個翻譯的序列中,也就是說,在每個時間點輸入的語義向量都是同一個c。
(2)而在含有Attetion機制的Encoder-Decoder中,語義編碼向量會針對每一個時間的翻譯任務有所側重。就好像人在翻譯的過程中,不是完全對一個句子進行翻譯,而是幾個單詞幾個單詞一起翻譯,在翻譯某個單詞的時候,他附近的幾個詞語對翻譯結果的影響是最大的。
簡單來說,在Decoder的過程中,傳統模型每個Cell的輸入都是同一個 c c ,而在Attention機制的模型中,每個Cell的輸入都是不同的 c i c_i

c i c_i 的計算過程如下:
c i = j = 1 T x α i j h j c_i=\sum_{j=1}^{T_x}\alpha_{ij}h_j
其中,
α i j = k = 1 T x e x p ( e i k ) e x p ( e i j ) , e i j = a ( s i 1 , h j ) \alpha_{ij} = \frac{\sum_{k=1}^{T_x}exp(e_{ik})}{exp(e_{ij})}, e_{ij}=a(s_{i-1}, h_j)
簡單來說, c i c_i 是對所有Encoder Cell隱單元向量 h j h_j 的加權求和,這樣就把對於當前翻譯 i i 位置的任務重要的單詞賦予更大的權重,使其發揮更大的作用。

那麼我們如何得到權重係數呢?
文中求 e i j e_{ij} 又使用了一個簡單的前饋神經網路,將其和整個Encoder-Decoder系統一起訓練,從而得到 e i j e_{ij}

3、實驗任務
English-to-French翻譯任務。

注:
關於更多Seq2Seq和Attention機制的直觀感受,請參見seq2seq model和Attention-based seq2seq Model(動圖展示)

三、Towards Neural Phrase-based Machine Translation

1、提出背景:
(1)先前的NMT任務,Decoder部分大多數基於注意力機制。
(2)基於Phrase/Segment的翻譯比基於Word的翻譯效果好。
(3)SWAN使用Attention機制翻譯,但是其基於的假設是原序列和目標翻譯序列是單調的對應關係,這個假設性太強。
2、提出的方法:
(1)摒棄原序列和目標序列的對應關係,提出基於(soft) local reordering的思想。
(2)句子結構是自動訓練的,不需要預定義。
(3)文章中的方法基於另一篇論文的模型SWAN(論文為:Sequence modeling via segmentations.),SWAN的模型如下:
在這裡插入圖片描述
(4)本文提出的模型如下:
在這裡插入圖片描述
首先,對輸入序列Embedding操作,其次基於Embedding的結果重新變換句子順序,並將其輸入到雙向RNN中,最後,將輸出的結果喂入SWAN中得到翻譯結果。
(5)Reorder function.
Soft reordering第t個時間點的輸出 h t h_t 表示如下:
在這裡插入圖片描述
其中, σ ( ) \sigma() 表示sigmoid function, 2 τ + 1 2\tau +1 表示local reordering window size, [ e t τ ; . . . . ; e t ; . . . . ; e t τ ] [e_{t-\tau};....;e_t;....;e_{t-\tau}] 是向量 e t τ ; . . . . ; e t ; . . . . ; e t τ e_{t-\tau};....;e_t;....;e_{t-\tau} 的拼接,給 w i T [ e t τ ; . . . . ; e t ; . . . . ; e t τ ] w_i^T[e_{t-\tau};....;e_t;....;e_{t-\tau}] 加上一個sigmoid就當於給 e t τ + i e_{t-\tau+i} 加了一個門,最後 h t h_t 是所有的window中的 w i T [ e t τ ; . . . . ; e t ; . . . . ; e t τ ] w_i^T[e_{t-\tau};....;e_t;....;e_{t-\tau}] 之和, e i e_i 表示embedding的結果。如下圖所示:
在這裡插入圖片描述
左圖展示的便是上面公式的含義。比如,在右圖中,如果發現 e 2 e_2 在第二個視窗中比重較大, e 3 e_3 在第一個視窗中比重較大,則將 e 2 e_2 e 3 e_3 交換順序。
(6)reorder function中的 w i i = 0 2 τ {w_i}_{i=0}^{2\tau}

相關推薦

Paper Summary: Neural Machine Translation

一、 Sequence to Sequence Learning with Neural Networks - [email protected] 1、提出背景: (1)雖然DNN可以解決現實生活中的很多問題,但是在解決機器翻譯過程中,主要的問題是其輸入和輸出的長度一致。

論文筆記-Neural Machine Translation by Jointly Learning to Align and Translate

tps idt 個人理解 att date eight default con ati 提出attention機制,用於機器翻譯。 背景:基於RNN的機器翻譯 基本思路是首先對語言x進行編碼encoder,然後解碼decoder為語言y。encoder和decoder可

NEURAL MACHINE TRANSLATION

NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE ABSTRACT 1 INTRODUCTION 3 LEARNING TO ALIGN AND TRANSLATE

斯坦福大學-自然語言處理與深度學習(CS224n)筆記 第十課 神經機器翻譯(neural machine translation)與attention模型

本課概要 1、機器翻譯(MT) 2、帶attention的序列模型 3、序列模型解碼器(decoder) 一、機器翻譯(MT) 機器翻譯是一個十分經典的語言理解的測試,涉及語言分析(language analysis)與語言生成(language generat

The Real Problems with Neural Machine Translation

TLDR: No! Your Machine Translation Model is not "prophesying", but let's look at the six major issues with neural machine translation (NMT). So I saw a Twi

How to Develop a Neural Machine Translation System from Scratch

Tweet Share Share Google Plus Develop a Deep Learning Model to Automatically Translate from Germ

Amazon Translate – Neural Machine Translation

“At Isentia, we built our media intelligence software in a single language. To expand our capabilities and address the diverse language needs

Phrase-Based & Neural Unsupervised Machine Translation

Phrase-Based & Neural Unsupervised Machine Translation 論文:Phrase-Based & Neural Unsupervised Machine Translation 程式碼:Github

論文筆記-Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

mach default rap lin -s rnn alias for wrap 針對機器翻譯,提出 RNN encoder-decoder. encoder與decoder是兩個RNN,它們放在一起進行參數學習,最大化條件似然函數。 網絡結構: 註意輸入語句與

Machine Translation】僅由單語數據生成雙語詞典

多層感知機 img facebook 學習 sls data 上下文 algorithm inline Word translation without parallel data 考慮在只有單語數據的情況下,如何生成雙語詞典。 基於假設: 相似的上下文中的單詞具有相似的

Structural Features for Predicting the Linguistic Quality of Text: Applications to Machine Translation, Automatic Summarization and Human-Authored Tex

abstract句子結構是文字語言質量的關鍵,我們記錄了以下實驗結果:句法短語統計和其他結構特徵對文字方面的預測能力。手工評估的句子fluency流利度用於機器翻譯評估和文字摘要質量的評估是黃金準則。我們發現和短語長度相關的結構特徵是弱特徵,但是與fluency強相關,基於整個結構特徵的分類器可以在句子flu

Paper Summary: Record Linkage

很久之前的記錄了,現在發出來,並會繼續新增以便查閱~ --2018.11.07 一、Ranking Scientific Articles by Exploiting Citations, Authors, Journals, and Time Information(2013年@A

natural language processing blog: machine translation

Happy new year, all... Apologies for being remiss about posting recently. (Can I say "apologies about my remission"?) This post is a bit more of a revie

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

摘要:在本文中,我們提出了一種新的神經網路模型,稱為RNN編碼器 - 解碼器,由兩個遞迴神經網路(RNN)組成。一個RNN編碼器將特徵編碼為一個固定長度的向量,另一個解碼器解碼這個向量為另一個符號序列。聯合訓練所提出的模型的編碼器和解碼器以最大化給定源序列的目標序列的條件概率

Machine Learning:Neural Network---Representation

white div and for 設計 rop out fcm multi Machine Learning:Neural Network---Representation 1。Non-Linear Classification 假設還採取簡

論文筆記-DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

contain feature 比較 san date res 離散 edi post 針對交叉(高階)特征學習提出的DeepFM是一個end-to-end模型,不需要像wide&deep那樣在wide端人工構造特征。 網絡結構: sparse feature

machine learning 之 Neural Network 1

特征 中間 pan 單例 tor 思想 learning AC 每一個 整理自Andrew Ng的machine learning課程week 4. 目錄: 為什麽要用神經網絡 神經網絡的模型表示 1 神經網絡的模型表示 2 實例1 實例2 多分類問題 1、為

translation of the paper sequence and structure conservation in a protein core

prot The ons style 之間 als dell 標準 原子 sequence and structure conservation in a protein core 將殘基結合的緊密程度作為判斷保守型的標準(從結構上定義殘基的保守性)   使用原子與原子之間

Paper Review: FINN: A Framework for Fast, Scalable Binarized Neural Network Inference

FINN: A Framework for Fast, Scalable Binarized Neural Network Inference FINN:一個用於建立高效能可擴充套件二值神經網路推測器的框架 基本資訊 發表日期:2016年12月 主要作者:Yaman Umuroglu

Paper Review: fpgaConvNet--A Framework for Mapping Convolutional Neural Networks on FPGAs

注:本文中所有的圖片均擷取自原文作者的論文和講稿。 基本資訊 題目:fpgaConvNet:一個將CNN對映到FPGA上的平臺 作者:Stylianos I. Venieris, Christos-Savvas Bouganis 機構:Imperial College Londo