1. 程式人生 > >神經網路機器翻譯總結

神經網路機器翻譯總結

神經網路機器翻譯(Neural Machine Translation, NMT)是最近幾年提出來的一種機器翻譯方法。相比於傳統的統計機器翻譯(SMT)而言,NMT能夠訓練一張能夠從一個序列對映到另一個序列的神經網路,輸出的可以是一個變長的序列,這在翻譯、對話和文字概括方面能夠獲得非常好的表現。NMT其實是一個encoder-decoder系統,encoder把源語言序列進行編碼,並提取源語言中資訊,通過decoder再把這種資訊轉換到另一種語言即目標語言中來,從而完成對語言的翻譯。

神經網路的seq2seq學習

序列對序列的學習,顧名思義,假設有一箇中文句子“我也愛你”和一個對應英文句子“I love you too”,那麼序列的輸入就是“我也愛你”,而序列的輸出就是“I love you too”,從而對這個序列對進行訓練。對於深度學習而言,如果要學習一個序列,一個重要的困難就是這個序列的長度是變化的,而深度學習的輸入和輸出的維度一般是固定的,不過,有了RNN結構,這個問題就可以解決了,一般在應用的時候encoder和decoder使用的是LSTM或GRU結構。

這裡寫圖片描述
如上圖,輸入一個句子ABC以及句子的終結符號< EOS>,輸出的結果為XYZ及終結符號< EOS>。在encoder中,每一時間步輸入一個單詞直到輸入終結符為止,然後由encoder的最後一個隱藏層ht作為decoder的輸入,在decoder中,最初的輸入為encoder的最後一個隱藏層,輸出為目標序列詞X,然後把該隱藏層以及它的輸出X作為下一時間步的輸入來生成目標序列中第二個詞Y,這樣依次進行直到< EOS>。下面看它詳細的模型。
給定一個輸入序列(x1,,xT),經過下面的方程迭代生成輸出序列(y1

,,yT)

(1)ht=f(Whxxt+Whhht1)yt=Wyhht
其中,Whx為輸入到隱藏層的權重,Whh為隱藏層到隱藏層的權重,ht為隱藏結點,Wyh為隱藏層到輸出的權重。
在這個結構中,我們的目標是估計條件概率p(y1,,yT|x1,,xT),首先通過encoder的最後一個隱藏層獲得(x1,,xT)的固定維度的向量表示v,然後通過decoder進行計算y1,,yT的概率,這裡的初始隱藏層設定為向量v
(2)p(y1,,yT|x1,,xT)=Πt=1Tp(yt|v,y1,,yt1)

在這個方程中,每個p(yt|v,y1,,yt1)為一個softmax函式。
Sutskever等人在實際建模中有三點與上述描述不同:
1. 使用兩個LSTM模型,一個是用於encoder的,另一個用於decoder
2. 由於深層模型比淺層模型表現要好,所以使用了4層LSTM結構
3. 對輸入序列進行翻轉,即由原來的輸入ABC變成CBA。假設目標語言是XYZ,則LSTM把CBA對映為XYZ,之所以這樣做是因為A在位置上與X相近,B、C分別於Y、Z相近,實際上使用了短期依賴,這樣易於優化

帶注意力機制的seq2seq學習

Bahdanau等人在Sutskever研究的基礎上又提出了注意力機制,這種機制的主要作用就是在預測一個目標詞彙的時候,它會自動的查詢源語言序列中哪一部分與它相對應,並且在後續的查詢生詞中可以直接複製相對應的源語言詞,這在後面再講。

Encoder

Bahdanau等人使用的encoder是一個雙向RNN(bi-directional RNN),雙向RNN有前向和後向RNN組成,前向RNNf正向讀取輸入序列(從x1xT),並計算前向隱藏層狀態

深度神經網路優化論文總結

1、HanS, Mao H, Dally W J. Deep Compression: Compressing Deep NeuralNetworks with Pruning, Trained Quantization and Huffman Coding[J].Fiber, 2015,

神經網路常見概念總結

    啟用函式:將神經網路上一層的輸入,經過神經網路層的非線性變換轉換後,通過啟用函式,得到輸出。常見的啟用函式包括:sigmoid, tanh, relu等。https://blog.csdn.net/u013250416/article/details/80991831 為什麼

吳恩達深度學習筆記(15-21)總結-淺層神經網路總結

恩達老師的這一週的淺層神經網路總結,還是簡單的架構說明,但是還是要仔細讀哦! 架構分為四部分: 神經網路表示 計算神經網路輸出 啟用函式 神經網路的梯度下降 第一和第二部分: 神經網路表示和計算神經網路輸出部分,由於本部分講的是淺層的網路輸出,所以就是隻有一個隱藏層的神經網路,你也

關於神經網路的一些心得總結

【一些基礎概念】 feature  map:用不同的濾波器去卷及影象會得到不同特徵的對映,即feature map ground truth:正確的標註,訓練集對監督學習技術的分類的正確性 【一些亂七八糟的心得和記錄】 1、神經元的概念:用100種卷積核去卷積就有10

# [cs231n (八)神經網路總結:最小網路案例研究 ][1]

標籤(空格分隔): 神經網路 0.回顧 cs231n (一)影象分類識別講了KNN cs231n (二)講了線性分類器:SVM和SoftMax cs231n (三)優化問題及方法 cs231n (四)反向傳播 cs231n (五)神經網路 part 1: