深度學習之五：序列模型與詞向量

1 迴圈序列模型

1.1 序列模型的適用範圍

序列模型是一種用於處理序列資料的模型，它可以用於語音識別，音樂生成，情感分類，機器翻譯，命名實體識別等。模型的輸出也可能是一個序列。

1.2 相關的符號約定

$x^{< k >}$ 表示輸入序列中的第k個元素
$y^{< k >}$ 表示輸出序列中的第k個元素
$x^{(i) < k >}$ 表示第i個輸入序列中的第k個元素
$y^{(i) < k >}$ 表示第i個輸出序列中的第k個元素
$T_{x}$ 表示輸入序列的長度
$T_{x}^{(i)}$ 表示第i個輸入序列的長度
$T_{y}$

T_{y}

表示輸出序列的長度

T_{y}^{(i)}

表示第i個輸出序列的長度

1.3 RNN模型

1.3.1 詞的one-hot表示

構造一個詞彙表(也稱為詞典)，若詞彙個數為n，詞(word)在詞典中的位置i記作 $w_{i}$ ，則詞可表示為一個長度為n的一維向量，向量中第 $w_{i}$ 位置的元素為1，其他位置為0。

1.3.2 模型示意

在處理序列資料時，由於輸入和輸出長度的不同，且序列模型的維度過高，引數過多，無法使用傳統的全聯接神經網路來處理，因此必須要使用新的序列化的模型。見下圖：
RNN單元示意圖

在圖中，RNN單元在時刻 $t_{0}$ 接收輸入 $x_{0}$ 併產生輸出 $y_{0}$ 。在下一個時刻 $t_{1}$ ，RNN單元同時接收輸入 $x_{1}$

x_{1}

和上一個時刻的輸出

h_{0}

，從而產生本時刻的輸出。這使得RNN可以考慮歷史輸入的影響。

1.3.3 前向傳播

從上圖的RNN單元的結構中，可以推導前向傳播的計算公式
$h_{t} = g (W_{h} * h_{t - 1} + W_{i} x_{t} + b_{h})$
可以將 $W_{h}, W_{i}$ 橫向堆疊，將 $h_{t - 1}, x_{t}$ 縱向堆疊，則公式改寫為：
$h_{t} = g ([W_{h} | W_{i}] \cdot [\frac{h_{t - 1}}{x_{t}}] + b_{h})$
$y_{t} = f (W_{o} * h_{t} + b_{o})$

1.3.4 RNN前向傳播實現

# 實現單個RNN單元內部的計算 

def rnn_cell_forward(xt, a_prev, parameters):

    Wax = parameters["Wax"] #alias Wt
    Waa = parameters["Waa"] #alias Wh
    Wya = parameters["Wya"] #alias Wo
    ba = parameters["ba"]   #alias bh
    by = parameters["by"]   #alias bo

    # compute next activation state 
    a_next = np.tanh(np.dot(Wax, xt) + np.dot(Waa, a_prev) + ba)
    yt_pred = softmax(np.dot(Wya, a_next) + by)

    cache = (a_next, a_prev, xt, parameters)
    return a_next, yt_pred, cache

# 實現沿時間序列向前計算
def rnn_forward(x, a0, parameters):
    caches = []

    n_x, m, T_x = x.shape
    n_y, n_a = parameters["Wya"].shape

    # initialize "a" and "y" with zeros
    a = np.zeros((n_a, m, T_x))
    y_pred = np.zeros((n_y, m, T_x))

    a_next = a0

    # loop over all time-steps
    for t in range(T_x):
        # Update next hidden state, compute the prediction, get the cache
        a_next, yt_pred, cache = rnn_cell_forward(x[:,:,t], a_next, parameters)

        a[:,:,t] = a_next
        y_pred[:,:,t] = yt_pred

        caches.append(cache)

    caches = (caches, x)
    return a, y_pred, caches

1.3.4 損失函式

單個樣本的損失函式定義為:

L^{< t >} ({\hat{y}}^{< t >}, y^{< t >}) = - y^{< t >} l o g {\hat{y}}^{< t >} - (1 - y^{< t >}) l o g (1 - {\hat{y}}^{< t >})

深度學習之五：序列模型與詞向量

1 迴圈序列模型

1.1 序列模型的適用範圍

1.2 相關的符號約定

1.3 RNN模型

1.3.1 詞的one-hot表示

1.3.2 模型示意

1.3.3 前向傳播

1.3.4 RNN前向傳播實現

1.3.4 損失函式

深度學習之五：序列模型與詞向量

六天搞懂“深度學習”之五：深度學習

Tensorflow深度學習之五：啟用函式

機器學習之路： python 實踐 word2vec 詞向量技術

分享《深度學習之TensorFlow：入門、原理與進階實戰》PDF+源代碼

六天搞懂“深度學習”之三：多層神經網路

六天搞懂“深度學習”之二：神經網路

六天搞懂“深度學習”之四：基於神經網路的分類

分散式學習之五：redis分步式鎖

演算法學習之五：佇列

深度學習之數學基礎（概率與統計）

深度學習之三：機器學習的策略

深度學習筆記五：卷積神經網路CNN(基本理論)

深度學習之路：（一）Keras中mnist資料集測試

Tensorflow深度學習之七：再談mnist手寫數字識別程式

深度學習之四：卷積神經網路基礎

[caffe]深度學習之MSRA影象分類模型Deep Residual Network(深度殘差網路)解讀

【深度學習之Caffe】將模型測試Classification過程生成動態連結庫dll以方便其他專案呼叫

深度學習之LSTM時間序列預測

jackson學習之五：JsonInclude註解

深度學習之五：序列模型與詞向量

1 迴圈序列模型

1.1 序列模型的適用範圍

1.2 相關的符號約定

1.3 RNN模型

1.3.1 詞的one-hot表示

1.3.2 模型示意

1.3.3 前向傳播

1.3.4 RNN前向傳播實現

1.3.4 損失函式

相關推薦