深度學習-序列模型2
阿新 • • 發佈:2021-10-09
RNN新生成序列取樣,這樣做的動機:因為要看訓練好的模型不知道在那些方面表現的好,具體來分析,便於進一步改進模型。數學角度說,就是檢查訓練好的資料分佈是怎樣的。
具體來說:
1、按照生成模型那樣,先生成第一個單詞,softmax分佈進行隨機抽選,第二個詞在第一個詞的基礎上進行生成,第三個在前兩個詞的基礎上進行生成。
2、直至EOS結束,或者句子到達一定長度停止。
詞典:基於字元的,基於詞的, 現在一般情況都用的時基於詞的詞典。
GRU : 如何緩解梯度消失的?
加入gamma u 無限小,那麼基本上就是值傳遞不斷傳遞到最後,這就是一定程度上緩解了梯度消失,
並且gamma u選用sigmoid函式,那麼就比較容易產生接近0的數字。
補充了重置門,經過研究者的大量實驗,能夠使得網路更深,學習的更好。
LSTM:單獨的控制遺忘門,能夠更獨立,不像時GRU那樣直接依賴的1-u,所以表現的效果更好。
GRU 計算更快,適合更大規模的網路。
LSTM更加強大,更加靈活,因為門都是獨立的。