深度學習中Dropout和Layer Normalization技術的使用

阿新 • • 發佈：2019-01-02

兩者的論文：

Dropout：http://www.jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf

Layer Normalization: https://arxiv.org/abs/1607.06450

RECURRENT NEURAL NETWORK REGULARIZATION https://arxiv.org/pdf/1409.2329.pdf

兩者的實現（以nematus為例子）：

https://github.com/EdinburghNLP/nematus/blob/master/nematus/layers.py

GUR中搞Dropout的地方：

readout那一層的操作：

疑問：

1. 為什麼Dropout放在LN前面？

其他人不是這個順序

https://stackoverflow.com/questions/39691902/ordering-of-batch-normalization-and-dropout-in-tensorflow

BatchNorm -> ReLu(or other activation) -> Dropout

2. 為什麼 state_below_，pctx_也要做LN？（後面沒有直接上啟用函式呢？）

在gru_layer中，state_below_做LN（輸入的是src）：

在gru_cond_layer中，state_below_又不做LN（輸入的是trg）：

3. Dropout以在Scan裡面生成不行：https://groups.google.com/forum/#!topic/lasagne-users/3eyaV3P0Y-E

https://groups.google.com/forum/#!topic/theano-users/KAN1j7iey68

4. Dropout in RNN

RECURRENT NEURAL NETWORK REGULARIZATION裡介紹上一個hidden state傳進來不要記性dropout(Figure 2)，但是Nematus裡面卻搞了...

5. residual connections

關於residual connections，https://github.com/harvardnlp/seq2seq-attn寫著：res_net: Use residual connections between LSTM stacks whereby the input to the l-th LSTM layer of the hidden state of the l-1-th LSTM layer summed with hidden state of the l-2th LSTM layer. We didn't find this to really help in our experiments.

深度學習中Dropout和Layer Normalization技術的使用

兩者的論文： Dropout：http://www.jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf Layer Normaliza

資深程序員帶你玩轉深度學習中的正則化技術（附Python代碼）！

c51 進行 ros batch num 簡單的 oat 深度學習 repr 目錄 1. 什麽是正則化？ 2. 正則化如何減少過擬合？ 3. 深度學習中的各種正則化技術： L2和L1正則化 Dropout 數據增強(Data augmentation) 提前停止(Ear

深度學習中 GPU 和視訊記憶體分析深度學習中 GPU 和視訊記憶體分析

轉深度學習中 GPU 和視訊記憶體分析 2017年12月21日 14:05:01 lien0906 閱讀數：5941 更多

深度學習中Dropout原理解析

“微信公眾號”1. Dropout簡介1.1 Dropout出現的原因在機器學習的模型中，如果模型的引數太多，而訓練樣本又太少，訓練出來的模型很容易產生過擬合的現象。在訓練神經網路的時候經常會遇到過擬合的問題，過擬合具體表現在：模型在訓練資料上損失函式較小，預測準確率較高；但

科普帖：深度學習中GPU和視訊記憶體分析

深度學習最吃機器，耗資源，在本文，我將來科普一下在深度學習中：何為“資源”不同操作都耗費什麼資源如何充分的利用有限的資源如何合理選擇顯示卡並糾正幾個誤區：視訊記憶體和GPU等價，使用GPU主要看視訊記憶體的使用？Batch Size 越大，程式越快，而且近似成正比？視訊記憶體佔用越多，程式越快？視訊記憶

深度學習中的數據增強技術（二）

data ont return per 分享圖片 slice google ordering res 上篇文章介紹了深度學習中數據增強技術的應用，及部分TensorFlow實現代碼。廢話不說了，這篇接著介紹： TensorFlow實現圖片數據增強註：類似的方法

深度學習中的歸一化(normalization)和正則化(regularization)

機器學習的學習過程基於概率和統計學，學習到的知識能用於其它資料的一個基本假設是獨立同分布(IID)，因此把資料變成同分布是很有必要的。 A.權重歸一化: WN 不歸一化特徵，而是歸一化權重。 B.特徵歸一化: BN、LN、IN、GN、SN 歸一化操作 BN、LN、IN、GN這

深度學習中的Xavier初始化和He Initialization（MSRA初始化）、Tensorflow中如何選擇合適的初始化方法?

Xavier初始化：論文：Understanding the difficulty of training deep feedforward neural networks 論文地址：http://proceedings.mlr.press/v9/glorot10a/glorot10a

3_深度學習中顯示卡的使用和現存的分配（20181213）

深度學習中顯示卡的使用和視訊記憶體的分配（20181213） 1、tensorflow 中顯示卡使用和視訊記憶體分配 1、顯示卡的使用，單顯示卡和多顯示卡使用 1、tensorflow禁用gpu： 2、視訊記憶體

深度學習中的Normalization模型

作者：張俊林，新浪微博AI Lab擔任資深演算法專家注：小白想系統整理一些深度學習相關的理論知識，如有侵權請聯絡刪除。 Batch Normalization（簡稱BN）自從提出之後，因為效果特別好，很快被作為深度學習的標準工具應用在了各種場合。BN大法雖然好，但是

[優化]深度學習中的 Normalization 模型

來源：https://www.chainnews.com/articles/504060702149.htm 機器之心專欄作者：張俊林 Batch Normalization （簡稱 BN）自從提出之後，因為效果特別好，很快被作為深度學習的標準工具應用在了各種場合。BN 大法雖然好，但是也存

深度學習中常見分佈-正態分佈和伽瑪分佈

正態分佈（Normal distribution）又名高斯分佈（Gaussian distribution），是一個在數學、物理及工程等領域都非常重要的概率分佈，在統計學的許多方面有著重大的影響力。若隨機變數X服從一個數學期望為μ、標準方差為σ2的高斯分佈，記為：

深度學習中卷積和池化的總結

深度學習中卷積和池化的總結涉及到padding的設定：https://www.jianshu.com/p/05c4f1621c7e 以及strides=[batch, height, width, channels]中，第一個、第三個引數必須為1的解釋。http://www.itdaa

深度學習中卷積和池化的一些總結

最近完成了hinton的深度學習課程的卷積和池化的這一章節了，馬上就要結束了。這個課程的作業我寫的最有感受，待我慢慢說來。 1：裡面有幾個理解起來的難點，一個是卷積，可以這麼來理解。這幅圖是對一個5*5的矩陣A進行3*3的矩陣B的卷積，那麼就從最上角到右下角，生成卷積之

深度學習中的dropout

看過很多關於dropout方面的部落格，但是感覺寫太一般，不能達到我想要的水平，所以決定自己寫一下。 1.dropout解決的問題深度神經網路的訓練是一件非常困難的事，涉及到很多因素，比如損失函式的非凸性導致的區域性最優值、計算過程中的數值穩定性、訓練

深度學習中的Batch Normalization

在看 ladder network(https://arxiv.org/pdf/1507.02672v2.pdf) 時初次遇到batch normalization（BN）. 文中說BN能加速收斂等好處，但是並不理解，然後就在網上搜了些關於BN的資料。看了知

深度學習中常見的打標籤工具和資料集集合

集大家之所長彙集於此，希望對有需要的你能有所幫助。一、打標籤工具（1）labelimg/labelme 這兩款工具簡便易行，前者主要用於對目標進行大致的標定，用於常見的框選標定，後者主要用於較為細緻的輪廓標定，多用於mask rcnn等。安裝也是很方便的，

[6]深度學習和Keras---- 深度學習中的一些難理解的基礎概念：softmax， batch，min-batch，iterations，epoch，SGD

在進行深度學習的過程中，我們經常會遇到一些自己不懂的概念和術語，比如，softmax， batch，min-batch，iterations，epoch，那麼如何快速和容易的理解這些術語呢？因為筆者也是深度學習的初學者，所以筆者在學習和瀏覽文章的過程中，把一些自己不太容易和

【群話題精華】五月集錦—— 機器學習和深度學習中一些值得思考的問題

原創宣告：本文為 SIGAI 原創文章，僅供個人學習使用，未經允許，不能用於商業目的。 SIGAI微信技術交流群已經運營3周了，在這期間群友們對很多技術問題進行了熱烈的討論，在這裡，我們將精華的話題整理出來，做一個總結。以後在每個月我們都會有類似的總結，敬請期待。神經網

深度學習中的啟用函式Sigmoid和ReLu啟用函式和梯度消失問題。

1. Sigmoid啟用函式： Sigmoid啟用函式的缺陷：當 x 取很大的值之後他們對應的 y 值區別不會很大，就會出現梯度消失的問題。因此現在一般都不使用Sigmoid函式，而是使用ReLu啟用函式。2. ReLu啟用函式： ReL

深度學習中Dropout和Layer Normalization技術的使用

相關推薦