深度學習中的batch的大小對學習效果的影響

阿新 • • 發佈：2018-12-28

Batch_size引數的作用：決定了下降的方向

極端一：

batch_size為全資料集(Full Batch Learning)：

好處：

1.由全資料集確定的方向能夠更好地代表樣本總體，從而更準確地朝向極值所在的方向。

2.由於不同權重的梯度值差別巨大，因此選擇一個全域性的學習率很困難。Full Batch Learning可以使用Rprop只基於梯度符號並且針對性單獨更新各權值。

壞處：

1.隨著資料集的海量增長和記憶體限制，一次性載入所有的資料進來變得越來越不可行。

2.以Rprop的方式迭代，會由於各個Batch之間的取樣差異性，各次梯度修正值相互抵消，無法修正。

極端二：

Batch_size=1:

Batch_size=1，也就是每次只訓練一個樣本。這就是線上學習(Online Learning)。線性神經元在均方誤差代價函式的錯誤面是一個拋物面，橫截面是橢圓。對於多層神經元，非線性網路，在區域性依然近似是拋物面。使用線上學習，每次修正方向以各自樣本的梯度方向修正，難以達到收斂。

選擇適中的Batch_size值：

也就是批梯度下降法。因為如果資料集足夠充分，那麼用一半，甚至少得多的資料訓練算出來的梯度與用全部資料訓練出來的梯度幾乎是一樣的。

在合理範圍內，增大Batch_size的好處：

1.提高了記憶體利用率以及大矩陣乘法的並行化效率。

2.減少了跑完一次epoch(全資料集）所需要的迭代次數，加快了對於相同資料量的處理速度。

盲目增大Batch_size的壞處：

1.提高了記憶體利用率，但是記憶體容量可能不足。

2.跑完一次epoch(全資料集)所需的迭代次數減少，要想達到相同的精度，其所花費的時間大大增加，從而對引數的修正也就顯得更加緩慢。

3.Batch_size增大到一定程度，其確定的下降方向已經基本不再變化。

調節Batch_size會如何影響訓練效果？

實驗：使用不同的batch_size，在LeNet上訓練Ｍnist資料集的效果。使用的框架為Theano。

執行結果表明：

1.Batch_Size太小，演算法在200 epochs內不收斂。

2.隨著Batch_Size增大，處理相同資料量的速度加快。

3.隨著Batch_Size增大，達到相同精度所需要的epoch的數量增多。

4.由於上述兩種因素的矛盾，Batch_Size增大到某個時候，達到時間上的最優。

5.由於最終收斂精度會陷入不同的區域性極值，因此Batch_Size增大到某些時候，達到最終收斂精度上的最優。

在實際過程中，該如何選擇呢？

一般而言，根據GPU視訊記憶體，設定為最大，而且一般要求是８的倍數（比如32，128），這樣，GPU內部的平行計算效率最高。

或者，選擇一部分資料，設定幾個８的倍數的Batch_Size，看看loss的下降情況即可。

其他經驗之談

知乎使用者：理論上說batch_size=1是最好的，不過實際上調的時候，會出現batch_size太小導致網路收斂不穩定，最後結果比較差。而batch_size太大會影響隨機性的引入。

江河：

1.batch_size設的大一些，收斂得塊，也就是需要訓練的次數少，準確率上升的也很穩定，但是實際使用起來精度不高。

2.batch_size設的小一些，收斂得慢，可能準確率來回震盪，因此需要把基礎學習速率降低一些，但是實際使用起來精度較高。

一般嘗試batch_size=64或者batch_size=1兩種情況。

總結：對於新手而言，在GPU記憶體足夠的情況下，結合樣本大小，可以嘗試batch_size為8，16，32，64等.

深度學習中的batch的大小對學習效果的影響

Batch_size引數的作用：決定了下降的方向極端一： batch_size為全資料集(Full Batch Learning)：好處： 1.由全資料集確定的方向能夠更好地代表樣本總體，從而更準確地朝向極值所在的方向。 2.由於不同權重的梯度值差別巨大，因此選擇一個全域性的學習率很困難。Ful

深度學習中的網路表徵學習的演算法目標簡介

https://www.toutiao.com/a6639983875458073095/ 2018-12-28 18:08:39 深度學習網路表徵學習演算法的目標是獲得網路的低維稠密表示。對於大規模網路（如社會網路）。網路表徵學習的目標是把網路中的每個節點表示成為個低維稠

『深度概念』度量學習中損失函式的學習與深入理解

『深度概念』度量學習中損失函式的學習與深入理解 0. 概念簡介度量學習（Metric Learning），也稱距離度量學習(Distance Metric Learning，DML) 屬於機器學習的一種。其本質就是相似度的學習，也可以認為距離學習。因為在一定條件下，相似度

深度學習中常見優化演算法學習筆記

最近系統學習了神經網路訓練中常見的gradient descent系列優化演算法,現將學習筆記整理如下,主要包括: 1.深度學習與單純的最優化有何不同 2.基礎的graident descent演算法 3.基於momentum的改進演算法 4.基於adaptive learning rate的改進演算法 5.

聊聊機器學習中的無監督學習

機器學習分為監督式機器學習、無監督式機器學習和半監督式機器學習。其劃分的標準是訓練樣本是否包含人為標註的結果。(1)監督式機器學習：從給定的訓練資料集中學習出一個函式，當新的資料到來時，可以根據這個函式預測結果。監督學習的訓練集要求是包括輸入和輸出，也可以說是特徵和目標。訓練

機器學習中的有監督學習，無監督學習，半監督學習

3、監督式學習有兩種形態的模型。最一般的，監督式學習產生一個全域模型，會將輸入物件對應到預期輸出。而另一種，則是將這種對應實作在一個區域模型。（如案例推論及最近鄰居法）。為了解決一個給定的監督式學習的問題（手寫辨識），必須考慮以下步驟： 1）決定訓練資料的範例的形態。在做其它事前，工程師應決定要使用哪種資料為

機器學習中的有監督學習，無監督學習，半監督學習的區別

在機器學習(Machine learning)領域，主要有三類不同的學習方法：監督學習(Supervised learning)、非監督學習(Unsupervised learning)、半監督學習(Semi-supervised learning)，監督學

MDK生成bin檔案的方法及bin檔案大小對程式的影響

MDK生成bin檔案的方法及bin檔案大小對程式的影響使用MDK軟體一般是不生成bin檔案的，而是生成的是hex檔案。但是在某些時候需要生成bin檔案，或者要知道bin檔案的大小。因為bin檔案的大小直接關乎程式能不能下載到晶片，例如STM32F10

Insert語句加/+APPEND /在迴圈中單條提交對系統的影響分析

1、/*+APPEND */提示的用途 /*+APPEND */提示，是一個INSERT語句專有的hint，它的作用，大家都知道是用來提升insert速度的，並且效果非常的明顯，至於它的提升速度的工作原理，在筆者的另一篇博文《用直接路徑（direct-path）insert

關於在深度學習中訓練資料集的batch的經驗總結

由於深度學習的網格很大，用來訓練的資料集也很大。因此不可能一下子將所有資料集都輸入到網路中，便引入了batch_size的概念，下面總結自己兩種常用的呼叫batch的方法 1、使用TensorFlow， tf.train.batch（）。 2、 offset = (offset

深度學習中的 epoch iteration batch-size

（1）iteration：表示1次迭代（也叫training step），每次迭代更新1次網路結構的引數；（2）batch-size：1次迭代所使用的樣本量；（3）epoch：1個epoch表示過了1遍訓練集中的所有樣本。值得注意的是，在深度學習領域中，常用帶mini-batch的

深度學習中的Batch Normalization

在看 ladder network(https://arxiv.org/pdf/1507.02672v2.pdf) 時初次遇到batch normalization（BN）. 文中說BN能加速收斂等好處，但是並不理解，然後就在網上搜了些關於BN的資料。看了知

深度學習中的三種梯度下降方式：批量（batch），隨機（stochastic），小批量（mini-batch）

　　1，批量梯度下降法（Batch Gradient Descent）：在更新引數時都使用所有的樣本來進行更新。　　優點：全域性最優解，能保證每一次更新權值，都能降低損失函式；易於並行實現。　　缺點：當樣本數目很多時，訓練過程會很慢。　　2，隨機梯度下降法（Stoch

深度學習中的epochs，batch_size，iterations詳解---對這三個概念說的比較清楚

深度學習框架中涉及很多引數，如果一些基本的引數如果不瞭解，那麼你去看任何一個深度學習框架是都會覺得很困難，下面介紹幾個新手常問的幾個引數。batch深度學習的優化演算法，說白了就是梯度下降。每次的引數更新有兩種方式。第一種，遍歷全部資料集算一次損失函式，然後算函式對各個引數的

深度學習中對神經網路的理解

最近在研究Deep Learning在個性化推薦中的應用，由於DL跟神經網路有很大的關係，索性開篇就介紹下神經網路和自己所瞭解到的知識。接觸ML時間不是很長，難免有描述不當的地方，旨在於交流學習，有啥想法直接後面回覆。在這篇博文中，你將會看到如下知識：神經網路的基本模型

[6]深度學習和Keras---- 深度學習中的一些難理解的基礎概念：softmax， batch，min-batch，iterations，epoch，SGD

在進行深度學習的過程中，我們經常會遇到一些自己不懂的概念和術語，比如，softmax， batch，min-batch，iterations，epoch，那麼如何快速和容易的理解這些術語呢？因為筆者也是深度學習的初學者，所以筆者在學習和瀏覽文章的過程中，把一些自己不太容易和

深度學習中常見的相關概念及TensorFlow中的batch和minibatch

在剛開始學習使用TF的過程中，我不是很理解什麼是“batch”。也經常有人問，到底minibatch是幹什麼的？然而這是一個在TensorFlow中，或者說很多DL的框架中很常見的詞。這個解釋我覺得比較貼切也比較容易理解。引用如下：深度學習的優化演算法，說白了就是梯度

專家坐堂：機器學習中對核函數的理解

wechat size 學習 blank weixin itl cti title redirect 專家坐堂：機器學習中對核函數的理解專家坐堂：機器學習中對核函數的理解

資深程序員帶你玩轉深度學習中的正則化技術（附Python代碼）！

c51 進行 ros batch num 簡單的 oat 深度學習 repr 目錄 1. 什麽是正則化？ 2. 正則化如何減少過擬合？ 3. 深度學習中的各種正則化技術： L2和L1正則化 Dropout 數據增強(Data augmentation) 提前停止(Ear

卷積在深度學習中的作用（轉自http://timdettmers.com/2015/03/26/convolution-deep-learning/）

範圍 SM 全連接判斷 contact con 發展 .dsp length 卷積可能是現在深入學習中最重要的概念。卷積網絡和卷積網絡將深度學習推向了幾乎所有機器學習任務的最前沿。但是，卷積如此強大呢？它是如何工作的？在這篇博客文章中，我將解釋卷積並將其與其他概念聯系起來

深度學習中的batch的大小對學習效果的影響

Batch_size引數的作用：決定了下降的方向

極端一：

極端二：

執行結果表明：

在實際過程中，該如何選擇呢？

總結：對於新手而言，在GPU記憶體足夠的情況下，結合樣本大小，可以嘗試batch_size為8，16，32，64等.

相關推薦