吳恩達deeplearning.ai課程系列筆記06

#寫在最前，deeplearning.ai系列課程相較於之前的Andrew Ng在coursera上2014釋出的機器學習課程內容更加豐富。重要的是此次課程示例程式碼都是用python來實現，不需要去熟悉octave，對大部分需要用python來學習機器學習的同學來說是個福音！原課程視訊請移步網易雲課堂或者coursera上學習。

#本文內容部分來自網路，只為自己學習以及分享供更多的人學習使用

1、Mini-batch

我們知道，當訓練資料數量較大的時候，訓練速度則顯得至關重要。

前面我們介紹了向量化會大大加快訓練的速度。但是如果把所有的特徵輸入x全部放入一個向量進行運算的時候，如果特徵值太大，則會導致每次迭代的時間會比較久。所以，我們選取一箇中間值，來均衡。

如圖所示，我們以1000為單位，將資料進行劃分，這就是所謂的mini-batch方法。

對於不同size：

1、batch梯度下降：

對所有m個訓練樣本執行一次梯度下降，每一次迭代時間較長；

Cost function 總是向減小的方向下降

2、隨機梯度下降：

對每一個訓練樣本執行一次梯度下降，但是丟失了向量化帶來的計算加速；

Cost function總體的趨勢向最小值的方向下降，但是無法到達全域性最小值點，呈現波動的形式。

3、Mini-batch梯度下降：

選擇一個合適的mini-batch size;

一般來說mini-batch size取2的次方比較好，例如64,128,256,512等，因為這樣與計算機記憶體設定相似，運算起來會更快一些。

- 如下圖所示，顯示size = m和1的兩種極端情況：

藍色收斂曲線表示mini-batch size=m，比較耗時，但是最後能夠收斂到最小值；而紫色收斂曲線表示mini-batch size=1，雖然速度可能較快，但是收斂曲線十分曲折，並且最終不會收斂到最小點，而是在其附近來回波動。
2、指數加權平均

當β=0.9時，指數加權平均最後的結果如圖中紅色線所示；
當β=0.98

時，指數加權平均最後的結果如圖中綠色線所示；
當β=0.5時，指數加權平均最後的結果如下圖中黃色線所示；

當β=0.9時：

v100=0.9v99+0.1θ100v99=0.9v98+0.1θ99v98=0.9v97+0.1θ98…

展開：

v100=0.1θ100+0.9(0.1θ99+0.9(0.1θ98+0.9v97))=0.1θ100+0.1×0.9θ99+0.1×(0.9

吳恩達deeplearning.ai課程系列筆記06

吳恩達deeplearning.ai課程系列筆記06

吳恩達deeplearning.ai課程系列筆記05（下）

吳恩達deeplearning.ai課程系列筆記09

吳恩達deeplearning.ai課程系列筆記01

吳恩達 DeepLearning.ai 課程提煉筆記（4-2）卷積神經網絡 --- 深度卷積模型

吳恩達deeplearning.ai課程《改善深層神經網路：超引數除錯、正則化以及優化》____學習筆記（第一週）

吳恩達DeepLearning.ai《深度學習》課程筆記目錄總集

【Coursera】吳恩達 deeplearning.ai 05.序列模型第一週迴圈序列模型課程筆記

【Coursera】吳恩達 deeplearning.ai 04.卷積神經網路第二週深度卷積神經網路課程筆記

吳恩達deeplearning.ai五項課程完整筆記了解一下？

完結篇 | 吳恩達deeplearning.ai專項課程精煉筆記全部彙總

完結撒花！吳恩達DeepLearning.ai《深度學習》課程筆記目錄總集

吳恩達DeepLearning.ai筆記（5-1）-- 迴圈序列模型

吳恩達DeepLearning.ai系列課後程式設計題實踐總結week3

心得丨吳恩達Deeplearning.ai 全部課程學習心得分享

吳恩達DeepLearning.ai筆記（1-4）-- 深層神經網路

【吳恩達deeplearning.ai筆記二】通俗講解神經網路上

吳恩達deepLearning.ai迴圈神經網路RNN學習筆記_看圖就懂了！！！(理論篇)

吳恩達deepLearning.ai迴圈神經網路RNN學習筆記_沒有複雜數學公式，看圖就懂了！！！(理論篇)

吳恩達Deeplearning.ai 知識點梳理（course 5，week 3）

吳恩達deeplearning.ai課程系列筆記06

相關推薦