python資料科學基礎和吳恩達作業補缺補漏(二)

阿新 • • 發佈：2018-12-28

Optimization Methods

1-梯度下降法在機器學習中的一個簡單的優化方法是梯度下降（GD）。當你對每一步的所有mm例子採取梯度步驟時，它也被稱為批量梯度下降。

(Batch) Gradient Descent:

X = data_input
Y = labels
parameters = initialize_parameters(layers_dims)
for i in range(0, num_iterations):
    # Forward propagation
    a, caches = forward_propagation(X, parameters 
)
    # Compute cost.
    cost = compute_cost(a, Y)
    # Backward propagation.
    grads = backward_propagation(a, caches, parameters)
    # Update parameters.
    parameters = update_parameters(parameters, grads)

Stochastic Gradient Descent:

X = data_input
Y = labels
parameters = initialize_parameters 
(layers_dims)
for i in range(0, num_iterations):
    for j in range(0, m):
        # Forward propagation
        a, caches = forward_propagation(X[:,j], parameters)
        # Compute cost
        cost = compute_cost(a, Y[:,j])
        # Backward propagation
        grads = backward_propagation(a, caches 
, parameters)
        # Update parameters.
        parameters = update_parameters(parameters, grads)在隨機梯度下降中，在更新梯度之前，只使用一個訓練示例。當訓練集很大時，SGD可以更快。但是這些引數會“振盪”到最小值，而不是平滑地收斂。這裡有一個例子

您應該記住的是：梯度下降、小批量梯度下降和隨機梯度下降之間的區別是您用來執行一個更新步驟的示例數量。你必須調整學習速率超引數。有了一個良好的小批量大小，通常它的效能優於梯度下降或隨機梯度下降（特別是當訓練集很大時）。

def random_mini_batches(X, Y, mini_batch_size = 64, seed = 0):
"""
Creates a list of random minibatches from (X, Y)

Arguments:
X -- input data, of shape (input size, number of examples)
Y -- true "label" vector (1 for blue dot / 0 for red dot), of shape (1, number of examples)
mini_batch_size -- size of the mini-batches, integer

Returns:
mini_batches -- list of synchronous (mini_batch_X, mini_batch_Y)
"""

np.random.seed(seed) # To make your "random" minibatches the same as ours
m = X.shape[1] # number of training examples
mini_batches = []

# Step 1: Shuffle (X, Y)
permutation = list(np.random.permutation(m))
shuffled_X = X[:, permutation]
shuffled_Y = Y[:, permutation].reshape((1,m))

# Step 2: Partition (shuffled_X, shuffled_Y). Minus the end case.
num_complete_minibatches = math.floor(m/mini_batch_size) # number of mini batches of size mini_batch_size in your partitionning
for k in range(0, num_complete_minibatches):
### START CODE HERE ### (approx. 2 lines)
mini_batch_X = shuffled_X[:,k*mini_batch_size:(k+1)*mini_batch_size]
mini_batch_Y = shuffled_Y[:,k*mini_batch_size:(k+1)*mini_batch_size]
### END CODE HERE ###
mini_batch = (mini_batch_X, mini_batch_Y)
mini_batches.append(mini_batch)

# Handling the end case (last mini-batch < mini_batch_size)
if m % mini_batch_size != 0:
### START CODE HERE ### (approx. 2 lines)
mini_batch_X = shuffled_X[:, num_complete_minibatches * mini_batch_size : m]
mini_batch_Y = shuffled_Y[:, num_complete_minibatches * mini_batch_size : m]
### END CODE HERE ###
mini_batch = (mini_batch_X, mini_batch_Y)
mini_batches.append(mini_batch)

return mini_batches

您應該記住的是：移動(洗牌)和分割槽是構建小批量的兩個步驟所需的兩個步驟，通常被選擇為小批量大小，例如，16、32、64,128。

3 - Momentum

因為小批量梯度下降在看到一個例子的一個子集後，會進行一個引數更新，更新的方向有一些差異，所以小批量梯度下降的路徑將會“振盪”趨向收斂。使用動量可以減少這些振盪。動量考慮了過去的漸變，以平滑更新。我們將在變數vv中儲存先前梯度的“方向”。形式上，這將是之前步驟的指數加權平均。你也可以把vv看作是一個滾下山的球的“速度”，根據山的坡度/坡度的方向建立速度（和動量）。

圖3：紅色箭頭顯示了一個帶動量的小批量梯度下降的方向。藍色的點顯示了每個步驟的梯度（關於當前的小批）的方向。我們不只是遵循梯度，而是讓梯度影響vv，然後在vv的方向上邁出一步。

Adam

動量通常是有幫助的，但是考慮到小的學習速率和簡單的資料集，它的影響幾乎是不可能的。另外，你在成本中看到的巨大振盪來自於這樣一個事實，即一些小批量對於優化演算法來說更加困難。另一方面，亞當明顯優於小批量梯度下降和動量。如果您在這個簡單的資料集上執行這個模型，那麼這三種方法都將帶來非常好的結果。然而，你已經看到亞當收斂得快得多。亞當的一些優點包括：相對較低的記憶體需求（儘管高於梯度下降和隨動量的梯度下降）通常可以很好地工作，即使對超引數進行微調（除了）

python資料科學基礎和吳恩達作業補缺補漏(二)

Optimization Methods

3 - Momentum

python資料科學基礎和吳恩達作業補缺補漏(二)

python資料科學基礎和吳恩達作業補缺補漏(三)

python資料科學基礎和吳恩達作業補缺補漏(一)

43.人工資料合成翻譯自吳恩達新書-Machine Learning Yearning

吳恩達作業5：正則化和dropout

演算法工程師修仙之路：吳恩達機器學習（二）

吳恩達機器學習（二）多元線性迴歸（假設、代價、梯度、特徵縮放、多項式）

吳恩達作業4：權重初始化

【吳恩達deeplearning.ai筆記二】通俗講解神經網路上

吳恩達作業9：卷積神經網路實現手勢數字的識別（基於tensorflow）

吳恩達-深度學習-課程筆記-3: Python和向量化( Week 2 )

吳恩達機器學習邏輯迴歸python實現（未正則化）[對應ex2-ex2data2.txt資料集]

吳恩達機器學習邏輯迴歸python實現[對應ex2-ex2data1.txt資料集]

吳恩達《神經網路與深度學習》課程筆記歸納（三）-- 神經網路基礎之Python與向量化

7.開發和測試資料集多大合適翻譯自吳恩達新書-Machine Learning Yearning

吳恩達-斯坦福CS229機器學習課程資料與演算法的Python實現

11.何時需要改變資料集和衡量指標翻譯自吳恩達新書-Machine Learning Yearning

Coursera 深度學習 deep learning.ai 吳恩達神經網路和深度學習第一課第二週程式設計作業 Python Basics with Numpy

吳恩達-深度學習-課程筆記-8: 超參數調試、Batch正則化和softmax( Week 3 )

python下載吳恩達deep learning編程習題

python資料科學基礎和吳恩達作業補缺補漏(二)

Optimization Methods

3 - Momentum

相關推薦