斯坦福深度學習課程cs231n assignment1作業筆記二：SVM實現相關

阿新 • • 發佈：2019-02-04

前言

本次作業需要完成：

實現SVM損失函式，並且是完全向量化的
實現相關的梯度計算，也是向量化的
使用數值梯度驗證梯度是否正確
使用驗證集來選擇一組好的學習率以及正則化係數
使用SGD方法優化loss
視覺化最終的權重

程式碼實現

使用for迴圈計算SVM的loss以及grad

其中W為權重矩陣，形狀為（D,C）；X為測試資料，形狀為（N,D）；y為X對應的標籤值，形狀為（N,）；reg為正則化係數。
函式需要返回float型的loss以及W對應的梯度矩陣
svm的損失函式如下：
在這裡插入圖片描述
其中s_i是f(w,x)的計算結果S（N,）的第i項。表示樣本屬於第i類的概率，s_y_i表示樣本被分為正確類別的概率。

實現svm_loss_naive(W, X, y, reg)函式

def svm_loss_naive(W, X, y, reg):
  """
  Structured SVM loss function, naive implementation (with loops).

  Inputs have dimension D, there are C classes, and we operate on minibatches
  of N examples.

  Inputs:
  - W: A numpy array of shape (D, C) containing weights.
  - X: A numpy array of shape (N, D) containing a minibatch of data.
  - y: A numpy array of shape (N,) containing training labels; y[i] = c means
    that X[i] has label c, where 0 <= c < C.
  - reg: (float) regularization strength

  Returns a tuple of:
  - loss as single float
  - gradient with respect to weights W; an array of same shape as W
  """ 

  dW = np.zeros(W.shape) # initialize the gradient as zero

  # compute the loss and the gradient
  num_classes = W.shape[1]
  num_train = X.shape[0]
  loss = 0.0
  for i in range(num_train):
    scores = X[i].dot(W) # X點乘W，獲得S
    correct_class_score = scores[y[i]] # 獲得Syi
    ds_w = np.repeat(X[i], num_classes) 
.reshape(-1, num_classes) # 計算偏S偏W
    dm_s = np.zeros(W.shape)
    for j in range(num_classes):
      if j == y[i]:
        continue
      margin = scores[j] - correct_class_score + 1 # note delta = 1
      if margin > 0:
        dm_s[:, j] = 1      #這兩步計算偏margin偏S
        dm_s[:, y[i]] -= 1
        loss += margin
    dW_i = ds_w * dm_s #計算偏margin偏w，單個輸入
    dW += dW_i # 求得總的梯度

  # Right now the loss is a sum over all training examples, but we want it
  # to be an average instead so we divide by num_train.
  loss /= num_train
  dW /= num_train 

  # Add regularization to the loss.
  loss += reg * np.sum(W * W)  # 加上正則化項
  dW += W*2 # 加上正則化項的梯度

  #############################################################################
  # TODO:                                                                     #
  # Compute the gradient of the loss function and store it dW.                #
  # Rather that first computing the loss and then computing the derivative,   #
  # it may be simpler to compute the derivative at the same time that the     #
  # loss is being computed. As a result you may need to modify some of the    #
  # code above to compute the gradient.                                       #
  #############################################################################


  return loss, dW

實現svm_loss_vectorized(W, X, y, reg)函式

def svm_loss_vectorized(W, X, y, reg):
  """
  Structured SVM loss function, vectorized implementation.

  Inputs and outputs are the same as svm_loss_naive.
  """
  loss = 0.0
  dW = np.zeros(W.shape) # initialize the gradient as zero

  #############################################################################
  # TODO:                                                                     #
  # Implement a vectorized version of the structured SVM loss, storing the    #
  # result in loss.                                                           #
  #############################################################################
  num_train = X.shape[0]
  num_classes = W.shape[1]
  scores = X.dot(W)
  correct_class_scores = scores[np.arange(num_train), y]
  margins = np.maximum(0, scores - correct_class_scores[:, np.newaxis] + 1.0)
  margins[np.arange(num_train), y] = 0
  loss = np.sum(margins)
  loss /= num_train
  loss += reg * np.sum(W * W)  
  #############################################################################
  #                             END OF YOUR CODE                              #
  #############################################################################


  #############################################################################
  # TODO:                                                                     #
  # Implement a vectorized version of the gradient for the structured SVM     #
  # loss, storing the result in dW.                                           #
  #                                                                           #
  # Hint: Instead of computing the gradient from scratch, it may be easier    #
  # to reuse some of the intermediate values that you used to compute the     #
  # loss.                                                                     #
  #############################################################################
  D = W.shape[0]
  dm_s = np.zeros_like(margins)
  dm_s[margins > 0] = 1
  num_pos = np.sum(margins > 0, axis=1)
  dm_s[np.arange(num_train), y] = -num_pos
  dW = X.T.dot(dm_s)
  dW /= num_train
  dW += W*2
  #############################################################################
  #                             END OF YOUR CODE                              #
  #############################################################################

  return loss, dW

結果

numerical: 1.680214 analytic: 1.679971, relative error: 7.230767e-05
numerical: -11.835214 analytic: -11.835290, relative error: 3.186856e-06
numerical: 31.223996 analytic: 31.224021, relative error: 3.971612e-07
numerical: -11.983471 analytic: -11.983169, relative error: 1.261847e-05
numerical: 14.276020 analytic: 14.275969, relative error: 1.817105e-06
numerical: 60.570112 analytic: 60.570076, relative error: 3.005679e-07
numerical: -21.435424 analytic: -21.435447, relative error: 5.177246e-07
numerical: 10.956106 analytic: 10.956302, relative error: 8.935366e-06
numerical: 15.374184 analytic: 15.374405, relative error: 7.184253e-06
numerical: 18.606596 analytic: 18.606262, relative error: 8.968162e-06
numerical: 6.584964 analytic: 6.576627, relative error: 6.334218e-04
numerical: -53.592687 analytic: -53.587162, relative error: 5.154812e-05
numerical: -37.440261 analytic: -37.452605, relative error: 1.648300e-04
numerical: -4.948189 analytic: -4.938414, relative error: 9.887377e-04
numerical: -28.108544 analytic: -28.111811, relative error: 5.811183e-05
numerical: 19.087159 analytic: 19.079373, relative error: 2.040010e-04
numerical: 39.119884 analytic: 39.115284, relative error: 5.880564e-05
numerical: -11.900470 analytic: -11.914449, relative error: 5.870076e-04
numerical: -17.774522 analytic: -17.779592, relative error: 1.426094e-04
numerical: -10.194233 analytic: -10.194915, relative error: 3.343300e-05

實現SGD

在實現了loss和gradient計算之後，實現SGD是很簡單的事情，所以就不貼程式碼了

斯坦福深度學習課程cs231n assignment1作業筆記二：SVM實現相關

前言本次作業需要完成：實現SVM損失函式，並且是完全向量化的實現相關的梯度計算，也是向量化的使用數值梯度驗證梯度是否正確使用驗證集來選擇一組好的學習率以及正則化係數使用SGD方法優化loss 視覺化最終的權重程式碼實現使用for迴圈計算SVM

斯坦福深度學習課程cs231n assignment1作業筆記三：softmax實現相關

任務實現向量化的損失函式實現向量化的梯度計算分析梯度與數值梯度的驗證使用驗證集來選擇超引數使用SGD優化方法視覺化權重理論知識 softmax損失函式令W為權重矩陣，大小為D×C；x為輸入，大小為1×D；b為偏置項，大小為1×C。那麼模型的輸

斯坦福深度學習課程cs231n assignment2作業筆記四：Fully-Connected Neural Nets

在有引導的情況下，發現具體實現和相關原理並不難。可是在學習這個課程之前，這些知識點對於博主來說都是不想去理解的理論知識，更沒想過手動實現。不得不說，大牛的課程就是牛啊。跟著走了一遍之後，以前感覺底層的東西都理解的很透徹。本部落格只貼出程式碼，給大家自己編寫時有

斯坦福深度學習課程cs231n assignment2作業筆記六：Convolutional Networks

話不多說，直接上程式碼： Convolution: Naive forward pass def conv_forward_naive(x, w, b, conv_param): """ A naive implementation of the

斯坦福深度學習課程筆記（二）

損失函式和優化官網 ppt 1 損失函式損失函式是用來定量地分析我們的模型預測效果有多糟糕的函式。損失函式輸出值越大，代表我們的模型效果越糟糕。損失函式的通用表示：假設我們的資料集有N個樣本，{(xi,yi)}i=1N\{(x_i,y_i)\}^{N}_

斯坦福深度學習課程筆記（一）

影象分類 ppt 1 資料驅動方法人眼和計算機看到的圖片不同，計算機看到的圖片是由很多代表畫素點的數字表示的陣列，所以人眼和計算機的視覺識別存在著Semantic Gap(語義鴻溝)。同時，讓計算機能夠有效地識別圖片中的物體之前，還存在很多挑戰：比如一些

Ng深度學習課程-第三週筆記摘要

淺層神經網路：一般地，輸入層不算在總層數內。只考慮隱藏層和輸出層的層數。這個是當輸入是單一的訓練樣本時的計算過程，程式設計實現時也只是這四行程式碼。接下來是針對多個訓練樣本。即是在原來單列的基礎上，再向後增加一列，每增

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-2）-- 神經網路基礎

以下為在Coursera上吳恩達老師的DeepLearning.ai課程專案中，第一部分《神經網路和深度學習》第二週課程部分關鍵點的筆記。筆記並不包含全部小視訊課程的記錄，如需學習筆記中捨棄的內容請至Coursera 或者網易雲課堂。同時在閱讀以下

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（5-1）-- 迴圈神經網路

Ng最後一課釋出了，撒花！以下為吳恩達老師 DeepLearning.ai 課程專案中，第五部分《序列模型》第一週課程“迴圈神經網路”關鍵點的筆記。同時我在知乎上開設了關於機器學習深度學習的專欄收錄下面的筆記，以方便大家在移動端的學習。歡迎關

Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-2）-- 神經網路基礎

以下為在Coursera上吳恩達老師的DeepLearning.ai課程專案中，第一部分《神經網路和深度學習》第二週課程部分關鍵點的筆記。筆記並不包含全部小視訊課程的記錄，如需學習筆記中捨棄的內容請至Coursera 或者網易雲課堂。同時在閱讀以下筆記之前，

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（5-3）-- 序列模型和注意力機制

完結撒花！以下為吳恩達老師 DeepLearning.ai 課程專案中，第五部分《序列模型》第三週課程“序列模型和注意力機制”關鍵點的筆記。同時我在知乎上開設了關於機器學習深度學習的專欄收錄下面的筆記，以方便大家在移動端的學習。歡迎關注我的知

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-3）-- 淺層神經網路

以下為在Coursera上吳恩達老師的DeepLearning.ai課程專案中，第一部分《神經網路和深度學習》第三週課程“淺層神經網路”部分關鍵點的筆記。筆記並不包含全部小視訊課程的記錄，如需學習筆記中捨棄的內容請至Coursera 或者網易雲課堂

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-4）-- 深層神經網路

以下為在Coursera上吳恩達老師的DeepLearning.ai課程專案中，第一部分《神經網路和深度學習》第四周課程“深層神經網路”部分關鍵點的筆記。筆記並不包含全部小視訊課程的記錄，如需學習筆記中捨棄的內容請至 Coursera 或者網易雲課

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（4-2）-- 深度卷積模型

以下為在Coursera上吳恩達老師的 DeepLearning.ai 課程專案中，第四部分《卷積神經網路》第二週課程“深度卷積模型”關鍵點的筆記。本次筆記幾乎涵蓋了所有視訊課程的內容。在閱讀以下筆記的同時，強烈建議學習吳恩達老師的視訊課程，視訊請至

『資料探勘十大演算法』筆記二：SVM-支援向量機

資料探勘Top 10演算法 C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART 支援向量機支援向量機，英文為Support Ve

吳恩達-深度學習-課程筆記-3: Python和向量化( Week 2 )

有時指數檢查都是效果很快 -1 tro str 1 向量化( Vectorization ) 在邏輯回歸中，以計算z為例，z = w的轉置和x進行內積運算再加上b，你可以用for循環來實現。但是在python中z可以調用numpy的方法，直接一句z = np.d

吳恩達-深度學習-課程筆記-6: 深度學習的實用層面( Week 1 )

data 絕對值 initial 均值化 http 梯度下降法 ati lod 表示 1 訓練/驗證/測試集( Train/Dev/test sets ) 構建神經網絡的時候有些參數需要選擇，比如層數，單元數，學習率，激活函數。這些參數可以通過在驗證集上的表現好壞來進行選擇

吳恩達-深度學習-課程筆記-8: 超參數調試、Batch正則化和softmax( Week 3 )

erp 搜索給定 via 深度 mode any .com sim 1 調試處理( tuning process ) 如下圖所示，ng認為學習速率α是需要調試的最重要的超參數。其次重要的是momentum算法的β參數（一般設為0.9），隱藏單元數和mini-batch的

神經網路與深度學習課程筆記（第三、四周）

接著學習吳恩達老師第三、四周的課程。（圖片均來自吳恩達老師課件）第三週 1. 普通的淺層網路

神經網路與深度學習課程筆記（第一、二週）

之前結束了吳恩達老師的機器學習的15節課，雖然看得很艱辛，但是也算是對於機器學習的理論有了一個入門，很多的東西需要不斷的思考以及總結。現在開始深度學習的學習，仍然做課程筆記，記錄自己的一些收穫以及思考。第一週 1. ReLU （Rectified

斯坦福深度學習課程cs231n assignment1作業筆記二：SVM實現相關

前言

程式碼實現

使用for迴圈計算SVM的loss以及grad

實現svm_loss_naive(W, X, y, reg)函式

實現svm_loss_vectorized(W, X, y, reg)函式

結果

實現SGD

相關推薦