Softmax&SVM loss&gradient公式圖及其python實現

阿新 • • 發佈：2018-12-10

Softmax與SVM都是用來對資料進行分類的。Softmax常用於神經網路的輸出層，SVM常常直接與SGD配合實現物體分類。無論是Softmax還是SVM在工作時都需要計算出loss和gradient，學習使用中發現兩者有很多相似之處，特拿來對比學習。

公式

圖解

python程式碼實現

    """
    Structured softmax and SVM loss function.
    Inputs have dimension D, there are C classes, and we operate on minibatches
    of N examples.

    Inputs:
    - W: A numpy array of shape (D, C) containing weights.
    - X: A numpy array of shape (N, D) containing a minibatch of data.
    - y: A numpy array of shape (N,) containing training labels; y[i] = c means
      that X[i] has label c, where 0 <= c < C.
    
    Returns a tuple of:
    - loss as single float
    - gradient with respect to weights W; an array of same shape as W
    """
def softmax_loss_vectorized(W, X, y):


    loss = 0.0
    dW = np.zeros_like(W)

    num_train = X.shape[0]
    score = X.dot(W)
    shift_score = score - np.max(score, axis=1, keepdims=True)  # 對資料做了一個平移
    shift_score_exp = np.exp(shift_score)
    shift_score_exp_sum = np.sum(shift_score_exp, axis=1, keepdims=True)
    score_norm = shift_score_exp / shift_score_exp_sum

    loss = np.sum(-np.log(score_norm[range(score_norm.shape[0]), y])) / num_train
    
    # dW
    d_score = score_norm
    d_score[range(d_score.shape[0]), y] -= 1
    dW = X.T.dot(score_norm) / num_train 
    return loss, dW


def svm_loss_vectorized(W, X, y):

    delta = 1
    num_training = X.shape[0]
    scores = X.dot(W)
    scores_gt_cls = scores[range(num_training), y][..., np.newaxis]
    scores_dis = scores - scores_gt_cls + delta
    scores_dis[range(num_training), y] -= delta
    scores_norm = np.maximum(0, scores_dis)

    loss = np.sum(scores_norm) / num_training
 
    d_scores = scores_norm
    d_scores[d_scores > 0] = 1  # 出現錯誤得分的地方統統設為1
    row_sum=np.sum(d_scores, axis=1)
    d_scores[range(num_training), y] -= row_sum
    dW = X.T.dot(d_scores)/num_training
    return loss, dW

Softmax&SVM loss&gradient公式圖及其python實現

Softmax與SVM都是用來對資料進行分類的。Softmax常用於神經網路的輸出層，SVM常常直接與SGD配合實現物體分類。無論是Softmax還是SVM在工作時都需要計算出loss和gradient，學習使用中發現兩者有很多相似之處，特拿來對比學習。公式圖

Fuzzy C Means 算法及其 Python 實現——寫得很清楚，見原文

少包均值平均值劃分 gin 及其 end 5% 指數 Fuzzy C Means 算法及其 Python 實現轉自：http://note4code.com/2015/04/14/fuzzy-c-means-%E7%AE%97%E6%B3%95%E5%8F%8A%E

（轉）梯度下降法及其Python實現

radi 減少 fill 叠代 bbs 方法風險 ews 展示梯度下降法（gradient descent），又名最速下降法（steepest descent）是求解無約束最優化問題最常用的方法，它是一種叠代方法，每一步主要的操作是求解目標函數的梯度向量，將當前位置的負

Kmeans聚類算法及其 Python實現

lap pytho pan 鏈接 nbsp ade 不知道 ans details python Kmeans聚類之後如何給數據貼上聚類的標簽？用了二分Kmeans 來聚類質心和聚類的簇都得到了，不知道如何給每一條數據貼上具體的標簽？這個鏈接下的代碼，可以作為參

常用algorithm及其Python實現

至少圖片 gh值 com 下標 python 兩個 append exchange 冒泡排序 def bubble_sort(li): for i in range(len(li)-1): # i表示第幾趟 exchange = False

對數損失函數(Logarithmic Loss Function)的原理和 Python 實現

NPU 技術分享 blog 入參 rom __main__ bsp nat () 原理　　對數損失, 即對數似然損失(Log-likelihood Loss), 也稱邏輯斯諦回歸損失(Logistic Loss)或交叉熵損失(cross-entropy Loss), 是在

Kmeans 聚類及其python實現

main chang pen wid matplot ret 步驟 -- name 主要參考 K-means 聚類算法及 python 代碼實現還有《機器學習實戰》這本書，當然前面那個鏈接的也是參考這本書，懂原理，會用就行了。 1、概述 K-means 算

（轉）二十三種設計模式及其python實現

本文原始碼寄方於github:https://github.com/w392807287/Design_pattern_of_python 參考文獻：《大話設計模式》——吳強《Python設計模式》——pythontip.com 《23種設計模式》——http://www.cnblogs.com/

深度學習之網路設計時優化【Dropout，Batch Normalization及其python實現】

一、Dropout 隨機失活是一種簡單但非常有效的神經網路訓練效果提升技巧，原理大概是它在一定程度上避免了某些特定特徵組合對訓練造成的負面影響。在正向傳播時隨機挑選一部分神經元失活。在反向傳播時梯度只流經沒有失活的神經元。圖1 使用Dropout的網路結構示意

【深度學習】線性迴歸（二）小批量隨機梯度下降及其python實現

文章目錄概述小批量隨機梯度下降解析解和數值解小批量隨機梯度下降 python實現需要的先驗知識程式碼和實驗概述本文

Leetcode——中級部分——樹和圖部分——Python實現

中序遍歷二叉樹給定一個二叉樹，返回它的中序遍歷。示例: 輸入: [1,null,2,3] 1 \ 2 / 3 輸出: [1,3,2] 進階: 遞迴演算法很簡單，你可以通過迭代演算法完成嗎？我的解答：方法1——遞

K近鄰（KNN）演算法、KD樹及其python實現

1、k近鄰演算法 1.1 KNN基本思想 k近鄰法是基本且簡單的分類與迴歸方法，即對於輸入例項，依據給定的距離度量方式（歐式距離），以及選擇合適的k值（交叉驗證），在樣本集中找到最近鄰新例項的k個樣例，通過k個最近鄰樣例的類別表決出新例項的類別（多數表決）。

最大熵模型及其python實現

剛開始學習最大熵模型的時候，自以為書中的推導都看明白了。等到自己實現時才發現問題多多。因此，這篇部落格將把重點放在python程式的解讀上，為什麼說是解讀呢，因為這個程式不是我寫的（輕點噴~~），這個程式參考了網上的一篇部落格，地址：http://blog.cs

樸素貝葉斯詳解及其python實現

簡介貝葉斯定理用Thomas Bayes的名字命名。早在18世紀，英國學者貝葉斯提出計算條件概率的公式用來解決如下問題：假設B[1]、B[2]…B[n]互斥並且構成一個完備事件組，已知他們的概率P(B[i]),i=1,2,...,n,

經典查詢演算法及其Python實現

寫在前面上一篇介紹了幾大排序演算法，從基本原理解釋到Python程式碼實現，平時有空的話還需要經常翻出來複習複習。今天就主要來看看另外一大類演算法：經典查詢演算法。本篇相關python程式碼已上傳至Github：使勁兒點！1.基本概念查詢就是根據給定的某個值，在查詢表中確定一

圖論演算法初步-圖的python實現

圖的基本性質圖的分類：圖可以分為有向圖和無向圖，如圖為無向圖：另外，還可以將圖分為有權圖和無權圖，權表示兩個節點之間的某種關係，比如交通運輸網路中兩個地點的權值可以代表交通費用，如圖為有向圖：連通性：有時候，可能有兩個區域的交通路線是沒

邏輯迴歸及其python實現

邏輯迴歸原理 sigmod函式下圖給出了sigmod 函式在不同座標尺度下的兩條曲線圖。當 x 為 0 日牝 Sigmoid 函式值為 0.5 。隨著 1 的增大，對應的sigmod值將逼近於 1; 而隨著 x 的減小， Sigmoid 值將逼近於

資料結構與演算法：常見排序演算法及其python實現

0、綜合分析 0.1 排序演算法的種類及時間限制常見排序演算法一般分為非線性時間比較類排序和線性時間非比較類排序。比較類排序演算法時間複雜度的下限為O(nlog⁡n)O(n\log n)O(nlogn)，非比較類排序演算法不受比較式排序演算法的時間下

深入學習主成分分析（PCA）演算法原理及其Python實現

一：引入問題　　首先看一個表格，下表是某些學生的語文，數學，物理，化學成績統計：　　首先，假設這些科目成績不相關，也就是說某一科目考多少分與其他科目沒有關係，那麼如何判斷三個學生的優秀程度呢？首先我們一眼就能看出來，數學，物理，化學這三門課的成績構成了這組資料的主成分（很顯然，數學作為第一主成分，

用起來不太樸素的樸素貝葉斯及其Python實現

作為一個聽起來非常Naive的分類器，Naive Bayes Classifier使用了“屬性條件獨立性假設”，也就是假設所有屬性相互獨立。分類器的目的，是對任一測試樣本x,利用貝葉斯定理求出後驗概率最大的輸出類。假設y一共可以取N個標籤，yc代表第c類。那麼

Softmax&SVM loss&gradient公式圖及其python實現

公式

圖解

python程式碼實現

相關推薦