Softmax的理解與應用

阿新 • • 發佈：2018-12-08

Softmax在機器學習中有非常廣泛的應用，但是剛剛接觸機器學習的人可能對Softmax的特點以及好處並不理解，其實你瞭解了以後就會發現，Softmax計算簡單，效果顯著，非常好用。

我們先來直觀看一下，Softmax究竟是什麼意思

我們知道max，假如說我有兩個數，a和b，並且a>b，如果取max，那麼就直接取a，沒有第二種可能

但有的時候我不想這樣，因為這樣會造成分值小的那個飢餓。所以我希望分值大的那一項經常取到，分值小的那一項也偶爾可以取到，那麼我用softmax就可以了現在還是a和b，a>b，如果我們取按照softmax來計算取a和b的概率，那a的softmax值大於b的，所以a會經常取到，而b也會偶爾取到，概率跟它們本來的大小有關。所以說不是max，而是 Soft

max 那各自的概率究竟是多少呢，我們下面就來具體看一下

定義

假設我們有一個數組，V，Vi表示V中的第i個元素，那麼這個元素的Softmax值就是

Si=ei∑jejSi=ei∑jej

也就是說，是該元素的對數值，與所有元素對數值和的比值

這個定義可以說非常的直觀，當然除了直觀樸素好理解以外，它還有更多的優點

1.計算與標註樣本的差距

在神經網路的計算當中，我們經常需要計算按照神經網路的正向傳播計算的分數S1，和按照正確標註計算的分數S2，之間的差距，計算Loss，才能應用反向傳播。Loss定義為交叉熵

Li=−log(efyi∑jej)Li=−log⁡(efyi∑jej)

取log裡面的值就是這組資料正確分類的Softmax值，它佔的比重越大，這個樣本的Loss也就越小，這種定義符合我們的要求

2.計算上非常非常的方便

當我們對分類的Loss進行改進的時候，我們要通過梯度下降，每次優化一個step大小的梯度，這個時候我們就要求Loss對每個權重矩陣的偏導，然後應用鏈式法則。那麼這個過程的第一步，就是求Loss對score的偏導 (下面公式推導部分對於求偏導符號就用求導符號代替)

我們首先定義

Pyi=efyi∑jejPyi=efyi∑jej 是選到yi的概率

Li=−log(efyi∑jej)Li=−log⁡(efyi∑jej)是我們之前提到的交叉熵那麼我們求Loss對score的偏導就是

∂Li∂fyi=−ln(efyi∑jej)′∂Li∂fyi=−ln⁡(efyi∑jej)′ =−1∗∑jejefyi∗(efyi∑jej)′=−1∗∑jejefyi∗(1−∑j≠fyiej∑jej)′=−1∗∑jejefyi∗(efyi∑jej)′=−1∗∑jejefyi∗(1−∑j≠fyiej∑jej)′

=−1∗∑jejefyi∗(−1)∗∑j≠fyiej∗(−1)∗1(∑jej)2∗(∑jej)′=−1∗∑jejefyi∗(−1)∗∑j≠fyiej∗(−1)∗1(∑jej)2∗(∑jej)′

=−1∗∑jejefyi∗(−1)∗∑j≠fyiej∗(−1)∗1(∑jej)2∗efyi=−1∗∑jejefyi∗(−1)∗∑j≠fyiej∗(−1)∗1(∑jej)2∗efyi =−∑j≠fyiej∑jej=−∑j≠fyiej∑jej =−(1−Pfyi)=Pfyi−1=−(1−Pfyi)=Pfyi−1

最後結果的形式非常的簡單，只要將算出來的概率的向量對應的真正結果的那一維減1，就可以了

舉個例子，通過若干層的計算，最後得到的某個訓練樣本的向量的分數是[ 1, 5, 3 ], 那麼概率分別就是[e1e1+e3+e5,e5e1+e3+e5,e3e1+e3+e5]=[0.015,0.866,0.117][e1e1+e3+e5,e5e1+e3+e5,e3e1+e3+e5]=[0.015,0.866,0.117],如果這個樣本正確的分類是第二個的話，那麼計算出來的偏導就是[0.015,0.866−1,0.117]=[0.015,−0.134,0.117][0.015,0.866−1,0.117]=[0.015,−0.134,0.117]，是不是很簡單！！然後再根據這個進行back propagation就可以了

Softmax的理解與應用

定義

1.計算與標註樣本的差距

2.計算上非常非常的方便

Softmax的理解與應用

斯坦福大學深度學習公開課cs231n學習筆記（1）softmax函式理解與應用

分針網——每日分享：HTTP協議理解與應用總結

CSS格式與布局中三種位置的理解與應用

理解與應用css中的display屬性

ThreadLocal的理解與應用場景分析

DOM的理解與應用

極大似然估計的理解與應用

並查集理解與應用

[數學] 奇異值分解SVD的理解與應用

貝塞爾曲線理解與應用

STM32F3 系列的HRTIM 產生PWM理解與應用（以STM32F334為例，cube,HAL庫，附帶完整程式）

資料結構篇：校園最短路徑導航（二：弗洛伊德演算法理解與應用）

Python-----對裝飾器的理解與應用

PHP函式pcntl_fork的理解與應用

阿里前端測試題--關於ES6中Promise函式的理解與應用

C++筆記之多執行緒的理解與應用

範圍解析操作符（::）的理解與應用

Python 迭代器深入理解與應用示例

DockerFile理解與應用

Softmax的理解與應用

定義

1.計算與標註樣本的差距

2.計算上非常非常的方便

相關推薦