1. 程式人生 > >Softmax

Softmax

想要 計算過程 提高 一個數 進行 mnist ssi 轉換成 案例

我們知道MNIST的每一張圖片都表示一個數字,從0到9。我們希望得到給定圖片代表每個數字的概率。比如說,我 們的模型可能推測一張包含9的圖片代表數字9的概率是80%但是判斷它是8的概率是5%(因為8和9都有上半部分的 小圓),然後給予它代表其他數字的概率更小的值。

這是一個使用softmax回歸(softmax regression)模型的經典案例。softmax模型可以用來給不同的對象分配概 率。即使在之後,我們訓練更加精細的模型時,最後一步也需要用softmax來分配概率。

softmax回歸(softmax regression)分兩步:第一步

為了得到一張給定圖片屬於某個特定數字類的證據(evidence),我們對圖片像素值進行加權求和。如果這個像 素具有很強的證據說明這張圖片不屬於該類,那麽相應的權值為負數,相反如果這個像素擁有有利的證據支持這 張圖片屬於這個類,那麽權值是正數。

下面的圖片顯示了一個模型學習到的圖片上每個像素對於特定數字類的權值。紅色代表負數權值,藍色代表正數權值。

技術分享

我們也需要加入一個額外的偏置量(bias),因為輸入往往會帶有一些無關的幹擾量。因此對於給定的輸入圖片 x 它代表的是數字 i 的證據可以表示為

技術分享

其中 bi代表數字 i 類的偏置量,j 代表給定圖片 x 的像素索引用於像素求和。然後用softmax函數可以把這些證據轉換 成概率 y:

技術分享

這裏的softmax可以看成是一個激勵(activation)函數或者鏈接(link)函數,把我們定義的線性函數的輸出轉 換成我們想要的格式,也就是關於10個數字類的概率分布。因此,給定一張圖片,它對於每一個數字的吻合度可 以被softmax函數轉換成為一個概率值。softmax函數可以定義為:

技術分享

展開等式右邊的子式,可以得到:

技術分享

但是更多的時候把softmax模型函數定義為前一種形式:把輸入值當成冪指數求值,再正則化這些結果值。這個冪 運算表示,更大的證據對應更大的假設模型(hypothesis)裏面的乘數權重值。反之,擁有更少的證據意味著在 假設模型裏面擁有更小的乘數系數。假設模型裏的權值不可以是0值或者負值。Softmax然後會正則化這些權重 值,使它們的總和等於1,以此構造一個有效的概率分布。(更多的關於Softmax函數的信息,可以參考Michael N ieslen的書裏面的這個部分,其中有關於softmax的可交互式的可視化解釋。)

對於softmax回歸模型可以用下面的圖解釋,對於輸入的 加權求和,再分別加上一個偏置量,最後再輸入到sof tmax函數中:

技術分享

如果把它寫成一個等式,我們可以得到:
技術分享
我們也可以用向量表示這個計算過程:用矩陣乘法和向量相加。這有助於提高計算效率。(也是一種更有效的思考方式)
技術分享
更進一步,可以寫成更加緊湊的方式:
技術分享








































Softmax