深層神經網路之經典損失函式

阿新 • • 發佈：2019-02-05

一, 交叉熵函式

交叉熵是一個資訊理論中的概念,但在此我們不深究它的本身意義,我們要知道,交叉熵刻畫了兩個概率分佈之間的距離,在深度神經網路的構建中,我們知道真實值和預測值之間會存在一個差值,這也就是為什麼使用交叉熵函式的原因.

給定兩個概率分佈p,q, 通過q來表示p的交叉熵為

H(p,q) = -∑ p(x) log q(x)

在這裡我們要知道交叉熵函式刻畫的是兩個概率分佈之間的距離,但神經網路的輸出不一定是一個概率分佈,所以,我們將會採用softmax迴歸函式,softmax迴歸本身可以作為一個學習演算法來優化分類結果,在TensorFlow中,softmax只是一層額外的處理層,它被加在原始輸出層和最終輸出層中間,目的就是輸出一個概率分佈.

通過TensorFlow實現交叉熵函式

cross_entropy = -tf.reduce_mean(y_ * tf.log(tf.clip_by_value(y, 1e-10,1.0)))

y_代表正確結果,y代表預測結果,在這裡一定要知道H(p,q)和H(q,p)是不一樣的,當交叉熵作為神經網路的損失函式時,前一個代表正確答案,後一個代表預測答案,這一行程式碼包含了4個不同的TensorFlow運算

tf.clip_by_value()函式可以將一個張量中的數值限制在一個範圍內在這個裡面就是將y限制在[1e-10, 1.0]這個區間內

tf.log()函式完成了對張量中所有元素依次求對數的功能

"*"和矩陣乘法是不一樣的,因為在在TensorFlow中矩陣乘法需要使用matmul()函式進行相乘,在這裡的相乘是元素的相乘

兩者的區別

v1 = tf.constant([1,2], [3,4]) v2 = tf.constant([5,6], [7,8])

print(v1 * v2).eval() #輸出[[5, 12], [21, 32]]

print(tf.matmul(v1, v2).eval())#輸出[[19, 22] [43, 50]]

通過上面的三步計算,我們會得到一個n×m的矩陣,這裡的n代表的是一個batch(批處理)中的所有樣例的數量,m為分類的數量,然後我們要把每行中的m個結果相加得到總的交叉熵,然後在對n行取平均得到一個batch的平均交叉熵,因為交叉熵一般會和softmax一起使用,所以TensorFlow將這兩個封裝在了一起

cross_entropy = tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y)

其中y代表原始神經網路輸出結果,y_則是標準答案,

深層神經網路之經典損失函式

H(p,q) = -∑ p(x) log q(x)

cross_entropy = -tf.reduce_mean(y_ * tf.log(tf.clip_by_value(y, 1e-10,1.0)))

v1 = tf.constant([1,2], [3,4]) v2 = tf.constant([5,6], [7,8])

print(v1 * v2).eval() #輸出[[5, 12], [21, 32]]

print(tf.matmul(v1, v2).eval())#輸出[[19, 22] [43, 50]]

cross_entropy = tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y)

深層神經網路之經典損失函式

神經網路歐式距離損失函式和softmaxwithloss損失函式轉換示例

Pytorch_第六篇_深度學習 (DeepLearning) 基礎 [2]---神經網路常用的損失函式

深度神經網路之損失函式和啟用函式

神經網路經典損失函式-交叉熵和均方誤差

神經網路系列之三 -- 損失函式

通俗理解神經網路之激勵函式(Activation Function)

通俗理解神經網路之激勵函式

《吳恩達深度學習工程師系列課程之——改善深層神經網路：超引數除錯、正則化以及優化》學習筆記

機器學習經典損失函式之交叉熵和均方差

Tensorflow實戰（五）經典卷積神經網路之實現VGGNet

人工神經網路之啟用函式 -tanh函式

神經網路之啟用函式(Activation Function)

TF之DNN：TF利用簡單7個神經元的三層全連線神經網路實現降低損失到0.000以下(輸入、隱藏、輸出層分別為 2、3 、 2 個神經元)——Jason niu

神經網路之啟用函式 dropout原理解讀 BatchNormalization 程式碼實現

神經網路之啟用函式(Activation Function)（附maxout）

改善深層神經網路_優化演算法_mini-batch梯度下降、指數加權平均、動量梯度下降、RMSprop、Adam優化、學習率衰減

改善深層神經網路：超引數除錯、正則化以及優化_課程筆記_第一、二、三週

卷積神經網路之早期架構

卷積神經網路之OverFeat(2014)

深層神經網路之經典損失函式

H(p,q) = -∑ p(x) log q(x)

cross_entropy = -tf.reduce_mean(y_ * tf.log(tf.clip_by_value(y, 1e-10,1.0)))

v1 = tf.constant([1,2], [3,4]) v2 = tf.constant([5,6], [7,8])

print(v1 * v2).eval() #輸出[[5, 12], [21, 32]]

print(tf.matmul(v1, v2).eval())#輸出[[19, 22] [43, 50]]

cross_entropy = tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y)

相關推薦