交叉熵代價函式（作用及公式推導

阿新 • • 發佈：2019-01-27

交叉熵代價函式（Cross-entropy cost function）是用來衡量人工神經網路（ANN）的預測值與實際值的一種方式。與二次代價函式相比，它能更有效地促進ANN的訓練。在介紹交叉熵代價函式之前，本文先簡要介紹二次代價函式，以及其存在的不足。

1. 二次代價函式的不足

ANN的設計目的之一是為了使機器可以像人一樣學習知識。人在學習分析新事物時，當發現自己犯的錯誤越大時，改正的力度就越大。比如投籃：當運動員發現自己的投籃方向離正確方向越遠，那麼他調整的投籃角度就應該越大，籃球就更容易投進籃筐。同理，我們希望：ANN在訓練時，如果預測值與實際值的誤差越大，那麼在反向傳播訓練的過程中，各種引數調整的幅度就要更大，從而使訓練更快收斂。

然而，如果使用二次代價函式訓練ANN，看到的實際效果是，如果誤差越大，引數調整的幅度可能更小，訓練更緩慢。

以一個神經元的二類分類訓練為例，進行兩次實驗（ANN常用的啟用函式為sigmoid函式，該實驗也採用該函式）：輸入一個相同的樣本資料x=1.0（該樣本對應的實際分類y=0）；兩次實驗各自隨機初始化引數，從而在各自的第一次前向傳播後得到不同的輸出值，形成不同的代價（誤差）：

實驗1：第一次輸出值為0.82

實驗2：第一次輸出值為0.98

在實驗1中，隨機初始化引數，使得第一次輸出值為0.82（該樣本對應的實際值為0）；經過300次迭代訓練後，輸出值由0.82降到0.09，逼近實際值。而在實驗2中，第一次輸出值為0.98，同樣經過300迭代訓練，輸出值只降到了0.20。

從兩次實驗的代價曲線中可以看出：實驗1的代價隨著訓練次數增加而快速降低，但實驗2的代價在一開始下降得非常緩慢；直觀上看，初始的誤差越大，收斂得越緩慢。

其實，誤差大導致訓練緩慢的原因在於使用了二次代價函式。二次代價函式的公式如下：

其中，C表示代價，x表示樣本，y表示實際值，a表示輸出值，n表示樣本的總數。為簡單起見，同樣一個樣本為例進行說明，此時二次代價函式為：

目前訓練ANN最有效的演算法是反向傳播演算法。簡而言之，訓練ANN就是通過反向傳播代價，以減少代價為導向，調整引數。引數主要有：神經元之間的連線權重w，以及每個神經元本身的偏置b。調參的方式是採用梯度下降演算法（Gradient descent），沿著梯度方向調整引數大小。w和b的梯度推導如下：

其中，z表示神經元的輸入，表示啟用函式。從以上公式可以看出，w和b的梯度跟啟用函式的梯度成正比，啟用函式的梯度越大，w和b的大小調整得越快，訓練收斂得就越快。而神經網路常用的啟用函式為sigmoid函式，該函式的曲線如下所示：

如圖所示，實驗2的初始輸出值（0.98）對應的梯度明顯小於實驗1的輸出值（0.82），因此實驗2的引數梯度下降得比實驗1慢。這就是初始的代價（誤差）越大，導致訓練越慢的原因。與我們的期望不符，即：不能像人一樣，錯誤越大，改正的幅度越大，從而學習得越快。

可能有人會說，那就選擇一個梯度不變化或變化不明顯的啟用函式不就解決問題了嗎？圖樣圖森破，那樣雖然簡單粗暴地解決了這個問題，但可能會引起其他更多更麻煩的問題。而且，類似sigmoid這樣的函式（比如tanh函式）有很多優點，非常適合用來做啟用函式，具體請自行google之。

2. 交叉熵代價函式

換個思路，我們不換啟用函式，而是換掉二次代價函式，改用交叉熵代價函式：

其中，x表示樣本，n表示樣本的總數。那麼，重新計算引數w的梯度：

其中（具體證明見附錄）：

因此，w的梯度公式中原來的被消掉了；另外，該梯度公式中的表示輸出值與實際值之間的誤差。所以，當誤差越大，梯度就越大，引數w調整得越快，訓練速度也就越快。同理可得，b的梯度為：

實際情況證明，交叉熵代價函式帶來的訓練效果往往比二次代價函式要好。

3. 交叉熵代價函式是如何產生的？

以偏置b的梯度計算為例，推匯出交叉熵代價函式：

在第1小節中，由二次代價函式推匯出來的b的梯度公式為：

為了消掉該公式中的，我們想找到一個代價函式使得：

即：

對兩側求積分，可得：

而這就是前面介紹的交叉熵代價函式。

附錄：

sigmoid函式為：

可證：

交叉熵代價函式（作用及公式推導）

交叉熵代價函式（Cross-entropy cost function）是用來衡量人工神經網路（ANN）的預測值與實際值的一種方式。與二次代價函式相比，它能更有效地促進ANN的訓練。

交叉熵代價函式（作用及公式推導

交叉熵代價函式（Cross-entropy cost function）是用來衡量人工神經網路（ANN）的預測值與實際值的一種方式。與二次代價函式相比，它能更有效地促進ANN的訓練。在介紹交叉熵代價函式之前，本文先簡要介紹二次代價函式，以及其存在的不足。 1. 二次

最小二乘與交叉熵代價函式的區別（作用及公式推導）

交叉熵代價函式（Cross-entropy cost function）是用來衡量人工神經網路（ANN）的預測值與實際值的一種方式。與二次代價函式相比，它能更有效地促進ANN的訓練。在介紹交叉熵代價函式之前，本文先簡要介紹二次代價函式，以及其存在的不足。 1. 二次代

機器學習基礎（六）—— 交叉熵代價函式（cross-entropy error）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

交叉熵代價函式（cross-entropy cost function）

1.從方差代價函式說起代價函式經常用方差代價函式（即採用均方誤差MSE），比如對於一個神經元（單輸入單輸出，sigmoid函式）,定義其代價函式為：其中y是我們期望的輸出，a為神經元的實際輸出【 a=σ(z), where z=wx+b 】。在訓練神經網路過程中，我

深度學習框架tensorflow學習與應用5（softmax函式+交叉熵代價函式和二次代價函式的比較）

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data # In[3]: #載入資料集 mnist = input_data.read_data_sets("MNIST_data",o

五、改進神經網路的學習方法（1）：交叉熵代價函式

本部落格主要內容為圖書《神經網路與深度學習》和National Taiwan University (NTU)林軒田老師的《Machine Learning》的學習筆記，因此在全文中對它們多次引用。初出茅廬，學藝不精，有不足之處還望大家不吝賜教。

深度學習基礎--loss與啟用函式--sigmiod與softmax；對數損失函式與交叉熵代價函式

sigmiod與softmax sigmiod就是邏輯迴歸（解決二分類問題）；softmax是多分類問題的邏輯迴歸雖然邏輯迴歸能夠用於分類，不過其本質還是線性迴歸。它僅線上性迴歸的基礎上，在特徵到結果的對映中加入了一層sigmoid函式（非線性）對映，即先把特徵線性求和，然後使

【Kaggle-MNIST之路】CNN結構再改進+交叉熵損失函式（六）

簡述這裡再添加了一個卷積層。用一個kernal=4的卷積層做一個卷積之後，再做對映。基於之前的一個版本【Kaggle-MNIST之路】CNN結構改進+改進過的損失函式（五）成績：0.9898 排名：1000+ 程式碼注意

softmax + cross-entropy交叉熵損失函式詳解及反向傳播中的梯度求導

相關正文在大多數教程中, softmax 和 cross-entropy 總是一起出現, 求梯度的時候也是一起考慮. 我們來看看為什麼. 關於 softmax 和 cross-entropy 的梯度的求導過程, 已經在上面的兩篇文章中分別給出, 這裡

神經網路中交叉熵代價函式求導

最近看了幾篇神經網路的入門介紹知識，有幾篇很淺顯的博文介紹了神經網路演算法執行的基本原理，首先盜用伯樂線上中的一個11行python程式碼搞定的神經網路， import numpy as np # sigmoid function def nonlin(

反向傳播算法（過程及公式推導）

不能簡化會有 geo 之前代碼求和不同 eof 一、反向傳播的由來在我們開始DL的研究之前，需要把ANN—人工神經元網絡以及bp算法做一個簡單解釋。關於ANN的結構，我不再多說，網上有大量的學習資料，主要就是搞清一些名詞：輸入層/輸入神經元，輸出層/輸出神經元，

反向傳播演算法（過程及公式推導）

反向傳播演算法（Backpropagation）是目前用來訓練人工神經網路（Artificial Neural Network，ANN）的最常用且最有效的演算法。其主要思想是：（1）將訓練集資料輸入到ANN的輸入層，經過隱藏層，最後達到輸出層並輸出結果，這是ANN的前向傳

交叉熵損失函式及Tensorflow實現

一、交叉熵損失原理一般情況下，在分類任務中，神經網路最後一個輸出層的節點個數與分類任務的標籤數相等。假設最後的節點數為N，那麼對於每一個樣例，神經網路可以得到一個N維的陣列作為輸出結果，陣列中每一個維度會對應一個類別。在最理想的情況下，如果一個樣本屬於k，那麼這個類別所對應的第k個輸出節

softmax的log似然代價函式（公式求導）

在人工神經網路（ANN）中，Softmax通常被用作輸出層的啟用函式。這不僅是因為它的效果好，而且因為它使得ANN的輸出值更易於理解。同時，softmax配合log似然代價函式，其訓練

在深度學習中Softmax交叉熵損失函式的公式求導

(以下部分基本介紹轉載於點選開啟連結) 在深度學習NN中的output層通常是一個分類輸出，對於多分類問題我們可以採用k-二元分類器來實現，這裡我們介紹softmax。softmax迴歸中，我們解決的是多分類問題（相對於 logistic 迴歸解決的二分類問題），類標

Tensorflow 兩個交叉熵損失函式的區別

tf.nn.sparse_softmax_cross_entropy_with_logits label：不含獨熱編碼，shape：[batch_size, ] logits：原始預測概率分佈向量，shape：[batch_size, num_classes] logits = np

最大似然損失和交叉熵損失函式的聯絡

在利用深度學習模型解決有監督問題時，比如分類、迴歸、去噪等，我們一般的思路如下：資訊流forward propagation，直到輸出端；定義損失函式L(x, y | theta)；誤差訊號back propagation。採用數學理論中的“鏈式法則”，求L(x,

吳恩達深度學習筆記（7）--邏輯迴歸的代價函式（Cost Function）

邏輯迴歸的代價函式（Logistic Regression Cost Function）在上一篇文章中，我們講了邏輯迴歸模型，這裡，我們講邏輯迴歸的代價函式（也翻譯作成本函式）。吳恩達讓我轉達大家：這一篇有很多公式，做好準備，睜大眼睛！代價函式很重要！為什麼需要代價函式：為

softmax交叉熵損失函式求導

softmax 函式 softmax(柔性最大值)函式，一般在神經網路中， softmax可以作為分類任務的輸出層。其實可以認為softmax輸出的是幾個類別選擇的概率，比如我有一個分類任務，要分為三個類，softmax函式可以根據它們相對的大小，輸出三個類別選取的概率