交叉熵損失

阿新 • • 發佈：2018-12-24

softmax與交叉熵損失函式

KL散度

KL散度又叫相對熵=交叉熵-原分佈資訊熵，其衡量了一個分佈與另一個分佈之間的差異
$D (P ∣ ∣ Q)$

= ∑ p ( x ) log ⁡ p

( x ) q ( x )

D(P||Q) = \sum p(x)\log \frac{p(x)}{q(x)}

D (P ∣ ∣ Q) = \sum p (x) lo g \frac{p ( x )}{q ( x )}

其值始終大於零，且分佈Q和分佈P越相似，則值越小

在資訊理論編碼理論中，一個分佈P可以用其最短編碼長度 $H(P )=-\sum p(x)\log(p(x))$ 來計算得到，是其資訊量表徵的一種方式（詳情請看編碼理論），若是想使用其他的概率分佈估計的編碼長度來對分佈P進行編碼，則有 $H(p,q) = -\sum p(x) \log q(x)$ 分佈Q就是我們用來估計分佈P的分佈

先看交叉熵損失函式

交叉熵損失函式經常用於分類損失，在網路學習過程中，我們假設訓練集經驗分佈為P,模型預測分佈為Q,則可以用KL散度來度量Q對於P的擬合程度。
$D(P||Q) = H(P,Q) - H(P)$
因為 H(P )為定值，所以其當交叉熵最小時，兩個分佈就擬合的最好，由此得到了交叉熵損失函式

softmax 函式

上面已經說明：當我們用一個分佈Q去估計另一個分佈時，期望這兩個分佈的相對熵趨於零。但是不同的分佈可能導致相同的交叉熵損失，這時我們要應用最大熵原理來選擇所含資訊量最大的那一個，意思是我們在擬合原有資料集的同時想讓新得到的分佈具有儘可能大的熵（即編碼期望最長的）。

假設f(x,y)是聯合分佈域上的示性函式 $p(y_i|x_i)=1 <==> f(x_i,y_i)=1$ ，表徵了訓練集的屬性.設模型為P(Y|X),則我們希望由訓練集的P(X,Y)和P(X),來推導得出P(Y|X)

假設推匯出的模型能夠很好的表示訓練集，則有 $\sum_{x,y}\tilde{p}(x)p(y|x)f(x,y) = \sum_{x,y}\tilde{p}(x,y)f(x,y)$ 帶有上標撇的是訓練集的分佈

下面給出最大熵模型P(Y|X)的定義：
$H(P) = -\sum_{x,y}\tilde{P}(x)P(y|x) \log{P(y|x)}$
$\sum_y P(y|x) = 1$
$\sum_{x,y}\tilde{p}(x)p(y|x)f(x,y) = \sum_{x,y}\tilde{p}(x,y)f(x,y) i=1,2,,,n$

引入拉格讓日乘子求解，會得到對應的 $P(y|x) = \frac{\exp(\sum w_i f_i)}{normalized}$ ，即是softmax函式形式

softmax 加交叉熵損失函式求導

在這裡插入圖片描述

交叉熵損失

softmax與交叉熵損失函式

KL散度

先看交叉熵損失函式

softmax 函式

softmax 加交叉熵損失函式求導

談談交叉熵損失函數

均方誤差和交叉熵損失函數比較

Tensorflow 兩個交叉熵損失函式的區別

最大似然損失和交叉熵損失函式的聯絡

交叉熵損失函式及Tensorflow實現

【Kaggle-MNIST之路】CNN結構再改進+交叉熵損失函式（六）

softmax交叉熵損失函式求導

softmax交叉熵損失函式反向傳播求導過程分析

softmax + cross-entropy交叉熵損失函式詳解及反向傳播中的梯度求導

Python和PyTorch對比實現多標籤softmax + cross-entropy交叉熵損失及反向傳播

交叉熵損失函式

交叉熵損失

在深度學習中Softmax交叉熵損失函式的公式求導

【深度學習原理】交叉熵損失函式的實現

softmax函式和交叉熵損失函式的理解

簡單的交叉熵損失函式，你真的懂了嗎？

svm損失和交叉熵損失

2線性分類器基本原理-2.3線性分類器之SoftMax和交叉熵損失(Cross-Entropy)

nerualnetworkanddeeplearning學習_交叉熵損失函式

Softmax 以及交叉熵損失函式的求導

交叉熵損失

softmax與交叉熵損失函式

KL散度

先看交叉熵損失函式

softmax 函式

softmax 加交叉熵損失函式求導

相關推薦