【K-L散度(相對熵)】如何理解分割模型的損失函式

阿新 • • 發佈：2019-01-10

1、概念

Kullback-Leibler Divergence，即K-L散度。是一種量化兩種概率分佈P和Q之間差異的方式，又叫相對熵。

先給出結論：

其實我們可以把每張影象都看作是一個畫素x的概率分佈，那麼使用K-L散度就可以量化predict影象和label影象之間的差異。

（其實最開始我是一位loss function定義為 IoU就好呢，後來發現絕大多數都使用K-L散度，只在Kaggle挑戰賽上見過使用IoU的）

（交叉熵是相對熵的擴充套件）

2、詳解

2.1 K-L散度

已知 P(x) 和 Q(x) 是隨機變數x的兩種不同分佈，則 P 對 Q 的 K-L散度為：

由於 $x_{i}$ 代表隨機變數x的每一個取值，那麼：

可以看出，K-L散度其實是資料的分佈 P 和分佈 Q 之間的對數差值的期望，同時也表示 P 和 Q 間資訊損失的二進位制位數。

2.2 交叉熵（cross entropy）

對於 K-L散度公式進行變形：

等式的前一部分恰巧就是 P（x）的熵，等式的後一部分，就是交叉熵：

在深度學習中，需要使用K-L散度評估labels和predicts間的差距，即：

但是由於KL散度中的前一部分 $-H(y_{labels})$ 不變，故在優化過程中，只需要關注交叉熵 CE 就好。

所以一般在深度學習中直接用交叉熵做Loss，評估模型。

其實我們也可以直接把交叉熵理解判斷兩個分佈相似性的依據，本文則進一步解釋了交叉熵的由來，即交叉熵是由相對熵(K-L散度)衍生出來的。

參考：

【K-L散度(相對熵)】如何理解分割模型的損失函式

1、概念 Kullback-Leibler Divergence，即K-L散度。是一種量化兩種概率分佈P和Q之間差異的方式，又叫相對熵。先給出結論：其實我們可以把每張影象都看作是一個畫素x的概率分佈，那麼使用K-L散度就可以量化predict影象和label影象之間

K-L散度（相對熵）的理解

資訊量 I I I 訊息中有意義的內容成為資訊。資訊量函式：

KL散度(相對熵)、交叉熵的解析

1 前言注意兩個名詞的區別：相對熵：Kullback–Leibler divergence 交叉熵：cross entropy KL距離的幾個用途： ① 衡量兩個概率分佈的差異。 ② 衡量利用概率分佈Q 擬合概率分佈P 時的能量損耗，也就是說擬合以後丟失了

題解 P2949 【[USACO09OPEN]工作調度Work Scheduling】

sign using time truct amp priority efi per fin 這道題的思路很神奇，是一種可以後悔的貪心。解題思路：我們先將每一個任務按照限制時間排序。對於每一種任務，我們有兩種抉擇： for(int i=1;i<=n;++i) {

【聯絡】二項分佈的對數似然函式與交叉熵（cross entropy）損失函式

1. 二項分佈二項分佈也叫 0-1 分佈，如隨機變數 x 服從二項分佈，關於引數 μ（0≤μ≤1），其值取 1 和取 0 的概率如下： {p(x=1|μ)=μp(x=0|μ)=1−μ 則在 x

BZOJ4198或UOJ130 荷馬史詩【K叉哈夫曼樹】【堆】

題解：用一個堆來維護一個K叉哈夫曼樹，如果無法合併（即n-1不為k-1的倍數時），就補充n-k個虛擬節點，節點的權值為0（不會影響結果），再合併即可。程式碼： #include <

【城北徐公之機器學習】感知機模型

com eno 學習 nwr mys rtl wms fc7 rcu 一、什麽是感知機？感知機最早由計算科學家Rosenblatt在1958年提出，他是一種單層（註意，輸入層並不計算在內）神經網絡。如圖為一個二元輸入的感知機模型。其中x1，x2為輸入，b為偏置，激活函數

【COCOS2DX-LUA 指令碼開發之六】利用Lua強轉函式解決使用CCNode報錯或無法正常使用以及簡單介紹 quick-cocos2d-x 與 OpenQuick 兩款Lua免費開源框架

Him 的Cocos2dx-Lua群中有童鞋出現一個問題，問題是當他在Lua專案中利用Lua建立一個區域性變數CCSprite或者CCLayer等CCNode，然後在其他的函式中通過其索引取出之前建立過的CCSprite或CCLayer等，取出後進行設定設定透明、座標、縮放、

【我的區塊鏈之路】- 理解傳統Kademlia和以太坊Kademlia網路

本文章參考自：大家好，今天我們來說一說以太坊的Kad網路；在此之前我們先來聊一聊少部分P2P方面的知識，P2P 主要存在四種不同的網路模型，也代表著 P2P 技術的四個發展階段：集中式、純分散式、混合式和結構化模型。集中式：即存在一箇中心節點儲存了其他

【吳恩達機器學習】邏輯迴歸的損失函式偏導

1) 邏輯迴歸（Logistic Regression, Logistic Function, Sigmoid Function）的損失函式為： J(θ)=−1m∑i=1m[y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))]J(θ

二項分佈的對數似然函式與交叉熵（cross entropy）損失函式的聯絡

今天覆習Logistic迴歸的時候涉及到二項分佈的求最大似然解，突然發現這個對數似然函式熟悉，似曾相識，不就是交叉熵損失函式麼，難道這僅僅是巧合，不能夠。先看下這個推導。 1. 二項分佈（0-1分佈）： 2. 最大似然估計法： 3.

【機器學習基礎】熵、KL散度、交叉熵

　　熵（entropy）、KL 散度（Kullback-Leibler (KL) divergence）和交叉熵（cross-entropy）在機器學習的很多地方會用到。比如在決策樹模型使用資訊增益來選擇一個最佳的劃分，使得熵下降最大；深度學習模型最後一層使用 softmax 啟用函式後，我們也常使用交叉熵來

機器學習基礎（五十八）—— 夏農熵相對熵（KL散度）與交叉熵

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

【codeforces 617E XOR and Favorite Number】【莫隊分塊】【多次查詢求區間[l,r]中區間異或等於k的子區間個數】

【連結】【題意】給定一個數組，多次查詢,問區間l,r中有多少個子區間滿足區間異或為k 【思路】查詢很大，意味著每次回答的時間複雜度不能太大。對於本題，我們可以維護一個字首異或，sum[i],區間[a,b]異或為k等價於sum[a-1]^sum[b]=k,假如

熵、最大似然估計（相對熵）、KL散度、交叉熵相互關係及程式碼計算

1 熵熵其實是資訊量的期望值，它是一個隨機變數的確定性的度量。熵越大，變數的取值越不確定，越無序。公式: H(X)=E[I(x)]=−E[logP(x)]=-∑P(xi)logP(xi) 熵代表資訊量，基於P分佈自身的編碼長度，是最優的編碼長度。 2 ML

最大似然估計，交叉熵，相對熵(KL散度)

在機器學習中，選擇損失函式時，通常會遇到交叉熵的概念，也就是交叉熵損失函式，那麼我們知道最小化交叉熵損失函式等價於最大化對數似然，那麼最小化交叉熵損失函式其含義是怎麼樣本的？我們知道針對分類問題，我們並不知道Y的真實分佈，因此需要通過模型來估計Y的真實分佈，以邏

【機器學習】兩分佈間距離的度量：MMD、KL散度、Wasserstein 對比

MMD：最大均值差異 Wasserstein距離[1] 實驗資料來源 Amazon review benchmark dataset. The Amazon review dataset is one of the most widely used b

資訊熵（夏農熵），相對熵（KL散度），交叉熵三者的對比以及吉布斯不等式

各種各樣資訊科學中，無論是通訊還是大資料處理，各種“熵”是非常重要的，因為它可以度量隨機變數不確定度，量化資訊量的大小。資訊熵(夏農熵）首先複習一下資訊熵(夏農熵），輔助我們對相對熵和交叉熵的理解。對於一個隨機變數XX,其可能的取值分別為X={x

KL散度（相對熵，資訊增益）學習筆記

1.定義根據查閱相關資料，知相對熵（relative entropy）又稱為KL散度（Kullback–Leibler divergence，簡稱KLD），資訊散度（information divergence），資訊增益（information gain）

Kullback–Leibler divergence(相對熵，KL距離，KL散度)

1 前言注意兩個名詞的區別：相對熵：Kullback–Leibler divergence 交叉熵：cross entropy KL距離的幾個用途： ① 衡量兩個概率分佈的差異。 ② 衡量利用概率分佈Q 擬合概率分佈P 時的能量損耗，也就是說擬合以後丟失了多少的資訊，

【K-L散度(相對熵)】如何理解分割模型的損失函式

1、概念

2、詳解

相關推薦