1. 程式人生 > >KL散度的理解

KL散度的理解

gin tar 不同 技術 計算公式 概念 ive XML kl散度

原文地址Count Bayesie
這篇文章是博客Count Bayesie上的文章Kullback-Leibler Divergence Explained 的學習筆記,原文對 KL散度 的概念詮釋得非常清晰易懂,建議閱讀

相對熵,又稱KL散度( Kullback–Leibler divergence),是描述兩個概率分布P和Q差異的一種方法。它是非對稱的,這意味著D(P||Q) ≠ D(Q||P)。

KL散度的計算

衡量近似分布帶來的信息損失。
KL散度的計算公式其實是熵計算公式的簡單變形,在原有概率分布 p上,加入我們的近似概率分布 q,計算他們的每個取值對應對數的差:技術分享圖片

換句話說,KL散度計算的就是數據的原分布與近似分布的概率的對數差的期望值。
在對數以2為底時,log?2 ,可以理解為“我們損失了多少位的信息”
寫成期望形式 :

技術分享圖片

The more common way to see KL divergence written is as follows:

技術分享圖片

With KL divergence we can calculate exactly how much information is lost when we approximate one distribution with another.

散度不是距離

技術分享圖片

因為KL散度不具有交換性,所以不能理解為“距離”的概念,衡量的並不是兩個分布在空間中的遠近,更準確的理解還是衡量一個分布相比另一個分布的信息損失(infomation lost)

使用KL散度進行優化

通過不斷改變預估分布的參數,我們可以得到不同的KL散度的值。
在某個變化範圍內,KL散度取到最小值的時候,對應的參數是我們想要的最優參數。
這就是使用KL散度優化的過程。

參考CodenameNC的博客

KL散度的理解