2020-10-18 二、熵的定義
本文轉自:https://zhuanlan.zhihu.com/p/39706910
1: 熵的定義
假設離散隨機變數,它的p.m.f是。我們定義的熵是:
引理:
證明,即均勻分佈熵最大。
利用拉格朗日乘子法證明:
由拉格朗日計算可以可到:,得到極值為。
2: 聯合熵和條件熵
定義(聯合熵):
定義(條件熵):假如,則條件熵是:
定理(鏈式規則):
證明:
推廣:
注意:熵只依賴於隨機變數的分佈,與隨機變數取值無關。
3: 相對熵和互資訊
定義(相對熵或Kullback–Leibler(KL) divergence):KL散度是兩個隨機變數的概率質量函式和的距離,公式如下:
其中:,且
定義(互資訊
定理(互資訊和熵的關係):
因此互資訊就是在瞭解了其中一個的前提下,對消除另一個不確定性所提供的資訊量,也可稱為資訊增益。
上面一堆概念,估計比較暈,用下面這個圖很容易明白他們的關係。左邊的橢圓代表右邊的橢圓代表中間重合的部分就是我們的互資訊或者資訊增益左邊的橢圓去掉重合部分就是右邊的橢圓去掉重合部分就是兩個橢圓的並就是
定義(條件互資訊):在給定後,隨機變數和的互資訊是:
定義(條件相對熵):
定理:是兩個p.m.f,則當且僅當時,等號成立。
推論:對於任意的,,當且僅當和獨立時等號成立。
引理:一組非負序列和是收斂的:
2. 如果,則,當且僅當時,等號成立。
3. 如果且對所有的都成立,則
引理:令非負序列和是收斂的。則,當且僅當時等號成立。
引理:,其中表示集合元素的個數,當且僅當有均勻分佈時等號成立。【均勻分佈時熵最大,即不確定性最大】
引理(Condition reduces entropy):,當且僅當(獨立)時等號成立。: 交叉熵
由KL散度可以得到:。而KL散度的前半部分就是交叉熵。
若是資料的真實概率分佈,是由資料計算得到的概率分佈。機器學習的目的就是希望儘可能地逼近甚至等於,從而使得KL散度接近最小值0。由於真實的概率分佈是固定的,KL散度公式的後半部分就成了一個常數。那麼KL散度達到最小值的時候,也意味著交叉熵達到了最小值。對
5: 微分熵
定義:是連續的,(存在),其中是隨機變數的支撐。此時熵不一定是大於0。
定義(聯合熵):一組隨機變數的 p.d.f 是,則聯合熵是:
定義(條件熵):對於隨機變數和,條件熵是:
6: 相對熵和互資訊(連續)
定義(相對熵或Kullback–Leibler(KL) divergence):兩個連續隨機變數和,KL散度為:
注意:假如的支撐包含在的支撐上,則是有限的。
定義(互資訊):兩個隨機變數和p.d.f 是,邊際 p.d.f 分別為和。則互資訊是:
定理:,當且僅當與幾乎處處相等時等號成立。
推論:
1. 對於任何,有,當且僅當和獨立時等號成立。
2.,當且僅當和獨立時等號成立。
定理(微分熵的鏈式規則):
推論:
定理:是非奇異矩陣,
定理:假設均值是0,方差是,則,當且僅當時等號成立。(當一階矩和二階矩給定時,高斯分佈的熵最大)
參考文獻:
1、https://zhuanlan.zhihu.com/p/36192699