2020-10-18 二、熵的定義

阿新 • • 發佈：2020-10-19

本文轉自：https://zhuanlan.zhihu.com/p/39706910

1：熵的定義

假設離散隨機變數 [公式] ，它的p.m.f是。我們定義的熵是：

[公式]
引理：

證明 [公式] ，即均勻分佈熵最大。

利用拉格朗日乘子法證明：

[公式]

由拉格朗日計算可以可到： [公式] ，得到極值為。

2：聯合熵和條件熵

定義（聯合熵）： [公式]

定義（條件熵）：假如 [公式] ，則條件熵是：

[公式]

定理（鏈式規則）： [公式]

證明：

[公式]
推廣：

注意：熵只依賴於隨機變數的分佈，與隨機變數取值無關。

3：相對熵和互資訊

定義（相對熵或Kullback–Leibler(KL) divergence）：KL散度是兩個隨機變數的概率質量函式 [公式] 和的距離，公式如下：

[公式]
其中：，且

定義（互資訊

）：假設隨即變數

和

的p.m.f是

，邊際p.m.f分別是 [公式]

和

。則互資訊

是：

[公式]
定理（互資訊和熵的關係）：

[公式]
因此互資訊就是在瞭解了其中一個的前提下，對消除另一個不確定性所提供的資訊量，也可稱為資訊增益。

上面一堆概念，估計比較暈，用下面這個圖很容易明白他們的關係。左邊的橢圓代表 [公式] 右邊的橢圓代表中間重合的部分就是我們的互資訊或者資訊增益左邊的橢圓去掉重合部分就是右邊的橢圓去掉重合部分就是兩個橢圓的並就是

定義（條件互資訊）：在給定 [公式] 後，隨機變數和的互資訊是：

[公式]
定義（條件相對熵）：

定理： [公式] 是兩個p.m.f，則當且僅當時，等號成立。

推論：對於任意的 [公式] ，，當且僅當和獨立時等號成立。

引理：一組非負序列 [公式] 和是收斂的：

或者

（兩組正的序列KL距離定義）
2. 如果 [公式]

，則

，當且僅當

時，等號成立。
3. 如果 [公式]

且

對所有的

都成立，則

引理：令非負序列 [公式] 和是收斂的。則，當且僅當時等號成立。

引理： [公式] ，其中表示集合元素的個數，當且僅當有均勻分佈時等號成立。【均勻分佈時熵最大，即不確定性最大】

引理（Condition reduces entropy）： [公式] ，當且僅當（獨立）時等號成立。：交叉熵

由KL散度可以得到： [公式] 。而KL散度的前半部分就是交叉熵。

若 [公式] 是資料的真實概率分佈，是由資料計算得到的概率分佈。機器學習的目的就是希望儘可能地逼近甚至等於，從而使得KL散度接近最小值0。由於真實的概率分佈是固定的，KL散度公式的後半部分就成了一個常數。那麼KL散度達到最小值的時候，也意味著交叉熵達到了最小值。對 [公式]

的優化就等效於求交叉熵的最小值。

5：微分熵

定義： [公式] 是連續的，(存在)，其中是隨機變數的支撐。此時熵不一定是大於0。

定義（聯合熵）：一組隨機變數 [公式] 的 p.d.f 是，則聯合熵是：

[公式]
定義（條件熵）：對於隨機變數和，條件熵是：

[公式]

6：相對熵和互資訊（連續）

定義（相對熵或Kullback–Leibler(KL) divergence）：兩個連續隨機變數 [公式] 和，KL散度為：

[公式]
注意：假如的支撐包含在的支撐上，則是有限的。

定義（互資訊）：兩個隨機變數 [公式] 和p.d.f 是，邊際 p.d.f 分別為和。則互資訊是：

[公式]
定理：，當且僅當與幾乎處處相等時等號成立。

推論：
1. 對於任何 [公式] ，有，當且僅當和獨立時等號成立。
2.，當且僅當和獨立時等號成立。

定理（微分熵的鏈式規則）： [公式]

推論： [公式]

定理： [公式] 是非奇異矩陣，

定理：假設 [公式] 均值是0，方差是，則，當且僅當時等號成立。（當一階矩和二階矩給定時，高斯分佈的熵最大）

參考文獻：

1、https://zhuanlan.zhihu.com/p/36192699

2、https://zhuanlan.zhihu.com/p/36311131

3、https://zhuanlan.zhihu.com/p/36385989

2020-10-18 二、熵的定義

本文轉自：https://zhuanlan.zhihu.com/p/39706910

1：熵的定義

2：聯合熵和條件熵

3：相對熵和互資訊

5：微分熵

6：相對熵和互資訊（連續）

2020-10-18 二、熵的定義

2020-10-18 三、相對熵（KL散度）

2020.10.18--PS--長角動畫、擋眼、閃光效果

2020-10-18

2020-10-18 SRGAN文章翻譯

2020-10-18 工資管理系統需求分析報告

2020.10.18：YC中學模擬賽

2020.10.13二柱子與他的計算題

二、自定義XML結構資料-返回List集合-操作Node中的Attribute

javascript數學物件、自定義物件、正則表示式物件10.0

2020年9月17日 String 常用方法一、二、三

2020.10.8--PS--圖層混合模式、圖層混合選項、圖層樣式

2020.10.11--PS--向量蒙版圖層蒙版區別、文字工具、文字與路徑

軟體測試基礎知識（二）------------等價類劃分法、邊界值分析法、場景法、錯誤推測法、bug定義/型別/優先順序/生命週期/跟蹤管理

2020.10.12--PS--製作圖章、抽出濾鏡、消失點

2020.10.14京東雲測開二面

2020-10-17 理解影象中的高頻、低頻分量

2020.10.17--PS--淌淚表情、翻白眼、搖晃腦袋

開源驅動軟體定義的一切；為何頂級的開源公司歡迎上游的競爭者；開源之道每週評論2020 10 16...

2020.10.19--PS--圖片裡的圖片、製作大頭娃娃、抖肩膀

2020-10-18 二、熵的定義

本文轉自：https://zhuanlan.zhihu.com/p/39706910

1： 熵的定義

2： 聯合熵和條件熵

3： 相對熵和互資訊

5： 微分熵

6： 相對熵和互資訊（連續）

相關推薦

1：熵的定義

2：聯合熵和條件熵

3：相對熵和互資訊

5：微分熵

6：相對熵和互資訊（連續）