熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢？詳細解讀這裡有！

阿新 • • 發佈：2020-07-30

熵是一個很常見的名詞，在物理上有重要的評估意義，自然語言處理的預備知識中，熵作為資訊理論的基本和重點知識，在這裡我來記錄一下學習的總結，並以此與大家分享。

資訊理論基本知識

1、熵

2、聯和熵與條件熵

3、互資訊

4、交叉熵與相對熵

5、困惑度

6、總結

1、熵

熵也被稱為自資訊，描述一個隨機變數的不確定性的數量。熵越大，表明不確定性越大，所包含的資訊量也越大，就說明很難去預測事件行為或者正確估值。
熵的公式定義：

解答：

這裡計算將相同概率的字符合並計算，結果表明什麼呢？
結果說明傳輸一個字元平均只需要2.5個位元：

字元	a	b	c	d	e	f
編碼	100	00	101	01	110	111

2、聯和熵與條件熵

聯和熵描述一對隨機變數平均所需要的資訊量。公式定義：

與之聯絡密切的條件熵指的是：給定X的情況下，Y的條件熵為：

將以上公式（1）化簡可以得到 H(X,Y)=H(X)+H(Y∣X) 公式(4)，被稱為熵的連鎖規則。

3、互資訊

熵的連鎖規則H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y), 所以H(X)−H(X∣Y)=H(Y)−H(Y∣X)，這個差就成為互資訊，記作I(X;Y) 。

在圖中I(X;Y)反映的是已知Y的值後X的不確定性的減少量。在圖中I(X;Y)反映的是已知Y的值後X的不確定性的減少量。在圖中I(X;Y)反映的是已知Y的值後X的不確定性的減少量。簡而言之，Y的值透露了多少關於X的資訊量。

因為H(X|X)=0，所以H(X)=H(X)-H(X|X)=I(X;X)，這公式推導說明了熵也成為自資訊的概念，也說明兩個完全相互依賴的變數之間的互資訊並不是一個常量，而是取決定於它們的熵。
實際應用：互資訊描述了兩個隨機變數之間的統計相關性，平均互資訊是非負的，在NLP中用來判斷兩個物件之間的關係，比如：根據主題類別和詞彙之間的互資訊進行特徵提取。另外在詞彙聚類、漢語自動分詞、詞義消岐、文字分類等問題有著重要用途。

4、交叉熵與相對熵

相對熵簡稱KL差異或KL距離，衡量相同時間空間裡兩個概率分佈相對差異的測度。

根據公式可知，當兩個隨機分佈完全相同時，即p=q,其相對熵為0。當兩個隨機分佈差別增加，相對熵的期望值也增大。

相對熵與互資訊的聯絡如下證明：

交叉熵就是機器學習中經常提到的一種熵的計算。它到底是什麼呢？

交叉熵是衡量估計模型與真實概率分佈之間之間差異情況。
如果一個隨機變數X~p(x),q(x)為用於近似p(x)的概率分佈，則實際p與模型q之間的交叉熵定義為：

在設計模型q時候，目的是使交叉熵最小，這樣模型的表現更好，從而使模型更接近最真實的概率分佈p(x),一般的，當樣本足夠大時候，上面計算近似為：

5、困惑度

在設計語言模型，通常用困惑度（perplexity）來代替交叉熵衡量語言模型的好壞。

所以，尋找困惑度最小的模型成為模型設計的任務，通常指的是模型對於測試資料的困惑度。

6、總結

在資訊理論的熵部分，我們學到了什麼呢？開始說到，這是NLP基礎，也是入門機器學習的重要理論部分。

熵（自資訊）：描述一個隨機變數的不確定性的數量。熵越大，表明不確定性越大，所包含的資訊量也越大，就說明很難去預測事件行為或者正確估值。
聯和熵：描述一對隨機變數平均所需要的資訊量。
條件熵：給定X的情況下，通過聯和熵計算Y的條件熵，類似於條件概率思想。由此引出互資訊概念。
相對熵：簡稱KL差異或KL距離，衡量相同時間空間裡兩個概率分佈相對差異的測度，與互資訊密切相關。
交叉熵：衡量估計模型與真實概率分佈之間之間差異情況。

學習之後的一些記錄，發現這部分知識在其他方面經常提及到，卻不知其原理知識，因此做了一個簡單的總結備忘，與爾共享！

更好的閱讀體驗請轉至我的CSDN部落格哦！

我的CSDN部落格：熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢？來這裡有詳細解讀！

我的部落格園：熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢？詳細解讀這裡有！

————————————————
版權宣告：本文為CSDN博主「Charzous」的原創文章，遵循CC 4.0 BY-SA版權協議，轉載請附上原文出處連結及本宣告。
原文連結：https://blog.csdn.net/Charzous/article/details/107669211

熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢？詳細解讀這裡有！

資訊理論基本知識

1、熵

2、聯和熵與條件熵

3、互資訊

4、交叉熵與相對熵

5、困惑度

6、總結

1、熵

2、聯和熵與條件熵

3、互資訊

4、交叉熵與相對熵

5、困惑度

6、總結

熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢？詳細解讀這裡有！

聯合概率與聯合分佈、條件概率與條件分佈、邊緣概率與邊緣分佈、貝葉斯定理、生成模型（Generative Model）和判別模型（Discriminative Model）的區別

js、jq和標籤裡面設定按鈕可點選與不可點選狀態

Redis快取維護方案-考慮資料庫與快取雙寫、redis和本地資料庫事務一致性、資料庫主從同步延遲的情況怎麼解決快取與資料庫不一致

大資料培訓之核心知識點Hbase、Hive、Spark和MapReduce的概念理解、特點及機制等

Java序列化的方式、object類中的方法、介面和抽象類的區別、ArrayList在迴圈過程中刪除

Python2中的urllib、urllib2和 Python3中的urllib、requests

【谷歌開發者】Google中國官方賬號.彙集Android;Chrome;Angular等移動和網路開發技術、GooglePlay和AdMob等開發者成長、優化和變現平臺.

JQ淡入淡出隱藏顯示、隱藏和顯示（slideToggle）、animate()、slideDown、stop 學習

理論分佈和抽樣分佈------（一）事件、概率和隨機變數（離散、連續）

RabbitMQ 安裝、配置和使用者管理（CentOS、SUSE）

phpMyAdmin 安裝，建立、修改和刪除資料庫及插入、瀏覽、搜尋資料表中的資料

Atlassian(Crowd、Confluence、JIRA、FishCru 和 Bamboo) 產品跨版本、伺服器的升級

Volley學習(二)簡封Volley、為Volley請求頭體新增Json引數、Gson和JsonObject生成Json資料、Gson解析返回的Json

如何確定Kafka的分割槽數、key和consumer執行緒數、以及不消費問題解決

二週第一次課 2017.10.23 相對和絕對路徑、cd命令、建立和刪除目錄mkdir/rmdir、rm命令

20190308 samba服務、inotify和rsync實現實時同步、防火墻

HashMap原始碼解析、jdk7和8之後的區別、相關問題分析（多執行緒擴容帶來的死迴圈）

學好Spark/Kafka必須要掌握的Scala技術點（二）類、單例/伴生物件、繼承和trait，模式匹配、樣例類（case class）

資訊熵、交叉熵與相對熵(KL散度)的關係，還介紹了聯合資訊熵和條件熵、互資訊（資訊增益）的概念

熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢？詳細解讀這裡有！

資訊理論基本知識

1、熵

2、聯和熵與條件熵

3、互資訊

4、交叉熵與相對熵

5、困惑度

6、總結

1、熵

2、聯和熵與條件熵

3、互資訊

4、交叉熵與相對熵

5、困惑度

6、總結

相關推薦