資訊理論與最大熵

序

If we are told that a highly improbable event has just occurred, we will have received more information than if we were told that some very likely event has just occurred, and if we knew that the event was certain to happen we would receive no information.

一、資訊理論

資訊熵是人們對客觀事件的不確定性的度量。正如序中所言，對於一個事物，我們知道的越有可能發生，那麼我們用來找出確定的情況所需要得到資訊就越少，反之亦然。
此外，資訊熵還具有可加的性質。兩個事物如果是不相關的，如果我們同時得到的兩個事物，那麼我們所接收的資訊是可以疊加的。我們使用h

(x)表示事件發生概率為p(x)的資訊熵，那麼剛才說的可加性可以表示為h(x,y)=h(x)+h(y)而對於概率來說p(x,y)=p(x)p(y)。所以我們可以用下面的式子來表示一個集合的資訊熵：

h(x)=−log2p(x)這裡，負號使得資訊熵的值大於等於零，此外底數為2表示h(x)的單位為位元(bit)，當然這裡也可以是另外的底數。
對於一個事件的集合{x}，每個事件對應的概率為p(x),那麼這個事件集合的資訊熵的期望為H[x]=−∑xp(x)log2p(x)換言之，對於一個離散的隨機變數X，有M種實現，對應每一種實現xi，它所對應的概率為p(X=xi)=pi，那麼隨機變數X的資訊熵為：H

[p]=−∑ip(xi)log2p(xi)
對於連續的隨機變數，從離散的情況進行推導，得到：H[x]=−∫p(x)lnp(x)dx對於多個連續隨機變數的情況，變數可以表示為一個向量 x，它的資訊熵為：H[x]=−∫p(x)lnp(x)dx

二、最大熵

最大熵原理是一種選擇隨機變數統計特性最符合客觀情況的準則，也稱為最大資訊原理。隨機量的概率分佈是很難測定的，一般只能測得其各種均值（如數學期望、方差等）或已知某些限定條件下的值（如峰值、取值個數等），符合測得這些值的分佈可有多種、以至無窮多種，通常，其中有一種分佈的熵最大。選用這種具有最大熵的分佈作為該隨機變數的分佈，是一種有效的處理方法和準則。這種方法雖有一定的主觀性，但可以認為是最符合客觀情況的一種選擇。在投資時常常講不要把所有的雞蛋放在一個籃子裡，這樣可以降低風險。在資訊處理中，這個原理同樣適用。
這裡我們來計算幾個簡單的最大熵分佈。對於離散的隨機變數來說，因為0

≤pi≤1，隨機變數的資訊熵最小值為0，當pi=1 和其他所有 pj≠i=0。而資訊熵在標準化的限制情況下（概率之和為1），引入拉格朗日運算元，最大值為：

H∼=−∑ip(xi)log2p(xi)+λ(∑ip(xi)−1)解得當所有pi相等時，資訊熵最大，最大值為當pi=1/M，Hmax=lnM
如果是連續的隨機變數，如果限定X的取值範圍為[a,b]，在標準化的限制條件，那麼資訊熵的最大值同上式類比得到：H∼=−∫p(x)lnp(x)dx+λ(∫p(x)dx−1)a≤x≤b
對p(x)進行求導取值為0，得到當p(x)=1b−a(a≤x≤b)時，即X為在[a,b]區間上為均勻分佈時，熵最大，最大值為Hmax=ln(b−a)

其次，當限制條件為：1、標準化狀態（概率之和為1）2.一階統計矩即平均數μ 3.二階中心矩即方差σ2。用數學語言來表述為

∫p(x)dx=1(1)∫xp(x)dx=μ(2)∫x2p(x)dx=σ2(3)在此限制條件下，求H[x]=−∫p(x)lnp(x)dx的最大值。
參照上面的方法，引入拉格朗日運算元得到：H=−∫p(x)lnp

【PRML學習筆記】資訊理論與最大熵

資訊理論與最大熵

序

一、資訊理論

二、最大熵

【PRML學習筆記】資訊理論與最大熵

【Linux學習筆記】21_RPM 與YUM

【機器學習筆記】最大似然估計法與LR中 J of theta 的概率解釋

【機器學習筆記】第二章：模型評估與選擇

【extjs6學習筆記】0.4 準備：書籍與文檔

【機器學習筆記】線性迴歸之最小二乘法

【Python3 爬蟲學習筆記】變數與資料型別 2

【C++學習筆記】虛擬函式與純虛擬函式概念

【ML學習筆記】25：PCA及繪製降維與恢復示意圖

【OpenCV學習筆記】之影象輪廓特徵與影象的矩

【OpenCV學習筆記】三十七、特徵檢測與匹配(二)——SIFT特徵點匹配

【python學習筆記】13：用梯度下降法求解最優值問題

【日常學習筆記】2019/1/8(JS物件與JSON的轉換、谷歌黑語法)

【日常學習筆記】2019/1/(4,7)(SSM再熟悉與網頁傳值)

【日常學習筆記】2019/1/3(Log4j與web安全)

【強化學習筆記】4.4 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣程式碼實現

【ML學習筆記】17：多元正態分佈下極大似然估計最小錯誤率貝葉斯決策

【Hibernate學習筆記】Session清空快取與清理快取

【Unity學習筆記】Unity設定單位長度與畫素間的對應關係

【openshift 學習筆記】第六章持續整合與部署

【PRML學習筆記】資訊理論與最大熵

資訊理論與最大熵

序

一、資訊理論

二、最大熵

相關推薦