1. 程式人生 > >【PRML學習筆記】資訊理論與最大熵

【PRML學習筆記】資訊理論與最大熵

資訊理論與最大熵

If we are told that a highly improbable event has just occurred, we will have received more information than if we were told that some very likely event has just occurred, and if we knew that the event was certain to happen we would receive no information.

一、資訊理論

資訊熵是人們對客觀事件的不確定性的度量。正如序中所言,對於一個事物,我們知道的越有可能發生,那麼我們用來找出確定的情況所需要得到資訊就越少,反之亦然。
此外,資訊熵還具有可加的性質。兩個事物如果是不相關的,如果我們同時得到的兩個事物,那麼我們所接收的資訊是可以疊加的。我們使用h

(x)表示事件發生概率為p(x)的資訊熵,那麼剛才說的可加性可以表示為h(x,y)=h(x)+h(y)而對於概率來說p(x,y)=p(x)p(y)。所以我們可以用下面的式子來表示一個集合的資訊熵:

h(x)=log2p(x)這裡,負號使得資訊熵的值大於等於零,此外底數為2表示h(x)的單位為位元(bit),當然這裡也可以是另外的底數。
對於一個事件的集合{x},每個事件對應的概率為p(x),那麼這個事件集合的資訊熵的期望為H[x]=xp(x)log2p(x)換言之,對於一個離散的隨機變數X,有M種實現,對應每一種實現xi,它所對應的概率為p(X=xi)=pi,那麼隨機變數X的資訊熵為:H
[p]=ip(xi)log2p(xi)

對於連續的隨機變數,從離散的情況進行推導,得到:H[x]=p(x)lnp(x)dx對於多個連續隨機變數的情況,變數可以表示為一個向量 x,它的資訊熵為:H[x]=p(x)lnp(x)dx

二、最大熵

最大熵原理是一種選擇隨機變數統計特性最符合客觀情況的準則,也稱為最大資訊原理。隨機量的概率分佈是很難測定的,一般只能測得其各種均值(如數學期望、方差等)或已知某些限定條件下的值(如峰值、取值個數等),符合測得這些值的分佈可有多種、以至無窮多種,通常,其中有一種分佈的熵最大。選用這種具有最大熵的分佈作為該隨機變數的分佈,是一種有效的處理方法和準則。這種方法雖有一定的主觀性,但可以認為是最符合客觀情況的一種選擇。在投資時常常講不要把所有的雞蛋放在一個籃子裡,這樣可以降低風險。在資訊處理中,這個原理同樣適用。
這裡我們來計算幾個簡單的最大熵分佈。對於離散的隨機變數來說,因為0

pi1,隨機變數的資訊熵最小值為0,當pi=1 和其他所有 pji=0。而資訊熵在標準化的限制情況下(概率之和為1),引入拉格朗日運算元,最大值為:

H=ip(xi)log2p(xi)+λ(ip(xi)1)解得當所有pi相等時,資訊熵最大,最大值為當pi=1/MHmax=lnM
如果是連續的隨機變數,如果限定X的取值範圍為[a,b],在標準化的限制條件,那麼資訊熵的最大值同上式類比得到:H=p(x)lnp(x)dx+λ(p(x)dx1)axb
p(x)進行求導取值為0,得到當p(x)=1ba(axb)時,即X為在[a,b]區間上為均勻分佈時,熵最大,最大值為Hmax=ln(ba)

其次,當限制條件為:1、標準化狀態(概率之和為1)2.一階統計矩即平均數μ 3.二階中心矩即方差σ2。用數學語言來表述為

p(x)dx=1(1)xp(x)dx=μ(2)x2p(x)dx=σ2(3)在此限制條件下,求H[x]=p(x)lnp(x)dx的最大值。
參照上面的方法,引入拉格朗日運算元得到:H=p(x)lnp

相關推薦

PRML學習筆記資訊理論

資訊理論與最大熵 序 If we are told that a highly improbable event has just occurred, we will have received more information than if w

Linux學習筆記21_RPM YUM

rpm包的管理 介紹 一種用於網際網路下載包的打包及安裝工具,它包含在某些Linux分發版中。它生成具有.RPM副檔名的檔案。RPM是RedHat Package Manager(RedHat軟體包管理工具)的縮寫,類似windows的setup.exe,這一檔案格式名稱

機器學習筆記似然估計法LR中 J of theta 的概率解釋

看公開課的時候再次遇到,決心搞懂他… 首先是Andrew Ng在公開課中提到為什麼LR的損失函式要用最小二乘,給出了概率解釋,是在樣本誤差服從IID,並且誤差整體服從高斯分佈的最大似然函式的log表出。 最大似然估計法 先從一個比較普遍的例子講起:

機器學習筆記第二章:模型評估選擇

機器學習 ini ppi 第二章 err cap ner rate rac 2.1 經驗誤差與過擬合 1. error rate/accuracy 2. error: training error/empirical error, generalization error

extjs6學習筆記0.4 準備: 書籍文檔

學習筆記 翻譯 example nbsp detail started ext js 6 art ear Ext JS 6 By Example Ext JS Essentials Learning Ext JS - Fourth Edition Ext JS 6:

機器學習筆記線性迴歸之小二乘法

線性迴歸    線性迴歸(Linear Regreesion)就是對一些點組成的樣本進行線性擬合,得到一個最佳的擬合直線。 最小二乘法    線性迴歸的一種常用方法是最小二乘法,它通過最小化誤差的平方和尋找資料的最佳函式匹配。 代數推導    假設擬合函式為 y

Python3 爬蟲學習筆記變數資料型別 2

資料型別的轉換 變數的資料型別非常重要,通常情況下只有相同型別的變數才能進行運算。Python提供了簡單的資料型別自動轉換功能:如果是整數與符號運算,系統會先將整數轉換為浮點數再運算,運算結果為浮點型,例如: num1 = 5 + 7.8 # 結果為12.8,浮

C++學習筆記 虛擬函式純虛擬函式概念

源至:https://blog.csdn.net/hackbuteer1/article/details/7558868 虛擬函式:定義一個函式為虛擬函式,不代表函式為不被實現的函式,定義他為虛擬函式是為了允許用基類的指標來呼叫子類的這個函式。(注意:子類中非基類虛擬函式不能被基類呼叫) 純虛擬

ML學習筆記25:PCA及繪製降維恢復示意圖

主成分分析 簡述 主成分分析意在學習一個對映 U r

OpenCV學習筆記之影象輪廓特徵影象的矩

轉載: https://blog.csdn.net/zhu_hongji/article/details/81699736   一、影象的輪廓(Contours of Image)        輪廓可以說是一個很好的影象目標的

OpenCV學習筆記三十七、特徵檢測匹配(二)——SIFT特徵點匹配

特徵檢測與匹配(二)——SIFT特徵點匹配 1.SIFT特徵點提取 2.繪製特徵點 3.特徵點描述符(特徵向量)提取 4.使用暴力匹配器進行暴力匹配 5.對匹配結果進行篩選(依據DMatch結構體中的float型別變數distance進行篩選) 6.繪製匹配結果 先上ppt

python學習筆記13:用梯度下降法求解優值問題

梯度是函式在某點沿每個座標的偏導數構成的向量,它反映了函式沿著哪個方向增加得最快。因此要求解一個二元函式的極小值,只要沿著梯度的反方向走,直到函式值的變化滿足精度即可。 這裡打表儲存了途徑的每個點,最後在圖上繪製出來以反映路徑。 *梯度下降的具體實現 impor

日常學習筆記2019/1/8(JS物件JSON的轉換、谷歌黑語法)

JS物件與JSON的轉換 話不多說,上程式碼: <html> <title>測試</title> <script> //此時j是個JS物件,並且具有name屬性 var j={"name":"san"}; //提示s

日常學習筆記2019/1/(4,7)(SSM再熟悉網頁傳值)

學生管理系統(SSM簡易版)總結 可以用來再次熟悉SSM https://www.jianshu.com/p/6a594fbea51d 頁面傳值 示例:點選a頁面的p標籤,將p標籤內的學號傳遞到b頁面,之後b頁面根據得到的值,再進行ajax資料請求,顯示此學號的詳情。 a

日常學習筆記2019/1/3(Log4jweb安全)

Log4j日誌學習 log4j日誌輸出使用教程 https://www.cnblogs.com/sky230/p/5759831.html Spring+SpringMVC+MyBatis+easyUI整合優化篇(二)Log4j講解與整合 https://www.cnblogs.

強化學習筆記4.4 無模型的強化學習方法-蒙特卡羅演算法重要性取樣程式碼實現

#!/usr/bin/env python # -*- coding:utf-8 -*- #import gym import random import numpy as np class GriDMdp: def __init__(s):

ML學習筆記17:多元正態分佈下極大似然估計小錯誤率貝葉斯決策

簡述多元正態分佈下的最小錯誤率貝葉斯 如果特徵的值向量服從d元正態分佈,即其概率密度函式為: 即其分佈可以由均值向量和對稱的協方差矩陣 唯一確定。 如果認為樣本的特徵向量在類內服從多元正態分佈: 即對於每個類i,具有各自的類內的均值向量和協

Hibernate學習筆記Session清空快取清理快取

1. 清空快取     當呼叫session.evict(customer); 或者session.clear(); 或者session.close()方法時,Session的快取被清空。 2. 清理快取     Session具有一個快取,位於快取中的物件處於持久化狀態

Unity學習筆記Unity設定單位長度畫素間的對應關係

在製作Roguelike遊戲時,需要隨機生成tiled地圖,此時需要將Unity的一個單位與Sprite的畫素相對應,方法如下: 1、單擊資原始檔夾下的Sprite; 2、在Inspector下的Pixel Per Unit屬性下填入一單位長度所對應的畫素數。

openshift 學習筆記第六章 持續整合部署

一. 部署 jenkins 服務下載並匯入jenkins-ephemeral-template模板# oc create -f https://raw.githubusercontent.com/ope