資訊理論模型——熵、互資訊
阿新 • • 發佈:2018-12-15
前言
在機器學習以及神經網路裡面,我們經常會遇到“熵”、“互資訊”、“條件熵”,“最大熵”等字眼,尤其是最大熵模型 在自然語言處理中用處可謂是超級大。這些概念都是資訊理論裡面的東西,因此它們都被統一稱為資訊理論模型。
這篇部落格就是專門來研究一下資訊理論模型,先介紹基本概念,下篇部落格介紹最大熵模型。
熵的定義
資訊量
記離散型隨機變數
,取
的概率為
.即:
這是隨機變數的標準定義。
那麼定義事件
的資訊量為:
很明顯
是一個只跟事件
發生的概率大小有關的量,它與對應的隨機變數取什麼值是無關的。
資訊量
衡量了當事件
發生時,所帶來的資訊量的多少。這是什麼意思呢?可以直觀理解為這個事件發生了會引起人們的多大關注度。如果這個事件的概率越小,那它發生後,往往會引起舉世關注,例如 “太陽從西邊升起” 啊。
但是,如果一個事件的概率本來就很大,那麼它發生後,人民關注的會很少,例如 “太陽從東邊升起”。
資訊量的性質有:
資訊熵
資訊量的期望,就是定義為資訊熵啦。
對於離散型隨機變數
,且
。
定義資訊熵
為該隨機變數的某個函式的數學期望:
其實就是資訊量的平均值。
當隨機變數
是連續型的時候,若它的概率密度函式為
,分佈函式為
,那麼定義它
的連續資訊熵為:
於是