資訊理論(二):隨機變數的資訊度量
1.資訊與信源
信源發出的訊息在未收到前是不確定的
隨機過程,可以用隨機變數描述,或者說用一個樣本空間及其概率測度來描述信源。信源分為離散信源
和連續信源
。
- 離散信源:可用
離散型隨機變數
來表示,信源常記作:$X = \{x_1, ..., x_n, ...\}$ ,例如,天氣預報。數學模型:
$$ \begin{bmatrix} x \\ p(x) \\ \end{bmatrix} = \begin{bmatrix} x_1 & ... & x_n \\ p(x_1) & ... & p(x_n) \\ \end{bmatrix} $$
其中, $0≤p(x_i)≤1, \sum p({x_i}) = 1$
- 連續信源:可用
連續型隨機變數
來表示。例如,電壓、溫度。數學模型:
$$ \begin{bmatrix} x \\ p(x) \\ \end{bmatrix} = \begin{bmatrix} (a,b) \\ p(x) \\ \end{bmatrix} $$
其中, $\int_{a}^{b} p(x)dx = 1$
2.自資訊
2.1 自資訊
信源所發出的某資訊$x$所含的資訊量
$I(x)$(即$x$的自資訊),$I(x)$應是$p(x)$的單調遞減
函式:$I(x)=f[p(x)]$自資訊滿足如下公理:
- 非負性:$I(x)>0$
- 若$p(x) = 0$,則$I(x) \longrightarrow \infty$
- 若$p(x) = 1$,則$I(x) = 0 $
- 嚴格單調性:若$p(x)>p(y)$,則$I(x)<I(y)$
- 若$p(x,y)=p(x)p(y)$,則$I(x,y)=I(x)+I(y)$
定義:若$x \in X$有概率$p(x),則$x$的自資訊為:
$$ I(x)=\log{\frac{1}{p(x)}}=-\log p(x) $$
預設以2為底
注1:$I(x)$的兩個含義
- 當事件
發生前
,表示該事件發生的不確定性
。 - 當事件
發生後
,表示該事件提供的資訊量
。
注2:自資訊量的單位與所取對數的關係
- 以2為底——位元(bit)
- 以$e$為底——奈特(nat)
- 以10為底——哈特(hart)
2.2 聯合自資訊
定義:若$x_i,y_j$同時發生,可用聯合概率$p(x_i,y_j)$來表示,數學模型:
$$ \begin{bmatrix} (x,y) \\ p(x,y) \\ \end{bmatrix} = \begin{bmatrix} (x_1,y_1) & ... & (x_i,y_j) & ... & (x_n,y_m)\\ p(x_1,y_1) & ... & p(x_i,y_j) & ... & p(x_n, y_m) \\ \end{bmatrix} $$
其中 $0≤p(x_i,y_j)≤1, \sum_{i=1}^n \sum_{j=1}^m p(x_i, y_j)=1$$x_i,y_j$的聯合資訊為:
$$ I(x_i,y_j)=\log{\frac{1}{p(x_i,y_j)}}=-\log{p(x_i,y_j)} $$
注:當$x_i,y_j$相互獨立時:
$$ I(x_i,y_j) = I(x_i) + I(y_j) $$
依次可往下推廣。
2.3 條件自資訊
定義:設在$y_j$條件下,$x_i$發生的條件概率為$p(x_i|y_j)$,則其條件自資訊定義為:
$$ I(x_i,y_j) = \log{\frac{1}{p(x_i|y_j)}}=-\log{p(x_i|y_j)} $$
同理可得:
$$ I(y_j,x_i) = \log{\frac{1}{p(y_j|x_i)}}=-\log{p(y_j|x_i)} $$
2.4 互資訊
定義:事件$y_j$的出現給出關於$x_i$的資訊量稱為互資訊,即:
$$ I(x_i;y_j)=\log{\frac{p(x_i|y_j)}{p(x_i)}}=\log{\frac{1}{p(x_i)}}-\log{\frac{1}{p(x_i|y_j)}}=I(x_i)-I(x_i|y_j)=I(y_j)-I(y_j|x_i)=I(y_j;x_i) $$
上式表明,互資訊量等於自資訊量減去條件資訊量,或者說互資訊量是一種消除的不確定性的度量
(事件$y_j$發生使$x_i$的不確定性減小或者事件$y_j$發生提供$x_i$的資訊量)
注:
- $I(x_i;y_j)=I(y_j;x_i)$
- $I(x_i;y_j) = 0$,則$x_i,y_j$相互獨立
- $I(x_i;y_j)$可正可負