1. 程式人生 > >資訊理論(二):隨機變數的資訊度量

資訊理論(二):隨機變數的資訊度量

1.資訊與信源

信源發出的訊息在未收到前是不確定的隨機過程,可以用隨機變數描述,或者說用一個樣本空間及其概率測度來描述信源。信源分為離散信源連續信源

  • 離散信源:可用離散型隨機變數來表示,信源常記作:$X = \{x_1, ..., x_n, ...\}$ ,例如,天氣預報。數學模型:

$$ \begin{bmatrix} x \\ p(x) \\ \end{bmatrix} = \begin{bmatrix} x_1 & ... & x_n \\ p(x_1) & ... & p(x_n) \\ \end{bmatrix} $$

其中, $0≤p(x_i)≤1, \sum p({x_i}) = 1$

  • 連續信源:可用連續型隨機變數來表示。例如,電壓、溫度。數學模型:

$$ \begin{bmatrix} x \\ p(x) \\ \end{bmatrix} = \begin{bmatrix} (a,b) \\ p(x) \\ \end{bmatrix} $$

其中, $\int_{a}^{b} p(x)dx = 1$

2.自資訊

2.1 自資訊

信源所發出的某資訊$x$所含的資訊量$I(x)$(即$x$的自資訊),$I(x)$應是$p(x)$的單調遞減函式:$I(x)=f[p(x)]$自資訊滿足如下公理:

  1. 非負性:$I(x)>0$
  2. 若$p(x) = 0$,則$I(x) \longrightarrow \infty$
  3. 若$p(x) = 1$,則$I(x) = 0 $
  4. 嚴格單調性:若$p(x)>p(y)$,則$I(x)<I(y)$
  5. 若$p(x,y)=p(x)p(y)$,則$I(x,y)=I(x)+I(y)$

定義:若$x \in X$有概率$p(x),則$x$的自資訊為:

$$ I(x)=\log{\frac{1}{p(x)}}=-\log p(x) $$

預設以2為底

注1:$I(x)$的兩個含義

  • 當事件發生前,表示該事件發生的不確定性
  • 當事件發生後,表示該事件提供的資訊量

注2:自資訊量的單位與所取對數的關係

  • 以2為底——位元(bit)
  • 以$e$為底——奈特(nat)
  • 以10為底——哈特(hart)

2.2 聯合自資訊

定義:若$x_i,y_j$同時發生,可用聯合概率$p(x_i,y_j)$來表示,數學模型:

$$ \begin{bmatrix} (x,y) \\ p(x,y) \\ \end{bmatrix} = \begin{bmatrix} (x_1,y_1) & ... & (x_i,y_j) & ... & (x_n,y_m)\\ p(x_1,y_1) & ... & p(x_i,y_j) & ... & p(x_n, y_m) \\ \end{bmatrix} $$

其中 $0≤p(x_i,y_j)≤1, \sum_{i=1}^n \sum_{j=1}^m p(x_i, y_j)=1$$x_i,y_j$的聯合資訊為:

$$ I(x_i,y_j)=\log{\frac{1}{p(x_i,y_j)}}=-\log{p(x_i,y_j)} $$

注:當$x_i,y_j$相互獨立時:

$$ I(x_i,y_j) = I(x_i) + I(y_j) $$

依次可往下推廣。

2.3 條件自資訊

定義:設在$y_j$條件下,$x_i$發生的條件概率為$p(x_i|y_j)$,則其條件自資訊定義為:

$$ I(x_i,y_j) = \log{\frac{1}{p(x_i|y_j)}}=-\log{p(x_i|y_j)} $$

同理可得:

$$ I(y_j,x_i) = \log{\frac{1}{p(y_j|x_i)}}=-\log{p(y_j|x_i)} $$

2.4 互資訊

定義:事件$y_j$的出現給出關於$x_i$的資訊量稱為互資訊,即:

$$ I(x_i;y_j)=\log{\frac{p(x_i|y_j)}{p(x_i)}}=\log{\frac{1}{p(x_i)}}-\log{\frac{1}{p(x_i|y_j)}}=I(x_i)-I(x_i|y_j)=I(y_j)-I(y_j|x_i)=I(y_j;x_i) $$

上式表明,互資訊量等於自資訊量減去條件資訊量,或者說互資訊量是一種消除的不確定性的度量(事件$y_j$發生使$x_i$的不確定性減小或者事件$y_j$發生提供$x_i$的資訊量)

注:

  • $I(x_i;y_j)=I(y_j;x_i)$
  • $I(x_i;y_j) = 0$,則$x_i,y_j$相互獨立
  • $I(x_i;y_j)$可正可負