1. 程式人生 > 其它 >互資訊 Mutual Information

互資訊 Mutual Information

互資訊的定義

它度量知道這兩個變數其中一個,對另一個變數不確定性減少的程度
互資訊的定義式:

\[\begin{align*} I(X;Y)&=\sum_{x \in X}\sum_{y \in Y}p(x,y)\log \frac {p(x,y)} {p(x)p(y)}\\ &=\sum_{x \in X}\sum_{y \in Y}p(x,y)\log \frac {p(x|y)} {p(x)}\\ \end{align*} \]

這不就跟KL散度一樣的形式了嗎,沒錯
通過考察聯合概率分佈與邊緣概率分佈乘積之間的KL散度來判斷它們是否“接近”於相互獨立

\[I(X;Y)&=D_{KL}(p(x,y)||p(x)p(y))\\ \]

當X和Y相互獨立時: \(H(X|Y) =H(X), \ I(Y;X)=0\)

。 從一個事件不能得到另一個事件的任何資訊

性質

對稱性

\[I(X;Y)= I(Y;X) \]

由Y提取到的關於X的資訊量與從X中提取到的關於Y的資訊量是一樣的。\(I(X;Y)\)\(I(Y;X)\)只是觀察者的立足點不同。

非負性

\[I(X;Y) \ge 0 \]

可以從KL散度的性質推出
從一個事件提取關於另一個事件的資訊, 最壞的情況是0,也就是當\(X,Y\)獨立時,\(I(X;Y)=0\), 不會由於知道了一個事件,反而使另一個事件的不確定度增加。

極值性

\[I(X;Y)≤H(X)\\ I(Y;X)≤H(Y) \]

從一個事件提取關於另一個事件的資訊量, 至多是另一個事件的熵那麼多, 不會超過另一個事件自身所含的資訊量
當X和Y是一一對應關係時: \(I(X;Y)=H(X)\)

, 這時\(H(X|Y)=0\)。從一個事件可以充分獲得關於另一個事件的資訊, 從平均意義上來說, 代表信源的資訊量可全部通過通道。
當X和Y相互獨立時: \(H(X|Y) =H(X), I(Y;X)=0\)
當X和Y隨機變數相同時:互資訊最大化,可以認為從資料集中擬合出來的隨機變數的概率分佈與真實分佈相同

與其他熵的關係

其中\(H(X)\)\(H(Y)\)是邊緣熵,也就是\(X,Y\)自身的資訊熵\(H(X|Y)\)\(H(Y|X)\)條件熵,而\(H(X,Y)\)\(X\)\(Y\)的聯合熵

\[\begin{align*} I(X;Y)&=H(X)-H(X|Y)\\ &=H(Y)-H(Y|X)\\ &=H(X)+H(Y)-H(X,Y)\\ &=H(X,Y)-H(X|Y)-H(Y|X)\\ \end{align*} \]

給出\(I(X;Y)=H(Y)-H(Y|X)\)

的詳細推導

\(I(X;Y)=H(Y)-H(Y|X)\)可以解釋為:\(Y\)的不確定度,減去在\(X\)已知之後\(Y\)的剩餘不確定度的量
這證實了互資訊的直觀意義為知道其中一個變數提供的另一個的資訊量(即不確定度的減少量)

與KL散度的關係

\[\begin{align*} I(X;Y)&=D_{KL}(p(x,y)||p(x)p(y))\\ &=\sum_{x}\sum_{y}p(x,y)\log \frac {p(x|y)} {p(x)}\\ &=\sum_{y} p(y) \sum_{x}p(x|y)\log \frac {p(x|y)} {p(x)}\\ &=\sum_{y} p(y) D_{KL}(p(x|y)||p(x))\\ &=\mathbb E_Y{D_{KL}(p(x|y)||p(x))}\\ \end{align*} \]

分佈\(p(x|y)\)\(p(x)\)之間的平均差異越大,資訊增益越大