互資訊 Mutual Information
阿新 • • 發佈:2021-10-26
互資訊的定義
它度量知道這兩個變數其中一個,對另一個變數不確定性減少的程度
互資訊的定義式:
這不就跟KL散度一樣的形式了嗎,沒錯
通過考察聯合概率分佈與邊緣概率分佈乘積之間的KL散度來判斷它們是否“接近”於相互獨立
當X和Y相互獨立時: \(H(X|Y) =H(X), \ I(Y;X)=0\)
性質
對稱性
\[I(X;Y)= I(Y;X) \]由Y提取到的關於X的資訊量與從X中提取到的關於Y的資訊量是一樣的。\(I(X;Y)\)和\(I(Y;X)\)只是觀察者的立足點不同。
非負性
\[I(X;Y) \ge 0 \]可以從KL散度的性質推出
從一個事件提取關於另一個事件的資訊, 最壞的情況是0,也就是當\(X,Y\)獨立時,\(I(X;Y)=0\), 不會由於知道了一個事件,反而使另一個事件的不確定度增加。
極值性
\[I(X;Y)≤H(X)\\ I(Y;X)≤H(Y) \]從一個事件提取關於另一個事件的資訊量, 至多是另一個事件的熵那麼多, 不會超過另一個事件自身所含的資訊量
當X和Y是一一對應關係時: \(I(X;Y)=H(X)\)
當X和Y相互獨立時: \(H(X|Y) =H(X), I(Y;X)=0\)
當X和Y隨機變數相同時:互資訊最大化,可以認為從資料集中擬合出來的隨機變數的概率分佈與真實分佈相同
與其他熵的關係
其中\(H(X)\)和\(H(Y)\)是邊緣熵,也就是\(X,Y\)自身的資訊熵,\(H(X|Y)\)和\(H(Y|X)\)是條件熵,而\(H(X,Y)\)是\(X\)和\(Y\)的聯合熵
\[\begin{align*} I(X;Y)&=H(X)-H(X|Y)\\ &=H(Y)-H(Y|X)\\ &=H(X)+H(Y)-H(X,Y)\\ &=H(X,Y)-H(X|Y)-H(Y|X)\\ \end{align*} \]給出\(I(X;Y)=H(Y)-H(Y|X)\)
\(I(X;Y)=H(Y)-H(Y|X)\)可以解釋為:\(Y\)的不確定度,減去在\(X\)已知之後\(Y\)的剩餘不確定度的量
這證實了互資訊的直觀意義為知道其中一個變數提供的另一個的資訊量(即不確定度的減少量)
與KL散度的關係
\[\begin{align*} I(X;Y)&=D_{KL}(p(x,y)||p(x)p(y))\\ &=\sum_{x}\sum_{y}p(x,y)\log \frac {p(x|y)} {p(x)}\\ &=\sum_{y} p(y) \sum_{x}p(x|y)\log \frac {p(x|y)} {p(x)}\\ &=\sum_{y} p(y) D_{KL}(p(x|y)||p(x))\\ &=\mathbb E_Y{D_{KL}(p(x|y)||p(x))}\\ \end{align*} \]分佈\(p(x|y)\)和\(p(x)\)之間的平均差異越大,資訊增益越大