讀書心得(一)資訊理論中熵-的初淺理解
- 資訊的度量與他的不確定性相關
一條資訊的資訊量和它的不確定性有著直接關係。
當我們需要搞清楚一件不確定的事情時,我們需要更大量的資訊來瞭解事情的真相;相反,如果我們需要
我們已經理解的事,那僅需少量資訊就能理解。
==>可以把一件資訊的資訊量(真正有用的資訊)等於不確定性的多寡。
舉例一:
世足賽中,我錯過了觀看球賽的時間但我想知道最後是誰得到了冠軍,此時有觀看過球賽之某人可以讓我問答(資訊)
我每問答一次此人收我一塊錢,已知共有32支球隊,如果用較有效率的做法,我們可以用以下問法"冠暈球隊在1-16號中嗎?"
"冠軍球隊在1-8號中嗎?"、"冠軍球隊在9-16號中嗎?"如此反覆詢問,如此一來便可以使用五塊錢獲得該次比賽的誰是冠軍資訊(資訊量)。
此資訊共值五元。
而在資訊理論中,夏農所用的是位元(bit)而不是錢。
但有些球隊依過去歷史紀錄贏得比賽的機率比較大,與其使用簡單二分法,
我們可以一次將那些贏的機率較小的球隊綜合起來與其比較,如此反覆,有很高的機率可以在小於五次的詢問
次數的道誰是冠軍的資訊。
當每支球隊的冠可能性不相等時,夏農指出其準確資訊量應當是
H=-(p1*logp2+p2+p2*logp2+...+p32*logp32);
其中log是以二為底,Pn為球隊n贏得球賽的機率,數學證明可匯出當我們擁有球隊贏得球賽的概率時
該公式的H必小於logn(在此範例當中為5),比二分法有效。
對任意隨機變數X而言(比如得冠軍的球隊),它的熵定義如下:
H(X)=-Σx∈X P(x)logP(x);
舉例(二)
有了熵這個概念,我們可以試算50萬字中文書有多少資訊量,已知常用漢字約略7000,
假如每字出現為等機率,那麼需要大概13bit才能表達一漢字;但實際上每漢字出線機率不均等
前10%的漢字站常用文字95%以上,因此即使不考慮上下文相關性,而只考慮每漢字獨立出現的概率
每漢字的資訊熵僅有8-9bit,如果考慮上下文相關性,僅有5bit。
冗餘度Redundancy
透過資訊及所含真正資訊的差異。
如果一本書重複的內容多,它的資訊量就小,冗餘度就大。