1. 程式人生 > >第六週作業1——利用哈夫曼編碼英文字母表

第六週作業1——利用哈夫曼編碼英文字母表

作業要求: 對教材P167中習題5.18,思考並完成問題a-d。(原書PDF下載地址:)

習題如下:


解:

(a): 

畫出這些字母的最優二叉樹:(根節點值為101不是100,應該是空格的出現頻率18.3%有誤,若改為17.3%就正確.但我已畫完圖,將錯就錯吧...)


根據葉子節點在其父節點的左側為0, 在右側為1,可知這些字母的最優Huffman編碼是:

/* 字母表的最優Huffman編碼

e: 001
blank: 110

n: 0000
i: 0001
s: 0100
h: 0101
r: 0110
a: 1000
o: 1010
t: 1110

c: 01110
u: 01111
l: 10011
d: 11110

f: 100100
w: 100101
y: 101100
g: 100101
b: 100110
p: 100111
m: 111110

v: 1111110
k: 11111110

x: 1111111100
j: 1111111101
q: 1111111110
z: 1111111111

*/

(b): 

有問題(a)可得, (3*2+4*8+5*4+6*7+7+8+10*4)/27 5.74 ;

即每個字母的編碼平均需要6位.

(c): 

結果肯定比熵(約為5.74)要大,因為在計算熵的時候允許有小數個位元,而實際上每個字元的編碼長度都必需為整數.

(d): 

我不認為這就是英文文字壓縮的下限.

除了字母及其出現的頻率,還可以重點考慮單詞的字首,字尾,某些常見字母的組合,甚至整個單詞.