第六週作業1——利用哈夫曼編碼英文字母表
阿新 • • 發佈:2019-01-27
作業要求: 對教材P167中習題5.18,思考並完成問題a-d。(原書PDF下載地址:)
習題如下:
解:
(a):
畫出這些字母的最優二叉樹:(根節點值為101不是100,應該是空格的出現頻率18.3%有誤,若改為17.3%就正確.但我已畫完圖,將錯就錯吧...)
根據葉子節點在其父節點的左側為0, 在右側為1,可知這些字母的最優Huffman編碼是:
/* 字母表的最優Huffman編碼 e: 001 blank: 110 n: 0000 i: 0001 s: 0100 h: 0101 r: 0110 a: 1000 o: 1010 t: 1110 c: 01110 u: 01111 l: 10011 d: 11110 f: 100100 w: 100101 y: 101100 g: 100101 b: 100110 p: 100111 m: 111110 v: 1111110 k: 11111110 x: 1111111100 j: 1111111101 q: 1111111110 z: 1111111111 */
(b):
有問題(a)可得, (3*2+4*8+5*4+6*7+7+8+10*4)/27≈ 5.74 ;
即每個字母的編碼平均需要6位.
(c):
結果肯定比熵(約為5.74)要大,因為在計算熵的時候允許有小數個位元,而實際上每個字元的編碼長度都必需為整數.
(d):
我不認為這就是英文文字壓縮的下限.
除了字母及其出現的頻率,還可以重點考慮單詞的字首,字尾,某些常見字母的組合,甚至整個單詞.