PHP實現Huffman編碼/解碼

阿新 • • 發佈：2019-02-19

Huffman 編碼是一種資料壓縮演算法。我們常用的 zip 壓縮，其核心就是 Huffman 編碼，還有在 HTTP/2 中，Huffman 編碼被用於 HTTP 頭部的壓縮。

本文就來用 PHP 來實踐一下 Huffman 編碼和解碼。

1. 編碼

字數統計

Huffman編碼的第一步就是要統計文件中每個字元出現的次數，PHP的內建函式 count_chars() 就可以做到：

$input = file_get_contents('input.txt');
$stat = count_chars($input, 1);

構造Huffman樹

接下來根據統計結果構造Huffman樹，構造方法在

Wikipedia 有詳細的描述。這裡用PHP寫了一個簡易版的：

$huffmanTree = [];
foreach ($stat as $char => $count) {
    $huffmanTree[] = [
        'k' => chr($char),
        'v' => $count,
        'left' => null,
        'right' => null,
    ];
}

// 構造樹的層級關係，思想見wiki：https://zh.wikipedia.org/wiki/%E9%9C%8D%E5%A4%AB%E6%9B%BC%E7%BC%96%E7%A0%81 

$size = count($huffmanTree);
for ($i = 0; $i !== $size - 1; $i++) {
    uasort($huffmanTree, function ($a, $b) {
        if ($a['v'] === $b['v']) {
            return 0;
        }
        return $a['v'] < $b['v'] ? -1 : 1;
    });
    $a = array_shift($huffmanTree);
    $b = array_shift($huffmanTree 
);
    $huffmanTree[] = [
        'v' => $a['v'] + $b['v'],
        'left' => $b,
        'right' => $a,
    ];
}
$root = current($huffmanTree);

經過計算之後，$root 就會指向 Huffman 樹的根節點

根據Huffman樹生成編碼字典

有了 Huffman 樹，就可以生成用於編碼的字典：

function buildDict($elem, $code = '', &$dict) {
    if (isset($elem['k'])) {
        $dict[$elem['k']] = $code;
    } else {
        buildDict($elem['left'], $code.'0', $dict);
        buildDict($elem['right'], $code.'1', $dict);
    }
}
$dict = [];
buildDict($root, '', $dict);

寫檔案

運用字典將檔案內容進行編碼，並寫入檔案。將Huffman編碼寫入檔案的有幾個注意的地方：

將編碼字典和編碼內容一起寫入檔案後，就沒法區分他們的邊界了，因此需要在檔案開始寫入他們各自佔用的位元組數
PHP提供的 fwrite() 函式一次能寫入 8-bit（一個位元組）或者是 8的整數倍個bit。但Huffman編碼中，一個字元可能只使用 1-bit 表示，PHP不支援只往檔案中寫入 1-bit 這種操作。所以需要我們自行對編碼進行拼接，每湊齊 8-bit 才寫入檔案。

每湊齊8-bit才寫入

與第二條類似，最終形成的檔案大小一定是 8-bit 的整數倍。所以如果整個編碼的大小是 8001-bit的話，還要在末尾補上 7個 0

$dictString = serialize($dict);
// 寫入字典和編碼各自佔用的位元組數
$header = pack('VV', strlen($dictString), strlen($input));
fwrite($outFile, $header);
// 寫入字典本身
fwrite($outFile, $dictString);

// 寫入編碼的內容
$buffer = '';
$i = 0;
while (isset($input[$i])) {
    $buffer .= $dict[$input[$i]];
    while (isset($buffer[7])) {
        $char = bindec(substr($buffer, 0, 8));
        fwrite($outFile, chr($char));
        $buffer = substr($buffer, 8);
    }
    $i++;
}
// 末尾的內容如果沒有湊齊 8-bit，需要自行補齊
if (!empty($buffer)) {
    $char = bindec(str_pad($buffer, 8, '0'));
    fwrite($outFile, chr($char));
}
fclose($outFile);

解碼

Huffman編碼的解碼相對簡單：先讀取編碼字典，然後根據字典解碼出原始字元。

解碼過程有個問題需要注意：由於我們在編碼過程中，在檔案末尾補齊了幾個0-bit，如果這些 0-bit 在字典中恰巧是某個字元的編碼時，就會造成錯誤的解碼。

所以解碼過程中，當已解碼的字元數達到文件長度時，就要停止解碼。

<?php
$content = file_get_contents('a.out');

// 讀出字典長度和編碼內容長度
$header = unpack('VdictLen/VcontentLen', $content);
$dict = unserialize(substr($content, 8, $header['dictLen']));
$dict = array_flip($dict);

$bin = substr($content, 8 + $header['dictLen']);
$output = '';
$key = '';
$decodedLen = 0;
$i = 0;
while (isset($bin[$i]) && $decodedLen !== $header['contentLen']) {
    $bits = decbin(ord($bin[$i]));
    $bits = str_pad($bits, 8, '0', STR_PAD_LEFT);
    for ($j = 0; $j !== 8; $j++) {
        // 每拼接上 1-bit，就去與字典比對是否能解碼出字元
        $key .= $bits[$j];
        if (isset($dict[$key])) {
            $output .= $dict[$key];
            $key = '';
            $decodedLen++;
            if ($decodedLen === $header['contentLen']) {
                break;
            }
        }
    }
    $i++;
}

echo $output;

試驗

我們將Huffman編碼Wiki頁的HTML程式碼儲存到本地，進行Huffman編碼測試，試驗結果：

編碼前: 418,504 位元組

編碼後: 280,127 位元組

空間節省了 33%，如果原文的重複內容較多，Huffman編碼節省的空間可以達到 50% 以上.

除了文字內容，我們再嘗試將一個二進位制檔案進行Huffman編碼，比如 f.lux的安裝程式，試驗結果如下：

編碼前: 770,384 位元組

編碼後: 773,076 位元組

編碼後反而佔用了更大的空間，一方面是由於我們儲存字典時，並沒有做額外的處理，佔用了不少空間。另一方面，二進位制檔案中，各個字元出現的概率相對比較平均，無法發揮Huffman編碼的優勢。

PHP實現Huffman編碼/解碼

Huffman 編碼是一種資料壓縮演算法。我們常用的 zip 壓縮，其核心就是 Huffman 編碼，還有在 HTTP/2 中，Huffman 編碼被用於 HTTP 頭部的壓縮。本文就來用 PHP 來實踐一下 Huffman 編碼和解碼。 1. 編碼

PHP實現UCS2編碼解碼

//手機發送簡訊時編碼 /*** * @Method Ucs2Code UCS2編碼 * @Param $str 輸入字串 * @Param $encod 輸入字串編碼型別(UTF-8,GB2312,GBK) * @Return 返回編碼後的字串 */ functio

JS實現—Base64編碼解碼，帶16進制顯示

ech encode break 復制代碼 bre zab idt pts image 代碼如下： <!DOCTYPE html> <html> <head> <meta name="viewport" conte

Python實現Huffman編碼

基於Huffman編碼的壓縮軟體的Python實現個人分類：演算法 Python 版權宣告：本文為博主原創文章，未經博主允許不得轉載。 https://blog.csdn.net/xanxus46/article/details/41359841 哈夫曼編碼是利用貪心演算法進行文字

[原始碼和文件分享]C語言實現huffman編解碼與壓縮文字

1 原理哈夫曼編碼(Huffman Coding)，又稱霍夫曼編碼，是一種編碼方式，哈夫曼編碼是可變字長編碼(VLC)的一種。Huffman於1952年提出一種編碼方法，該方法完全依據字元出現概率來構造異字頭的平均長度最短的碼字，有時稱之為最佳編碼，一般就叫做Huffman編碼(有時也稱為霍夫

C++利用boost實現base64編碼解碼

#include <boost/archive/iterators/base64_from_binary.hpp> #include <boost/archive/iterators/binary_from_base64.hpp> #include &

huffman編碼解碼與huffman樹

定義：給定n個權值作為n個葉子結點，構造一棵二叉樹，若帶權路徑長度達到最小，稱這樣的二叉樹為最優二叉樹，也稱為哈夫曼樹(Huffman Tree)。哈夫曼樹是帶權路徑長度最短的樹，權值較大的結點離根較近。構建huffman樹： 1.根據給定的n個權值{w

哈夫曼編碼解碼 C++實現

錯誤 urn using 過程簡單 cin n) struct ren 哈夫曼編碼是一個通過哈夫曼樹進行的一種編碼，一般情況下，以字符：‘0’與‘1’表示。編碼的實現過程很簡單，只要實現哈夫曼樹，通過遍歷哈夫曼樹，這裏我們從每一個葉子結點開始向上遍歷，如果該結點為父節點的

php實現對數組進行編碼轉換

spa RR span map protect 更改 ray utf-8 編碼轉換 1.轉換GB2312編碼為UTF-8 //更改編碼為utf8 protected function array2utf8($array){ $array = array_map(fu

PHP和javascript中url編碼解碼詳解

http 遇到註意 spa color 空格 www. col test 在實際開發中，我們可能會遇到路徑編碼解碼的問題，下面總結了一下： PHP中：　　1、urlencode(編碼)，urldecode（解碼） $a = urlencode(‘http://www.

Huffman編碼的實現

Huffman編碼的實現哈夫曼編碼(Huffman Coding)，又稱霍夫曼編碼，是一種編碼方式，哈夫曼編碼是可變字長編碼(VLC)的一種。Huffman於1952年提出一種編碼方法，該方法完全依據字元出現概率來構造異字頭的平均長度最短的碼字，有時稱之為最佳編碼，一般就叫做Huffm

PHP實現將圖片base64編碼&&上傳資料庫&&顯示

view檢視上傳程式碼->一個form表單即可: <form action="{{url('file64')}}" method="post" enctype="multipart/form-data"> {{csrf_field()}} &l

Huffman編碼和解碼

標頭檔案 #ifndef TEST_H_INCLUDED #define TEST_H_INCLUDED typedef short int Bool; class HuffmanTreeNode{ private: float m_wei

CImg:外掛(plugin)使用說明塈實現JPEG影象記憶體編碼/解碼

殺雞用牛刀？如果你想對影象進行簡單處理，你一般會想到用什麼？可能多數人想到的是OpenCV。對，OpenCV是個非常強大的影象視覺工具庫，用途非常廣泛。簡單的影象處理用它肯定是可以的。但OpenCV實在太龐大了，用起來有時反而不方便，就好比你現在肚子餓了只

Java理解實現哈夫曼樹以其編碼解碼

哈夫曼樹以其編碼解碼要求： 1.從終端讀入字符集大小為n（即字元的個數），逐一輸入n個字元和相應的n個權值（即字元出現的頻度），建立哈夫曼樹，進行編碼並且輸出。將它存於檔案hfmtree中（選做）。 2.利用已建好的哈夫曼編碼檔案hfmtree，對鍵盤輸入的正文進行譯碼。輸出字元正文

Huffman編碼實現壓縮、解壓檔案

Huffman編碼：根據詞頻構建Huffman樹，實現對文字的字首編碼。 1、統計文字中每個字元出現的次數，放入優先佇列中，構建一棵空的二叉樹； 2、取出頻率最小的兩個字元a、b，字元a、b的頻率分別作為此二叉樹的左右結點，左結點的編號為1，右結點的編號為0，其頻率之和（f

php 解決 escape 編碼後 js 解碼中午輸出亂碼的問題

我們通過 php 進行 escape 編碼加密我們的文字後通過js 的unescape 進行解碼，然而中文出現亂碼，主要是因為現在網路上所在流傳的 PHP escape 編碼方法存在一些問題，下面的方法是我個人修改後的，提供

用python實現base64編碼與解碼

用到了python裡的base64模組用法：編碼： 1 import base64 2 a = 'HC'.decode() #將‘HC’轉為二進位制 3 b = base64.b64encode(a) #將a轉為base64編碼 4 b.decode() #從二進位制轉回 5 6 base6

利用DPCM&Huffman編碼實現資料壓縮_C語言實現

一、實驗原理 DPCM是差分預測編碼調製的縮寫，它利用過去的抽樣值來預測當前的抽樣值，對它們的差值進行編碼。差值編碼可以提高編碼頻率，這種技術已應用於模擬訊號的數字通訊之中。影象內的畫素值之間並非相互獨立，某一畫素與周圍畫素之間存在一定的關係，這一關係導致整

php實現gbk和uft8編碼中英文字元擷取函式的應用

<?php/*utf-8、gb2312都支援的漢字擷取函式cut_str(www.3ppt.com字串, 擷取長度, 開始長度, 編碼);編碼預設為 utf-8開始長度預設為 0*/function cut_str($string, $sublen, $start =

PHP實現Huffman編碼/解碼

1. 編碼

字數統計

構造Huffman樹

根據Huffman樹生成編碼字典

寫檔案

解碼

試驗

相關推薦