哈夫曼編碼壓縮解壓縮實現&不同型別檔案壓縮比的測試

阿新 • • 發佈：2019-01-08

壓縮原理及步驟&&壓縮比的計算

壓縮原理及步驟

壓縮的第一步：

將一個檔案以各個字元出現的次數為權值建立哈夫曼樹，這樣每個字元可以用從樹根到該字元所在到葉子節點的路徑來表示。(左為0,右為1)

壓縮第二步：

哈夫曼編碼有一個很重要的特性：每個字元編碼不會成為另一個編碼的字首。這個特性保證了即使我們把不同長度的編碼存在一起，仍然也可以把它們分離開，不會出現認錯人的衝突。
那麼我們就可以把所有的字元按照原有順序用其編碼替換，構建新的字串作為其壓縮後的串。

壓縮第三步：

有的小夥伴可能要問了，這樣一搞不是越變越多了麼，哪是什麼壓縮。哈哈，大部分孩子可能已經想到啦，既然單位編碼除了0就是1為什麼還要用位元組來存呢，用位來儲存，8個單位編碼為1位

。這樣轉化完成後的串才是真正壓縮後的串。

當然，因為我們還要進行解壓，所以這裡構建的樹也要和串一併加入到檔案。

壓縮比的計算

介紹完步驟，我們來計算一下哈夫曼編碼的壓縮比。
用len表示串長度，path(i)表示每i個字元的編碼長度，那麼根據上文所介紹的原理，我們可以很容易知道，串通過哈夫曼壓縮後的長度為: sum(path(i)) 1<=i<=len
這個式子雖然正確但不能直觀的感受的壓縮比，所以我們來假設一種平均情況進行估算
假如一個串長度為n，一共包含m個不同的字元，那麼所構建成的哈夫曼樹的總結點數為 2*m-1。
假設，n很大，那麼可以忽略樹的儲存所佔用的空間。如果假設此串中每個字元出現的次數都是相同的，那麼也可以假設，它們所生成的哈夫曼樹是完全二叉樹.
即每個葉子(字元)的深度為log(m)+1，則路徑長度為log(m)。log(m)即為該串字元的平均路徑長度，那麼壓縮後的串長為log(m)/8。
由上可以得出平均壓縮比的公式為：: n*log(2*m-1)/8/n = log(2*m-1)/8;
可見壓縮比的大小主要與m有關，即不同的字元越少越好。
ascii碼的範圍為0～255，共有256種不同字元，代入上式得: log(2*256-1) ＝ 6.23 …
向上取整為7(路徑個數哪有小數)
7/8 = 0.875 = %87.5
所以哈夫曼編碼的平均壓縮比為%87.5。

強調

上述的假設在計算情況中忽略了對哈夫曼樹的儲存，所以只在檔案總長度與不同字元總數相差很大時才生效。

考慮ascii碼外的其它語言

一開始為考慮這個鑽了牛角尖，想著去統一用wchar_t儲存或是轉為Unicode等等什麼的。但其實不必那麼複雜，因為漢字(不僅僅漢字，任何字元都是這樣的)都是以位元組為單位的，由多個位元組組成的，將其分開對待，因為最終解壓時恢復原串還是按照原有順序組裝，所以和純英文檔案的實現沒有什麼區別)；

需要注意的地方

所有字元路徑的總長不一定整除8，所以在按為儲存時，要注意最後一項不足8的情況，進行補零，且要將補零的個數儲存起來。

程式碼對不同型別文件的壓縮比測試情況

英語文章

樣例文件：西遊記英文節選

原大小：7720
壓縮後：10476
壓縮比：1.356 – %135
此處的檔案壓縮後不降反增，因為檔案本身大小與不同字元的數量相差並不大，加上對樹的儲存後，空間大於壓縮前。

純漢語文件

樣例文件：西遊記
原大小：1921978
壓縮後：1781234
壓縮比：0.926 – %92
不同漢字的數量多。

程式程式碼

樣例文件：github網頁原始碼
原大小：46500
壓縮後：35116
壓縮比：0.755 – %76
原始碼中全是英文字母與符號，不超過100種，總大小與其相差近500倍，且程式碼重複詞比較多。

英語單詞文件

樣例文件：英語單詞5000
原大小：20813
壓縮後：13523
壓縮比：0.649 – %65

測試情況

原始碼

壓縮程式原始檔 compress.cpp

#include <iostream>
#include <locale>
#include <cstdlib>
#include <fstream>
#include <vector>
#include <queue>

using namespace std;

const long long MAX_SIZE = 10000000000;//
const int MAX_TYPE = 300;
unsigned int *f = new unsigned int[MAX_TYPE];//計數
unsigned int *p = new unsigned int[MAX_TYPE];//計下標
char *v = new char[MAX_TYPE];
char filename[20];
char *s[MAX_TYPE];

struct Node
{
    unsigned int weight, parent, lson, rson;
    Node(){};
}HuffmanTree[MAX_TYPE<<1];

struct NodeCmp
{
    bool operator()(int a, int b)
    {
        return HuffmanTree[a].weight > HuffmanTree[b].weight;
    }
};

int CreatTree(char *str, long long len)
{
    int num = 1;
    for(int i=0;i<len;i++)
        f[str[i]]++;
    cout<<"len::"<<len<<endl;
    for(int i=0;i<len;i++)
    {
        if(f[str[i]])
        {
            HuffmanTree[num].weight = f[str[i]];
            HuffmanTree[num].lson = 0;
            HuffmanTree[num].rson = 0;
            f[str[i]] = 0;
            if(p[str[i]] == 0)
                p[str[i]] = num;
            v[num] = str[i];
            ++num;
        }
    }
    cout<<"num::"<<num<<endl;
    return num;
}

void CodingTree(int num)
{
    priority_queue<int, vector<int>, NodeCmp> q;
    for(int i=1;i<num;i++)
        q.push(i);
    int len = num;
    for(int i=0;i<num-2;i++)
    {
        int x = q.top(); q.pop();
        int y = q.top(); q.pop();
        HuffmanTree[len].weight = HuffmanTree[x].weight + HuffmanTree[y].weight;
        HuffmanTree[x].parent = HuffmanTree[y].parent = len;
        HuffmanTree[len].lson = y;
        HuffmanTree[len].rson = x;
        q.push(len++);
    }
}

void FindPath(int num)
{
    char *t = new char[num];
    t[num-1] = '\0';
    for(int i=1;i<num;i++)
    {
        int son = i, father = HuffmanTree[i].parent;
        int start = num-1;

        while(father != 0)
        {
            --start;
            if(HuffmanTree[father].rson == son)
                t[start] = '1';
            else
                t[start] = '0';
            son = father;
            father = HuffmanTree[father].parent;
        }
        s[i] = new char[num - start];
        strcpy(s[i], &t[start]);
    }
}

void print(int num, long long len, char *str)
{
    ofstream fout(filename, ios::out);
    fout<<num<<endl;
    for(int i=1;i<num;i++)
    {
        fout<<s[i]<<endl;
        fout<<v[i]<<endl;
    }
    long long pos = 0;
    char *ans = new char[MAX_SIZE];

    int now = 7;
    for(long long i=0;i<len;i++)
    {
        int k = 0;
        while(s[p[str[i]]][k] != '\0')
        {
            ans[pos] |= (s[p[str[i]]][k]-'0')<<now--;
            if(now < 0)
            {
                now = 7;
                pos++;
            }
            ++k;
        }
    }

    int zero = 0;
    if(now != 7) zero = now%7+1, pos++;

    fout<<zero<<" "<<pos<<endl;
    fout.write(ans, sizeof(char)*pos);
    fout.close();

    cout<<"zero::"<<zero<<endl;
}

int main(int argc, char **argv)
{
    sprintf(filename, "%s.temp", argv[1]);
    ifstream fin(argv[1],ios::ate | ios::in);
    if(!fin)
    {
        cout<<"File open error!"<<endl;
        return 0;
    }

    long long size = fin.tellg();
    if(size > MAX_SIZE)
    {
        cout<<"Too long!"<<endl;
        return 0;
    }
    fin.seekg(0, ios::beg);

    char *str = new char[size+1];
    fin.read(str,size);
    fin.close();


    int num = CreatTree(str, size);
    CodingTree(num);
    FindPath(num);
    print(num, size, str);

    return 0;
}

解壓程式原始檔 compress.cpp

#include <iostream>
#include <locale>
#include <cstdlib>
#include <fstream>
#include <vector>
#include <queue>

using namespace std;
char filename[20];
const long long MAX_SIZE = 10000000000;//
const int MAX_TYPE = 300;
struct Node
{
    char v;
    int parent, lson, rson;
    Node(){};
}HuffmanTree[MAX_TYPE<<1];

char *str = new char[MAX_SIZE];
char *ans = new char[MAX_SIZE];

void CreatTree(char *t, char v, int &pos)
{
    int root = 0;
    for(int i=0;t[i]!='\0';i++)
    {
        if(t[i] == '1')
        {
            if(HuffmanTree[root].rson == 0)
                HuffmanTree[root].rson = pos++;
            root = HuffmanTree[root].rson;
        }
        else
        {
            if(HuffmanTree[root].lson == 0)
                HuffmanTree[root].lson = pos++;
            root = HuffmanTree[root].lson;
        }
    }
    HuffmanTree[root].v = v;
}

void print(int zero, int len, char *str)
{
    long long start = 0;
    int root = 0;
    int end = 0;
    for(int i=0;i<len;i++)
    {
        char t = str[i];
        if(i == len-1)
            end = zero;
        for(int j=7;j>=end;j--)
        {
            if((1<<j) & t)
                root = HuffmanTree[root].rson;
            else
                root = HuffmanTree[root].lson;
            if(HuffmanTree[root].lson == 0 && HuffmanTree[root].rson == 0)
            {
                ans[start++] = HuffmanTree[root].v;
                root = 0;
            }
        }
    }
    cout<<"len::"<<start<<endl;
    ofstream out(filename, ios::out);
    out.write(ans, sizeof(char)*(start));
    out.close();
}

int main(int argc, char **argv)
{
    strcpy(filename, argv[1]);
    filename[strlen(filename)-4] = 'o';
    filename[strlen(filename)-3] = 'u';
    filename[strlen(filename)-2] = 't';
    filename[strlen(filename)-1] = '\0';

    ifstream fin(argv[1], ios::in);
    if(!fin)
    {
        cout<<"File open error!"<<endl;
        return 0;
    }
    int num;
    char *t = new char[num];
    char *v = new char[3];
    fin>>num;
    fin.getline(t,num);
    cout<<"size::"<<num<<endl;
    int pos = 1;
    for(int i=1;i<num;i++)
    {
        fin.getline(t,num);
        fin.getline(v,num);
        if(v[0] == '\0')
        {
            fin.getline(v,num);
            v[0] = '\n';    
        }
        CreatTree(t, v[0], pos);
        v[0]=0;
    }

    int zero;
    long long size;
    fin>>zero; fin>>size;
    fin.getline(t,num);
    fin.read(str,sizeof(char)*size);
    print(zero, size, str);

    cout<<"zero::"<<zero<<endl;

    return 0;
}

程式碼讀寫操作用檔案流實現，所以在時間效率方面還有很多可優化的地方，待日後閒了再說，畢竟考試在即。。。如果哪裡有錯誤，歡迎砸磚，便於在下提升修正。

哈夫曼編碼壓縮解壓縮實現&不同型別檔案壓縮比的測試

壓縮原理及步驟&&壓縮比的計算壓縮原理及步驟壓縮的第一步：將一個檔案以各個字元出現的次數為權值建立哈夫曼樹，這樣每個字元可以用從樹根到該字元所在到葉子節點的路徑來表示。(左為0,右為1) 壓縮第二步：哈夫曼編碼有一

哈夫曼編碼 (Huffman code)的實現，壓縮、解壓縮

此程式首先掃描一遍輸入檔案並統計各個字元的出現次數，然後對結果排序，再由此構造Huffman樹，然後對樹進行一個遍歷，並把各個字元的Huffman編碼存到一個hash表中，所謂hash表就是建立一個string陣列，陣列下標用字元的ASCII碼錶示，陣列內容用此字元對應的H

資料結構圖文解析之：哈夫曼樹與哈夫曼編碼詳解及C++模板實現

0. 資料結構圖文解析系列 1. 哈夫曼編碼簡介哈夫曼編碼（Huffman Coding）是一種編碼方式，也稱為“赫夫曼編碼”，是David A. Huffman1952年發明的一種構建極小多餘編碼的方法。在計算機資料處理中，霍夫曼編碼使用變長編碼表對源符號進行編碼，出現頻率較高的源符號採用較短的編碼，

貪心演算法之哈夫曼編碼（C語言實現）

如題問題描述:現有一個文字檔案，其中包含的字元資料出現的次數各不相同，先要求對該文字中包含的字元進行編碼，使文字佔用的位數更小。問題分析我們知道檔案的儲存都是以二進位制數表示的，如：字元c可以表示為010101…之類的。因為不同的作業

資料結構————檔案壓縮（利用哈夫曼編碼實現）

檔案壓縮原理：首先檔案壓縮是通過HuffmaCode實現的、整體思路通過讀取檔案獲取字元出現頻率，通過字元出現頻率可以構建HuffmanTree，每個檔案中出現的字元通過HuffmanTree獲取HuffmanCode，從而將檔案中的字元同過HuffmanTree獲取相應編碼，並寫入壓

哈夫曼編碼實現文字壓縮和解壓（C++）

哈弗曼樹：又稱最優二叉樹，是帶權路徑長度最短的樹。哈夫曼編碼：是一種字首編碼，即同一字符集中任何一個字元的編碼都不是另外一個字元編碼的字首（最左子串）。在哈弗曼樹中，若用‘0’表示左子樹，‘1’表示右子樹，那麼每當從根遍歷到一個葉子節點時都會形成一個0

基於哈夫曼編碼的文字檔案壓縮與解壓縮

基於哈夫曼編碼實現檔案壓縮是在學習資料結構（嚴蔚敏版）書中哈夫曼樹及其應用後對書中虛擬碼的實現和完善，採用哈夫曼靜態編碼的方式，通過對資料進行兩遍掃描，第一次統計出現的字元頻次，進而構造哈夫曼樹，第二遍掃描資料根據得到的哈夫曼樹對資料進行編碼。對於其中的

哈夫曼編碼實現檔案的壓縮和解壓

哈夫曼編碼的概念哈夫曼編碼是基於哈夫曼樹實現的一種檔案壓縮方式。哈夫曼樹：一種帶權路徑最短的最優二叉樹，每個葉子結點都有它的權值，離根節點越近，權值越小（根節點權值為0，往下隨深度增加依次加一），樹的帶權路徑等於各個葉子結點的數值與其權值的乘積和。哈夫曼樹如圖：從圖中我們可以看出

哈夫曼編碼應用之實現檔案壓縮

背景：為了鍛鍊自己的程式碼能力，以及資料結構演算法掌握的能力，做此專案來鍛鍊自己提高自己的能力，本專案運用了C++中的知識，比如模板類，仿函式等等，還用到了資料結構中的演算法知識，比如建堆調堆、哈夫曼編碼，還用到了檔案操作的知識。總是試一次很好的訓練。介紹一下哈夫曼編碼：

C++實現哈夫曼編碼--使用哈夫曼編碼樹壓縮和解壓縮

壓縮就是位域的操作，假設A對應0000，B對應1111，則AB壓縮後為00001111即為0x0F，AB原本為2個位元組，壓縮後變為1個位元組。其它資料類似一樣的壓縮操作即可。解壓縮就是取出每一個位，如果是0，則走到哈夫曼編碼樹的左孩子，如果是1，

基於哈夫曼編碼完成的檔案壓縮及解壓

這幾天在較為認真的研究基於哈夫曼編碼的檔案壓縮及解壓，費了點時間，在這分享一下：這裡用鏈式結構，非順序表結構；檔案壓縮： 1.獲取檔案資訊（這裡採用TXT格式文字）； 2.壓縮檔案； 3.寫配置檔案（便於解壓時用，無非就是存放原檔案的索引之類的，比如說，檔案中某個字

GZIP壓縮原理分析（32）——第五章 Deflate演算法詳解（五23）動態哈夫曼編碼分析（12）構建哈夫曼樹（04）

*構建literal/length樹部落格http://www.cnblogs.com/esingchan/p/3958962.html中這樣說道：“ZIP之所以是通用壓縮，它實際上是針對位元組作為

GZIP壓縮原理分析（29）——第五章 Deflate演算法詳解（五20）動態哈夫曼編碼分析（09）構建哈夫曼樹（01）

現在已經完成了對字串“As mentioned above,there are many kinds of wireless systems other than cellular.”進行壓縮的第一步

GZIP壓縮原理分析（19）——第五章 Deflate演算法詳解（五10）演算法分析（04）格式說明（03）靜態哈夫曼編碼

靜態哈夫曼編碼（Compression with fixed Huffman codes），這部分內容只要看格式就好，出現在這裡的碼錶只是為了說明，細節此時可能不懂，但是後面會鋪開來講，不用擔心。

哈夫曼編碼壓縮,解壓,壓縮比,編碼表,儲存到檔案

//mian.c #include "FunctionReference.h" int main() { HuffmanTree HT; //哈夫曼樹 int sum; //統計的字元總數 int n;

GZIP壓縮原理分析（31）——第五章 Deflate演算法詳解（五22）動態哈夫曼編碼分析（11）構建哈夫曼樹（03）

*構建distance樹現在已經知道壓縮會在壓縮結果中儲存葉子節點深度資訊（即碼字長度）從而讓解壓方間接得到碼錶，但是問題來了，構造樹的資訊只包括碼字長度，可解壓方怎麼知道這個碼字長度是哪個原碼的（注意，“原碼”與“原始碼”的差別，前者是指原始資料，後者是指程式碼）？有什

GZIP壓縮原理分析（30）——第五章 Deflate演算法詳解（五21）動態哈夫曼編碼分析（10）構建哈夫曼樹（02）

*正規化哈夫曼編碼使用靜態哈夫曼編碼的編碼/解碼雙方同時擁有一張完全相同的碼錶，這張碼錶是事先規定好的，只要使用這種壓縮方式並且使用這種壓縮方式對應的靜態哈夫曼編碼，那麼壓縮方就照著碼錶壓縮，解碼方

通過哈夫曼編碼壓縮檔案

原理就是統計帶壓縮檔案字元頻率，構建哈夫曼樹，然後求哈夫曼編碼，將字元頻率(解壓的時候通過字元頻率建樹)和哈夫曼編碼寫入檔案，完成壓縮。壓縮程式碼： //獲取一個檔案的每個字元的頻率 void get_frequency(string filename, int frequency[2

利用哈夫曼編碼壓縮檔案

利用哈夫曼編碼壓縮解壓檔案1. 引言本文為大一下學期C語言課程的期末大作業，經過修改後釋出。文中要用到的測試檔案1.lst見連結: https://pan.baidu.com/s

哈夫曼編碼(Huffman coding)的那些事,(編碼技術介紹和程序實現)

信號 truct 依次 while 交換需要 .text 示例 system 前言　　哈夫曼編碼(Huffman coding)是一種可變長的前綴碼。哈夫曼編碼使用的算法是David A. Huffman還是在MIT的學生時提出的，並且在1952年發表了名為《

哈夫曼編碼壓縮解壓縮實現&不同型別檔案壓縮比的測試

壓縮原理及步驟&&壓縮比的計算

壓縮原理及步驟

壓縮的第一步：

壓縮第二步：

壓縮第三步：

壓縮比的計算

強調

考慮ascii碼外的其它語言

需要注意的地方

程式碼對不同型別文件的壓縮比測試情況

英語文章

樣例文件：西遊記英文節選

純漢語文件

程式程式碼

英語單詞文件

原始碼

壓縮程式原始檔 compress.cpp

解壓程式原始檔 compress.cpp

相關推薦