基於Huffman編碼的檔案壓縮

阿新 • • 發佈：2019-01-04

檔案壓縮有很多種演算法本文介紹的是基於Huffman演算法的檔案壓縮
對於Huffman壓縮最重要的就是建立Huffman樹與重建Huffman樹，本文對如何建立Huffman樹不做重點討論
首先將原始檔遍歷一遍統計其中每個字元出現的次數並將其儲存在下面的結構體中

struct FileInfo
{
    FileInfo(unsigned char ch = char())
        :_ch(ch)
        , _count(0)
    {}

    FileInfo& operator=(const FileInfo& x)
    {
        this 
->coding = x.coding;
        this->_ch = x._ch;
        this->_count = x._count;
        return *this;
    }

    bool operator==(const FileInfo& x)const
    {
        return !(*this != x);
    }

    bool operator!=(const FileInfo& x)const
    {
        return this->_count != x._count;
    }

    unsigned 
 char _ch; //出現的字元 
    long long _count;  //該字元出現的次數
    string coding;     //該字元的Huffman編碼
};


FileInfo operator+(const FileInfo& left, const FileInfo& right)
{
    FileInfo ret;
    ret._count = left._count + right._count;
    return ret;
}

bool operator<(const FileInfo& left, const FileInfo& right)
{
    return 
 left._count < right._count;
}

檔案壓縮的類

class CompressedFile
{
public:
    CompressedFile()//建構函式
    {
        for (size_t i = 0; i < 256; i++)
        {
            _FileInfo[i]._ch = i;
        }
    }
    void Compressed(string& readname);//壓縮函式
    void UnCompressed(const string& readname);//解壓函式

private:
    FileInfo _FileInfo[256];//檔案中總共可能出現256種字元
};

壓縮檔案

void Compressed(string& readname)
    {
        FILE* readfile = fopen(readname.c_str(), "rb");
        assert(readfile);

        unsigned char* readstr = new unsigned char[1024];
        size_t readcount = 0;
        readcount = fread(readstr, 1, 1024, readfile);  //每次讀1kb的資料減少不必要的I/O次數一提高效率
        while (readcount != 0)
        {
            for (size_t i = 0; i < readcount; i++)
            {
                _FileInfo[readstr[i]]._count++;        //統計每個字元出現的次數
            }
            readcount = fread(readstr, 1, 1024, readfile);
        }

        FileInfo invalue;
        HuffmanTree<FileInfo> ht(_FileInfo, 256, invalue);       //建立Huffman樹
        Coding(ht)；                                             //建立Huffman編碼
        fseek(readfile, 0, SEEK_SET);                            //是檔案指標回到檔案頭重新遍歷檔案

        string FileHead = GetPost(readname);                     //將編碼的資訊與原始檔的字尾寫在檔案頭

        string CompressedFileName = readname.substr(0, readname.find_last_of('.'));
        CompressedFileName += ".huf";

        FileHead += '\n';

        size_t valuecount = 0;
        string strvalue;

        for (size_t i = 0; i < 256; i++)
        {
            if (_FileInfo[i]._count)
            {
                string ptmp;
                char strptmp[20] = { 0 };
                ptmp += _FileInfo[i]._ch;
                ptmp += ',';
                _i64toa(_FileInfo[i]._count, strptmp, 10);
                ptmp += strptmp;
                ptmp += '\n';
                strvalue += ptmp;
                valuecount++;
            }
        }

        char  str[10] = { 0 };
        _itoa(valuecount, str, 10);

        FileHead += str;
        FileHead += '\n';
        FileHead += strvalue;

        FILE* writefile = fopen(CompressedFileName.c_str(), "wb");
        assert(writefile);

        fwrite(FileHead.c_str(),1,FileHead.length(),writefile);
        char* writestr = new char[1024];
        size_t writecount = 0;
        size_t idx = 0;                                       //一次寫八位用idx來標記
        char value = 0;                                       //要寫入的值
        readcount = fread(readstr, 1, 1024, readfile);
        HuffmanNode<FileInfo>* _root = ht.GetRoot();
        long long weight = _root->_weight._count / 1024;
        long long arv = weight / 100;
        long long k = 0;
        char __arr[102] = { 0 };
        while (readcount)
        {
            k++;
            if (k == arv)
            {
                cout << '*';                                 //模擬實現簡單的進度條
                k = 0;
            }
            for (size_t i = 0; i < readcount; i++)
            {
                string coding = _FileInfo[readstr[i]].coding;

                for (size_t j = 0; j < coding.length(); ++j)
                {
                    value <<= 1;
                    if (coding[j] == '1')
                        value |= 1;

                    if (++idx == 8)                               //將idx value 清零
                    {
                        writestr[writecount++] = value;
                        if (writecount == 1024)
                        {
                            fwrite(writestr, 1, 1024, writefile);
                            writecount = 0;
                        }
                        idx = 0;
                        value = 0;
                    }
                }
            }

            readcount = fread(readstr, 1, 1024, readfile);
        }

        if (idx)                                     //迴圈退出時該位元組沒有寫滿將其高位補齊
        {
            value <<= (8 - idx);
            writestr[writecount++] = value;
        }

        if (writecount)
        {
            fwrite(writestr, 1, writecount, writefile);
        }

        delete[] readstr;
        delete[] writestr;
        fclose(readfile);
        fclose(writefile);  
    }


void Coding(HuffmanTree<FileInfo>& ht)
    {
        HuffmanNode<FileInfo>* root = ht.GetRoot();
        size_t count = 0;
        GetLeaf(root, count);                                 //只對葉子節點進行編碼
        cout << "有效字元個數為count = " << count << endl;
    }

    void GetLeaf(HuffmanNode<FileInfo>* root, size_t& count)
    {
        if (root)
        {
            GetLeaf(root->_pLeft, count);
            GetLeaf(root->_pRight, count);

            if (root->_pLeft == NULL && root->_pRight == NULL)
            {
                count++;
                HuffmanNode<FileInfo>* child = root;
                HuffmanNode<FileInfo>* parent = child->_pParent;
                string& coding = _FileInfo[root->_weight._ch].coding;

                while (parent)                                        //找到葉子節點後記錄從其到根的路徑
                {
                    if (child == parent->_pLeft)
                    {
                        coding += '0';                                //約定是雙親的左孩子寫入字元0
                    }
                    else
                    {
                        coding += '1';                               //約定是雙親的右孩子寫入字元1
                    }

                    child = parent;
                    parent = child->_pParent;
                }

                reverse(coding.begin(), coding.end());             //因為是從葉子到根進行遍歷所一要將其逆置
            }
        }
    }

解壓檔案

void UnCompressed(const string& readname)
    {
        FILE* readfile = fopen(readname.c_str(), "rb");
        assert(readfile);

        string writename = readname.substr(0, readname.find_last_of('.'));  //首先讀到原始檔的字尾
        string strptmmp;
        GetLine(readfile, strptmmp);
        if (strptmmp.length())
        {
            writename += strptmmp;
        }

        int num = 0;
        strptmmp = "";
        GetLine(readfile,strptmmp);
        if (strptmmp.length())
        {
            num = atoi(strptmmp.c_str());
        }

        for (int i = 0; i < num; ++i)
        {

            strptmmp = "";
            GetLine(readfile,strptmmp);
            unsigned char ch = strptmmp[0];                        //必須強制裝換為無符號型不然出現負數，負數作為下標會導致程式崩潰，但是本程式會在這裡奔潰會在本函式退出是崩潰除錯了好長時間都沒有注意到
            _FileInfo[ch]._count = atoi(strptmmp.c_str()+2);       //獲取原始檔裡每個字元出現的次數
        }

        FILE* writefile = fopen(writename.c_str(), "wb");
        assert(writefile);

        FileInfo invalue;
        HuffmanTree<FileInfo> ht(_FileInfo, 256, invalue);     //根據讀到的原始檔裡的每個字元出現的次數重建Huffman樹
        HuffmanNode<FileInfo>* _root = ht.GetRoot();

        unsigned char* readstr = new unsigned char[1024];
        unsigned char* writestr = new unsigned char[1024];
        size_t writecount = 0;
        unsigned char ch;
        int pos = 7;                                      //標記該字元的每一位對其每一位進行處理
        long long filesize = _root->_weight._count;
        HuffmanNode<FileInfo> * root = _root;

        size_t readcount = fread(readstr, 1, 1024, readfile);
        while (readcount)
        {
            for (size_t i = 0; i < readcount;)
            {
                ch = readstr[i];

                while (NULL != root->_pLeft || NULL != root->_pRight)                 //找到葉子節點其中的字元就是要寫入的字元
                {
                    if (ch & (1 << pos--))
                        root = root->_pRight;                        
                    else
                        root = root->_pLeft;
                    if (pos < 0)
                    {
                        pos = 7;
                        ch = readstr[++i];
                        break;
                    }
                }

                if (NULL == root->_pLeft && NULL == root->_pRight)
                {
                    writestr[writecount++] = root->_weight._ch;
                    filesize--;
                    root = _root;
                    if (0 == filesize)                              //已經寫入了和原始檔大小相等的字元數退出該程式
                    {
                        fwrite(writestr, 1, writecount, writefile);
                        return;
                    }

                    if (1024 == writecount)
                    {
                        fwrite(writestr, 1, 1024, writefile);
                        writecount = 0;
                    }
                }
            }

            readcount = fread(readstr, 1, 1024, readfile);
        }
    }
void GetLine(FILE* fp,string& line)  //一次讀取一行
    {
        char first;
        if (!feof(fp))
        {
            first = fgetc(fp);
            line += first;
        }
        while (!feof(fp))
        {
            char ch = fgetc(fp);
            if (ch != '\n')
            {
                line += ch;
            }
            else
            {
                break;
            }
        }

Huffman編碼檔案壓縮

【問題描述】編寫一程式採用Huffman編碼對一個正文檔案進行壓縮。具體壓縮方法如下： 1. 對正文檔案中字元(換行字元'\'除外，不統計)按出現次數（即頻率）進行統計 2. 依據字元頻率生成相應的Huffman樹（未出現的字元不生成） 3. 依據Hu

基於Huffman編碼的壓縮軟體的Python實現

哈夫曼編碼是利用貪心演算法進行文字壓縮的演算法，其演算法思想是首先統計檔案中各字元出現的次數，儲存到陣列中，然後將各字元按照次數升序排序，挑選次數最小的兩個元素進行連結形成子樹，子樹的次數等於兩節點的次數之和，接著把兩個元素從陣列刪除，將子樹放入陣列，重新排序，重複以上步

基於Huffman編碼的C語言解壓縮檔案程式

#include<stdio.h> #include<stdlib.h> #include<string.h> #include<math.h> //極大值用於生成Huffman樹 #define MA

基於Huffman編碼的檔案壓縮

檔案壓縮有很多種演算法本文介紹的是基於Huffman演算法的檔案壓縮對於Huffman壓縮最重要的就是建立Huffman樹與重建Huffman樹，本文對如何建立Huffman樹不做重點討論首先將原始檔遍歷一遍統計其中每個字元出現的次數並將其儲存在下面的

Huffman編碼實現壓縮、解壓檔案

Huffman編碼：根據詞頻構建Huffman樹，實現對文字的字首編碼。 1、統計文字中每個字元出現的次數，放入優先佇列中，構建一棵空的二叉樹； 2、取出頻率最小的兩個字元a、b，字元a、b的頻率分別作為此二叉樹的左右結點，左結點的編號為1，右結點的編號為0，其頻率之和（f

利用huffman編碼實現壓縮檔案

　哈夫曼是一種常用的壓縮方法。是1952年為文字檔案建立的，其基本原理是頻繁使用的資料用較短的程式碼代替，很少使用的資料用較長的程式碼代替，每個資料的程式碼各不相同。這些程式碼都是二進位制碼，且碼的長度是可變的。如: 有一個原始資料序列，ABACCDAA則編碼為A(0

C++實現霍夫曼編碼檔案壓縮解壓

演算法設計與分析作業，程式碼如下： #include <iostream> #include <map> #include <limits.h> #include <iterator> #include &l

Huffman編碼實現壓縮解壓縮

這是我們的課程中佈置的作業，找一些資料將作業完成，順便將其寫到部落格，以後看起來也方便。原理介紹什麼是Huffman壓縮 Huffman( 哈夫曼 ) 演算法在上世紀五十年代初提出來了，它是一種無失真壓縮方法，在壓縮過程中不會丟失資訊熵，而且可

【c++】Huffman實現檔案壓縮

1.需求分析利用小堆，huffman編碼，檔案流操作，二進位制檔案的讀寫實現對普通檔案的壓縮和解壓過程。 2.能力要求 A.熟悉對檔案的讀寫操作。 B.熟悉小堆的原理。 C.熟悉HuffmanTree的實現原理、 D.會編碼的獲取。 E.對編碼資訊處理和儲存。 F.最

基於哈夫曼編碼的文字檔案壓縮與解壓縮

基於哈夫曼編碼實現檔案壓縮是在學習資料結構（嚴蔚敏版）書中哈夫曼樹及其應用後對書中虛擬碼的實現和完善，採用哈夫曼靜態編碼的方式，通過對資料進行兩遍掃描，第一次統計出現的字元頻次，進而構造哈夫曼樹，第二遍掃描資料根據得到的哈夫曼樹對資料進行編碼。對於其中的

C++小專案 — 基於huffman壓縮演算法的檔案壓縮專案

先去讀配置檔案，構建huffman樹和huffman編碼，用壓縮檔案裡的編碼去huffman樹中查詢，找到對應的葉子結點. 就把葉子結點的字元寫入到解壓縮檔案中. 所以總結起來也就是那麼幾步： 1.讀取配置檔案，統計所有字元的個數. 2.構建huffman樹，讀解壓縮檔案，將所讀到的編碼字元的這個節

基於哈夫曼編碼完成的檔案壓縮及解壓

這幾天在較為認真的研究基於哈夫曼編碼的檔案壓縮及解壓，費了點時間，在這分享一下：這裡用鏈式結構，非順序表結構；檔案壓縮： 1.獲取檔案資訊（這裡採用TXT格式文字）； 2.壓縮檔案； 3.寫配置檔案（便於解壓時用，無非就是存放原檔案的索引之類的，比如說，檔案中某個字

基於Huffman樹的檔案壓縮原理及C語言實現（二）

在上文基於Huffman樹的檔案壓縮原理及C語言實現（一）中已經介紹並實現瞭如何建立Huffman樹，得到Huffman編碼，這篇我們將會接著說。如何通過Huffman樹，實現檔案壓縮。實現思路任何檔案都可以看作是由位元組組成的位元組塊，將位元組看作

Huffman編碼壓縮解壓縮檔案

採用了哈弗曼編碼和優先佇列（最小堆）實現標頭檔案 #ifndef HUFFMAN_H_INCLUDED #define HUFFMAN_H_INCLUDED #include "stdio.h" #include "stdlib.h" #include "string.h

資料結構————檔案壓縮（利用哈夫曼編碼實現）

檔案壓縮原理：首先檔案壓縮是通過HuffmaCode實現的、整體思路通過讀取檔案獲取字元出現頻率，通過字元出現頻率可以構建HuffmanTree，每個檔案中出現的字元通過HuffmanTree獲取HuffmanCode，從而將檔案中的字元同過HuffmanTree獲取相應編碼，並寫入壓

基於linux的檔案的歸檔與壓縮

檔案的歸檔 tar命令(下列中包含執行結果) # tar cf dir.tar /root/Desktop tar: Removing leading'/' f rom member names tar: / root /Desktop/dir.tar: file i

基於哈夫曼演算法的檔案壓縮軟體

資料結構課設（一）作業要求 1、設計並實現一個使用哈夫曼演算法對檔案進行壓縮的工具軟體。 2、通過命令列引數指定操作模式（壓縮/解壓）、原始檔名、目標檔名。 3、壓縮操作將原始檔按位元組讀入並統計位元組頻率，生成位元組的哈夫曼編碼，將編碼樹和用哈夫曼編碼對位元組重新編碼後的結果儲存

Huffman樹與檔案壓縮的原理

1、Huffman樹的簡單介紹以及帶權路徑長度的求解 Huffman樹，又稱為最優二叉樹，是加權路徑長度（weighted path length）最短的二叉樹。所謂樹的帶權路徑長度，就是樹中所有的葉結點的權值乘上其到根結點的路徑長度。

用Huffman樹實現檔案壓縮與解壓

用Huffman樹實現檔案的壓縮與解壓我們先來了解一下什麼是Huffman樹？我們平常所使用的Zip等壓縮工具都是藉助Huffman樹實現的，Huffman是一種特殊的二叉樹，它是一種加權路徑最短的二叉樹，因此也稱為最優二叉樹。（下面用一

利用DPCM&Huffman編碼實現資料壓縮_C語言實現

一、實驗原理 DPCM是差分預測編碼調製的縮寫，它利用過去的抽樣值來預測當前的抽樣值，對它們的差值進行編碼。差值編碼可以提高編碼頻率，這種技術已應用於模擬訊號的數字通訊之中。影象內的畫素值之間並非相互獨立，某一畫素與周圍畫素之間存在一定的關係，這一關係導致整

基於Huffman編碼的檔案壓縮

相關推薦