基於Huffman編碼的C語言解壓縮檔案程式

阿新 • • 發佈：2019-01-02

#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<math.h>
            //極大值用於生成Huffman樹
#define MAXSIZE 100000000
            //用於生成相應葉子節點Huffman編碼的二維字元陣列
typedef char* HCode;
            //Huffman樹節點
typedef struct node
{
    int weight;
    int data;
    int parent,lchild,rchild;
}Node;
            //count 葉子節點數的計算  sum_bit 記錄被壓縮檔案編碼後的編碼總長度
int sum_bit,count;
            //Huffman葉子節點，最多不過256個（以位元組為單位）
Node huffmanNode[260];
            //解壓縮的時候記錄每次讀取到編碼（0....1..）
int num[8];
            //對應詞頻資訊表的資訊，用ASCII值表示
int code[260];
           //二維字元陣列
HCode *HC;
            //統計詞頻時用於查詢是否已經記錄過,記錄過的話返回下標，沒有則返回0
int isInNode(int value)
{
    int i = 1;
    for(;i<=count;i++)
    {
        if(huffmanNode[i].data == value)
        {
            return i;
        }
    }
    return 0;
}
            //獲取檔案詞頻，記錄在Node huffmanNode[260]的節點陣列當中
void  calWeight(char *file)
{
    count = 0;
    FILE *f;
    int a;
            //以二進位制方式開啟檔案，為了讀取到換行符
    f = fopen(file,"rb");
    if(f == NULL)
    {
        printf("檔案不存在！開啟失敗！");
        return ;
    }
    while(!feof(f))
    {
        a = fgetc(f);
        if(a==EOF) break;
        if(!isInNode(a))   //count從1開始計數
        {
            count++;
            huffmanNode[count].weight = 1;
            huffmanNode[count].data   = a;
        }
        else
        {
            int i = isInNode(a);
            huffmanNode[i].weight++;
        }
    }
    fclose(f);
}


/*得到待壓縮檔案的總位元組數，權值為幾就代表著有多少個位元組*/
int getSumBytes()
{
    int i=1;
    int result = 0;
    for(;i<=count;i++)
    {
        result +=huffmanNode[i].weight;
    }
    return result;
}

//獲取壓縮後文件的總bit數
int getSumBits()
{
    int i = 1;
    int result = 0;
    for(;i<=count;i++)
    {
        result+=huffmanNode[i].weight * strlen(HC[i]);
    }
    return result;
}

            //建立huffman樹 根據huffman樹的特性,具有n個節點的huffman樹的具有2n-1個節點
            //n值由全域性變數count值來確定，該函式主要用來初始化Huffman樹的所有節點資訊
void  createHufmanTree(Node * huffmanTree)
{
    int m = 2*count - 1;
    int m1,m2,x1,x2,i,j;
            //初始化結點資訊，從1--count這count個節點資訊為葉子節點的資訊
    for(i=1;i<=count;i++)
    {

        huffmanTree[i].data = huffmanNode[i].data;
        huffmanTree[i].lchild = -1;
        huffmanTree[i].rchild = -1;
        huffmanTree[i].parent = -1;
        huffmanTree[i].weight = huffmanNode[i].weight;
    }
            //從count---2*count-1這些節點首先初始化為空
    for(;i<=m;i++)
    {
        huffmanTree[i].data = 0;    huffmanTree[i].weight = 0;
        huffmanTree[i].lchild = -1; huffmanTree[i].rchild = -1;
        huffmanTree[i].parent = -1;
    }
            //構造huffman樹，按照huffman樹構建原理
    for(i=count+1;i<=m;i++)
    {
        /*m2,m1分別儲存倒數第二小的權值和倒數第一小的權值
          x2,x1分別儲存倒數第二小的下標和倒數第一小的下標*/
        m1 = m2 = MAXSIZE;
        x1 = x2 = 0;
        for(j=1;j<i;j++)
        {
            if(huffmanTree[j].parent == -1&&huffmanTree[j].weight <m1)
            {
                m2 = m1;                    x2 = x1;
                m1 = huffmanTree[j].weight; x1 = j;
            }
            else if(huffmanTree[j].parent == -1&&huffmanTree[j].weight<m2)
            {
                m2 = huffmanTree[j].weight;
                x2 = j;
            }

        }
         /*合併成一顆新的樹*/
            huffmanTree[x1].parent = i; huffmanTree[x2].parent = i;
            huffmanTree[i].lchild = x1; huffmanTree[i].rchild = x2;
            huffmanTree[i].weight = m1+m2;
    }
}

/*字元編碼，從構建好的Huffman樹當中讀取每個葉子節點的huffman編碼，並將葉子節點的資訊放入到code[]中*/
HCode * getHuffmanCode(Node * huffmanTree,HCode *HC,int code[])
{
    int i = 1,c,start,f;
    //構造了字元編碼的字元陣列共有count+1個 通過讀取一個複製一個的方式完成編碼獲取

    char * cd = (char *)malloc((count+1)*sizeof(char));
    //還是這個問題的
    cd[count] = '\0';
    for(;i<=count;i++)
    {
        start = count;
        for(c=i,f=huffmanTree[i].parent;f!=-1;c=f,f=huffmanTree[f].parent)
        {
            if(huffmanTree[f].lchild == c)  cd[--start] = '0';
            else cd[--start] = '1';
        }
        //為每個字元陣列分配相應的數量 由於範圍的問題要仔細考慮的
        HC[i] = (char *)malloc((count+1-start)*sizeof(char));
        //引數均為char *
        strcpy(HC[i],&cd[start]);
        code[i] = huffmanTree[i].data;
    }
    return HC;
}
  /*
  將編碼表寫入預設檔案當中,並在結尾存入葉子節點數（count）與壓縮後文件的總bit數
   1111000  27
   ...........
   ...........
   #sum_bit##count#
  */
void freToFile(int code[],HCode *HC)
{
    int i;
    //開啟預設檔案
    FILE *fe = fopen("C:\\dic.txt","wb");
    //將編碼資訊和葉子節點資訊寫入詞典
    for(i=1;i<=count;i++)
    {
      fprintf(fe,"%s %d\n",HC[i],code[i]);
    }
    char c = '#';
    //寫入sum_bit
    fprintf(fe,"%c",c);
    fprintf(fe,"%d",getSumBits());
    fprintf(fe,"%c",c);
    //寫入count
    fprintf(fe,"%c",c);
    fprintf(fe,"%d",count);
    fprintf(fe,"%c",c);

    fclose(fe);
}
//由於詞頻表是按照字串方式儲存的葉子節點資訊,讀取出來的字串需要轉換成int值再使用
//其中需要使用pow函式，由於pow函式有精度損失，自己寫了一個使用
int powmy(int a,int b)
{
    if(b==0) return 1;
    int i = 0;
    int result = 1;
    for(;i<b;i++)
    {
        result *=a;
    }
    return result;
}

/*從編碼表檔案讀取相應資訊以用來解壓檔案，讀取資訊包括編碼和葉子資訊*/
HCode* freFromFile(int code[],HCode *HC)
{
    int i;
    FILE *fe = fopen("C:\\dic.txt","rb");
    if(fe==NULL)
    {
        printf("詞典檔案不存在！");
        return NULL;
    }
        int k;
        int num[10];
        int m;
        int flag = 0;
        char * cd = (char *)malloc((256+1)*sizeof(char));
        //讀取一個位元組
        char c = fgetc(fe);
        for(i=1;flag!=1;i++)
        {
            //如果讀取到#號鍵，就跳出迴圈，繼續讀取sum_bit和count值
            if(c=='#') break;
            //每一行的讀取直到讀到空格，然後就完成了一條huffman編碼的讀取
            int j = 0;
            while(c!=' ')
            {
                cd[j++] = c;
                c = fgetc(fe);
            }
            cd[j] = '\0';

            //將讀取到的huffman編碼存入相應的二維字元陣列當中去
            HC[i] = (char *)malloc((j+1)*sizeof(char));
            strcpy(HC[i],&cd[0]);
            //下面直到讀取到空格鍵為止，讀取huffman葉子節點資訊，讀取到的是字元，需要轉換成int值
            c = fgetc(fe);

            k = 0;
            while(c!='\n')
            {
                num[k++] = c-'0';
                c = fgetc(fe);
            }
            code[i] = 0;
            m = 0;
            //轉換成int值，存入code[]陣列當中
            for(k=k-1;k>=0;k--)
            {
                code[i]+=num[k]*powmy(10,m);
                m++;
            }
            //繼續向下讀取
            c = fgetc(fe);
        }
        //獲取壓縮檔案的總bit數，以用來判斷最後一次讀取的是不是足夠8位
        c = fgetc(fe);
        k = 0;
        while(c!='#')
        {
            num[k++] = c-'0';
            c = fgetc(fe);
        }
        //同樣將讀取到的char轉換成int
        m = 0;
        sum_bit = 0;
        for(k=k-1;k>=0;k--)
        {
            sum_bit+=(num[k]*powmy(10,m));
            m = m + 1;
        }

        c = fgetc(fe);  c = fgetc(fe);//頭一個讀取#，後一個才開始讀取資料
        k = 0;
        while(c!='#')
        {
            num[k++] = c-'0';
            c = fgetc(fe);
        }
        //將讀取到的char轉換成int
        m = 0;  count = 0;
        for(k=k-1;k>=0;k--)
        {
            count+=num[k]*pow(10,m);
            m++;
        }
        fclose(fe);
        return HC;
}


/*壓縮檔案*/
void compress_file(char* file1,char*file2)
{
    int i,sum = 0,flag = 0,j,k = 0;
    //陣列開設的不夠大是最後的一個bug的成因，因為有可能這個Huffman編碼很長很長
    int eight[1000];
    memset(eight,0,1000*sizeof(int));
    FILE *fo = fopen(file1,"rb");
    FILE *fw = fopen(file2,"wb");
    if(fo == NULL||fw == NULL)
    {
        printf("檔案讀取失敗！");
        return;
    }
    //統計已經壓縮的位元組總數，用於計算壓縮百分比
    int aa = 0;
    int sum_bytes = getSumBytes();
    while(!feof(fo))
    {
        sum = 0;
        int a = fgetc(fo);
        //每次讀取一個位元組就+1
        aa++;
        //讀取了一個位元組之後就與編碼表進行比較，查詢對應的編碼
        for(i=1;i<=count;i++)
        {
            if(code[i] == a)
            {
                //flag作為計數器，當湊夠8位之後就作為一個位元組寫入壓縮檔案
                flag+=strlen(HC[i]);
                int len = strlen(HC[i]);
                //flag 小於8的時候繼續累加，直到湊夠8個
                if(flag<8)
                {
                    for(j=0;j<len;j++)
                    eight[k++] = HC[i][j]-'0';/*我們儲存的是字串，是多少就是多少*/
                }
                //當flag>=8的時候，將8位寫進壓縮檔案，同時將剩餘的沒有寫入的huffman編碼重新移到
                //eight【】陣列前面去，同時修改flag
                else if(flag>=8)
                {
                    //將匹配到的huffman編碼寫進8位陣列，直到k值為8，k值始終代表現在eight【】陣列的長度
                    for(j=0;k<8;j++)
                      eight[k++] = HC[i][j]-'0';
                    //將匹配到的huffman編碼的沒有完全寫進去的新增到後面。
                    for(;j<len;j++)
                      eight[k++] = HC[i][j]-'0';
                    //計算8位對應的int值，寫入檔案
                    sum+=eight[0]*128+eight[1]*64+eight[2]*32+eight[3]*16+eight[4]*8
                        +eight[5]*4+eight[6]*2+eight[7]*1;
                    //前8為置0
                    for(j=0;j<8;j++)
                       eight[j] = 0;
                    //將後面的移植到前面去
                    for(j=8;j<k;j++)
                      eight[j-8] = eight[j];
                    //重置flag與k
                    k = flag = j-8;
                    //寫進檔案
                    char c = sum;
                    fputc(c,fw);

                    if(aa%1000==0)
                    {
                        printf("\r正在進行壓縮，請稍等……%6.2f%%",(double)aa/sum_bytes*100.0);
                    }
                    fflush(fw);
                    i = count+1;
                }
            }
        }
    }
    aa = sum_bytes;
    printf("\r正在進行壓縮，請稍等……%6.2f%%",(double)aa/sum_bytes*100.0);
    printf("壓縮成功！");
    /*考慮到最後可能沒有湊夠八位的情況*/
    if(flag)
    {
        sum+=eight[0]*128+eight[1]*64+eight[2]*32+eight[3]*16+eight[4]*8
                        +eight[5]*4+eight[6]*2+eight[7]*1;
        char c = sum;
        fputc(c,fw);
        sum_bit +=flag;
        fflush(fw);
    }
    fclose(fw);
    fclose(fo);
}

/*用於在解壓的時候將讀取到的ASCII碼轉換為二進位制數*/
int  swap(int data)
{
    int i = 0;
    while(data)
    {
        num[i++] = data%2;
        data = data/2;
    }
    return i;
}

/*進行檔案的解壓*/
void uncompress_file(char* file1,char* file2)
{

    FILE *fo = fopen(file1,"rb");
    FILE *fw = fopen(file2,"wb");
    if(fo==NULL ||fw == NULL)
    {
        printf("檔案開啟失敗！");
        return;
    }
    char str[1000];
    int i,j,k,temp = 0;
    int index;
    int sum_bit2 = sum_bit;
    //直到讀取到檔案結尾
    while(!feof(fo))
    {
       if(sum_bit2<0) break;
       //讀取一次，減去8位
       sum_bit2 -=8;
       int data = fgetc(fo);
       if(data == -1) break;
       //index用來在sum_bit2小於0的時候設定讀取為位數（也就是說最後不用讀取8位了）
       if(sum_bit2<0)
       {
            index = 0-sum_bit2;
       }
       else
       {
           index = 0;
       }
       if(data == -1) break;
       memset(num,0,sizeof(num));
       //將讀取到的data轉換成二進位制數
       swap(data);
       i = temp;
       //將轉換後的二進位制數變為字串，注意順序
       //是一位一位的往裡面填，填進去一位立即進行比較，當找到相應的資訊就調出來
       for(k=7;k>=index;i++,k--)
       {
           if(num[k])
              str[i] = '1';
            else
              str[i] = '0';

           str[i+1] ='\0';
           //查詢編碼表當中與該字串（編碼）相同的資訊，然後將葉子資訊寫入解壓檔案
           for(j=1;j<=count;j++)
           {
               if(strcmp(str,HC[j])==0)
               {
                    //將葉子資訊寫入到檔案（寫入的是int值，是該int值表示的字元）
                    fputc(code[j],fw);
                    if((sum_bit-sum_bit2)%1500==0)
                    {
                        printf("\r檔案正在解壓中,請耐心等待……%6.2f%%",(double)(sum_bit-sum_bit2)/sum_bit*100.0);
                    }

                    fflush(fw);
                    j = count+1;
                    i = -1;
               }
           }
       }
       if(i)
       {
            temp = i;
       }
       else
       {
            temp = 0;
       }
    }
    sum_bit2 = 0;
    printf("\r檔案正在解壓中,請耐心等待……%6.2f%%",(double)(sum_bit-sum_bit2)/sum_bit*100.0);
    printf("解壓成功！");
    fclose(fw);
    fclose(fo);
}

int main(int argc, char **argv)
{
   if(strcmp(argv[1],"-c")==0)
    {
                //獲取檔案的詞頻
        calWeight(argv[2]);
                //申請Huffman樹的記憶體，已經獲得葉子節點數，根據節點總數與葉子節點數的關係分配記憶體
        Node *huffmanTree = (Node *)malloc((2*count-1+1)*sizeof(Node));
                //建立Huffman樹
        createHufmanTree(huffmanTree);
                //為Huffman編碼表申請一個二維的字元陣列指標
        HC = (HCode *)malloc((count+1)*sizeof(HCode));
                //向指標賦值，getHuffmanCode()函式返回編碼表
        HC = getHuffmanCode(huffmanTree,HC,code);
                //根據編碼表HC和編碼對應的data表code壓縮檔案
        compress_file(argv[2],argv[3]);
                //將編碼存入到預設的編碼表當中（C:\\dic.txt）
        freToFile(code,HC);
    }
    else if(strcmp(argv[1],"-u")==0)
	{
                //為編碼表分配記憶體，由於不知道葉子節點數，分配257
       HC = (HCode *)malloc(257*sizeof(HCode));
                //從詞頻表當中獲取編碼
       HC = freFromFile(code,HC);
                //根據編碼表和data表解壓檔案
       uncompress_file(argv[2],argv[3]);
	}
    return 0;
}

基於Huffman編碼的C語言解壓縮檔案程式

#include<stdio.h> #include<stdlib.h> #include<string.h> #include<math.h> //極大值用於生成Huffman樹 #define MA

基於RTOS的c語言實現http檔案上傳

本實驗為了減少程式碼量，使用了封裝比較完善的http庫，本文主要講述http檔案上傳的主要要求。一、分析http關鍵頭部資訊為了分析http header，我們通過chrome得到上傳檔案時的http資訊: 通過上面的截圖我們可以發現，關鍵頭部

基於Huffman編碼的檔案壓縮

檔案壓縮有很多種演算法本文介紹的是基於Huffman演算法的檔案壓縮對於Huffman壓縮最重要的就是建立Huffman樹與重建Huffman樹，本文對如何建立Huffman樹不做重點討論首先將原始檔遍歷一遍統計其中每個字元出現的次數並將其儲存在下面的

Huffman編碼壓縮解壓縮檔案

採用了哈弗曼編碼和優先佇列（最小堆）實現標頭檔案 #ifndef HUFFMAN_H_INCLUDED #define HUFFMAN_H_INCLUDED #include "stdio.h" #include "stdlib.h" #include "string.h

[原始碼和報告分享]基於C語言實現的檔案系統

2 需求說明 2.1 基本要求 l 設計並實現一個目錄列表函式（無須支援選項，如ls -a、ls -l等），用來顯示當前目錄下包含的檔案資訊 l 設計並實現一個改變目錄函式（無須處理路徑名，如../../directoryName等），用來把當前目錄切換

linux中C語言標頭檔案詳解

linux中C程式標頭檔案的種類一類：#include<stdio.h> stdio.h檔案就在/usr/include目錄下二類：#include<arpa/inet.h> arpa/是/usr/include目錄下的子目錄，inet.h其實是/usr/include

[原始碼和文件分享]基於C語言的簡單檔案系統的實現

1 題目介紹通過具體的檔案儲存空間的管理、檔案物理結構、目錄結構和檔案操作的實現，加深對檔案系統內部的資料結構、功能以及實現過程的理解。 1.1 要求在記憶體中開闢一個虛擬磁碟空間作為檔案儲存分割槽，在其上實現一個簡單的基於多級目錄的單使用者單任務系統中的檔案系統。在推出該檔

http報文中chunked分塊編碼傳輸格式分析及c語言解壓實現

前面有一篇文章是關於使用zlib庫函式解壓以gzip壓縮方式傳輸的http報文。裡面提到了chunked分塊傳輸格式，現在由於專案需要，做了這部分的研究，現在把成果記錄下來。首先介紹一下chunked分塊傳輸格式。對於一般的http報文，使用Content-

C語言標頭檔案詳解

1. GCC編譯時問題在由多個C語言檔案組成的程式中，對於標頭檔案的管理非常重要。標頭檔案提供給使用者一個介面，使用者從中可以知道可以呼叫哪些函式，實現哪些功能，而不必去管這些功能的具體實現。因此，寫好標頭檔案是非常關鍵的。在標頭檔案中，最常見的問題是"標頭檔案的重複包含"。其意思是同一標頭

基於C語言的BMP檔案格式轉換

//將bmp圖片檔案保存於1.bmp中，若圖片是bmp檔案，則在out.bmp檔案中可以看到，若不是，則在out.bmp中顯示開啟失敗。//識別乒乓球#include<stdio.h>#include<stdlib.h>//此bmp檔案影象深度要求24

PCM WAVE格式詳解及用C語言實現wave檔案的讀取

1.PCM Wave格式詳解 WAVE檔案格式是微軟RIFF(Resource Interchange File Format,資源交換檔案標準)的一種，是針對於多媒體檔案儲存的一種檔案格式和標準。一般而言，RIFF檔案由檔案頭和資料兩部分組成，一個WAVE檔案由一個“WAVE”資料塊組成，這個“WAV

基於Huffman編碼的壓縮軟體的Python實現

哈夫曼編碼是利用貪心演算法進行文字壓縮的演算法，其演算法思想是首先統計檔案中各字元出現的次數，儲存到陣列中，然後將各字元按照次數升序排序，挑選次數最小的兩個元素進行連結形成子樹，子樹的次數等於兩節點的次數之和，接著把兩個元素從陣列刪除，將子樹放入陣列，重新排序，重複以上步

C語言讀取JSON檔案

用來讀取json檔案並賦值給物件,使用了cJSON typedef struct { cJSON *url; char path[100]; char app_name[100]; } Enter; int main(){ FILE *

C語言簡單實現檔案分塊

C語言簡單實現檔案分塊模組1：分割檔案指定目標輸入檔案（檔名或檔案路徑）和分割尺寸，要求分割尺寸（單位：MB）為正整數，且範圍在[MIN_SIZE, MAX_SIZE]。分割後產生塊檔案，命名格式為“part_”+編號。模組2：合併檔案指定目標輸出檔案（檔名或檔案路徑）。順序

C語言標頭檔案stdlib.h裡面有什麼函式

主要含有的內容方向： A.字串轉換 B. 隨機數 C.記憶體管理 D.與環境的介面 E.查詢與排序 F.整數運算 G.多位元組字元 … 友情連結：（1）關於 stdio.h 和 stdlib.h 包含的函式 https://blogG…csdn.net/weixin_42513339/

linux下解壓縮檔案中文亂碼問題的解決

在windows上壓縮的檔案，是以系統預設編碼中文來壓縮檔案。由於zip檔案中沒有宣告其編碼，所以linux上的unzip一般以預設編碼解壓，中文檔名會出現亂碼。雖然2005年就有人把這報告為bug, 但是info-zip的官方網站沒有把自動識別編碼列入計劃，可能他們不認為這是個問題。Sun對java中存在

c語言標頭檔案以及make注意事項

c語言標頭檔案以及make注意事項標頭檔案說明：自己定義的標頭檔案和專案檔案放在一起，注意使用""而不是使用<>，系統的標頭檔案才使用<> 當main函式要呼叫其他函式的時候在編譯的時候需要將其他的c檔案也一起編譯 gcc main.c test.c make

C語言標頭檔案的定義

每個C++/C程式通常由標頭檔案(header files)和定義檔案(definition files)組成。標頭檔案作為一種包含功能函式、資料介面宣告的載體檔案，主要用於儲存程式的宣告(declaration)，而定義檔案用於儲存程式的實現 (implementation)。 .c就是你寫的程式

C語言遍歷檔案

原文：https://www.cnblogs.com/collectionne/p/6815924.html 程式程式碼遍歷目錄下的所有檔案 #include <iostream> #include <cstring> //

C語言-讀寫檔案I/O

C語言讀寫檔案的步驟一般是：建立或開啟檔案 > 讀或寫檔案 > 關閉檔案當然讀或寫的過程中還可以通過操作當前檔案偏移量來控制讀寫位置。下面分別介紹這些函式。標頭檔案： #include <fcntl.h> //此標頭檔案定義了以下oflag O_RDO

基於Huffman編碼的C語言解壓縮檔案程式

相關推薦