資料結構和演算法——Huffman樹和Huffman編碼

阿新 • • 發佈：2022-05-04

Huffman樹是一種特殊結構的二叉樹，由Huffman樹設計的二進位制字首編碼，也稱為Huffman編碼在通訊領域有著廣泛的應用。在word2vec模型中，在構建層次Softmax的過程中，也使用到了Huffman樹的知識。

在通訊中，需要將傳輸的文字轉換成二進位制的字串，假設傳輸的報文為：“AFTERDATAEARAREARTAREA”，現在需要對該報文進行編碼。

一、Huffman樹的基本概念

在二叉樹中有一些基本的概念，對於如下所示的二叉樹：

路徑

路徑是指在一棵樹中，從一個節點到另一個節點之間的分支構成的通路，如從節點8到節點1的路徑如下圖所示：

路徑長度

路徑長度指的是路徑上分支的數目，在上圖中，路徑長度為2。

節點的權

節點的權指的是為樹中的每一個節點賦予的一個非負的值，如上圖中每一個節點中的值。

節點的帶權路徑長度

節點的帶權路徑長度指的是從根節點到該節點之間的路徑長度與該節點權的乘積：如對於1節點的帶權路徑長度為：2。

樹的帶權路徑長度

樹的帶權路徑長度指的是所有葉子節點的帶權路徑長度之和。

有了如上的概念，對於Huffman樹，其定義為：

給定nn權值作為nn個葉子節點，構造一棵二叉樹，若這棵二叉樹的帶權路徑長度達到最小，則稱這樣的二叉樹為最優二叉樹，也稱為Huffman樹。

由以上的定義可以知道，Huffman樹是帶權路徑長度最小的二叉樹，對於上面的二叉樹，其構造完成的Huffman樹為：

二、Huffman樹的構建

由上述的Huffman樹可知：節點的權越小，其離樹的根節點越遠。那麼應該如何構建Huffman樹呢？以上述報文為例，首先需要統計出每個字元出現的次數作為節點的權:

接下來構建Huffman樹：

重複以下的步驟：
- 按照權值對每一個節點排序：D-F-T-E-R-A
- 選擇權值最小的兩個節點，此處為D和F生成新的節點，節點的權重為這兩個節點的權重之和，為2
直到只剩最後的根節點

按照上述的步驟，該報文的Huffman樹的生成過程為：

對於樹中節點的結構為：

#define LEN 512
struct huffman_node{
        char c;
        int weight;
        char huffman_code[LEN];
        huffman_node * left;
        huffman_node * right;
};

對於Huffman樹的構建過程為：

int huffman_tree_create(huffman_node *&root, map<char, int> &word){
        char line[MAX_LINE];
        vector<huffman_node *> huffman_tree_node;

        map<char, int>::iterator it_t;
        for (it_t = word.begin(); it_t != word.end(); it_t++){
                // 為每一個節點申請空間
                huffman_node *node = (huffman_node *)malloc(sizeof(huffman_node));
                node->c = it_t->first;
                node->weight = it_t->second;
                node->left = NULL;
                node->right = NULL;
                huffman_tree_node.push_back(node);
        }


        // 開始從葉節點開始構建Huffman樹
        while (huffman_tree_node.size() > 0){
                // 按照weight升序排序
                sort(huffman_tree_node.begin(), huffman_tree_node.end(), sort_by_weight);
                // 取出前兩個節點
                if (huffman_tree_node.size() == 1){// 只有一個根結點
                        root = huffman_tree_node[0];
                        huffman_tree_node.erase(huffman_tree_node.begin());
                }else{
                        // 取出前兩個
                        huffman_node *node_1 = huffman_tree_node[0];
                        huffman_node *node_2 = huffman_tree_node[1];
                        // 刪除
                        huffman_tree_node.erase(huffman_tree_node.begin());
                        huffman_tree_node.erase(huffman_tree_node.begin());
                        // 生成新的節點
                        huffman_node *node = (huffman_node *)malloc(sizeof(huffman_node));
                        node->weight = node_1->weight + node_2->weight;
                        (node_1->weight < node_2->weight)?(node->left=node_1,node->right=node_2):(node->left=node_2,node->right=node_1);
                        huffman_tree_node.push_back(node);
                }
        }

        return 0;
}

其中，map結構的word為每一個字元出現的頻率，是從檔案中解析出來的，解析的程式碼為：

int read_file(FILE *fn, map<char, int> &word){
        if (fn == NULL) return 1;
        char line[MAX_LINE];
        while (fgets(line, 1024, fn)){
                fprintf(stderr, "%sn", line);
                //解析，統計詞頻
                char *p = line;
                while (*p != '

 

             
          
              
           
               
              
             
            
            
            相關推薦
			   
            
            
            
 

    

    
    1-資料結構與演算法-順序表和連結串列
    記憶體

計算機的作用

用來儲存和運算二進位制的資料
import numpy as np
np.iinfo(\'int8\') 

  
 

    

    
    資料結構與演算法-順序表和連結串列
    記憶體

計算機的作用

用來儲存和運算二進位制的資料
import numpy as np
np.iinfo(\'int8\') 

  
 

    

    
    重學資料結構（六、樹和二叉樹）
    樹結構是一類重要的非線性資料結構。直觀來看，樹是以分支關係定義的層次結構。樹結構在客觀世界廣泛存在，如人類社會的族譜和各種社會組織機構都可用樹來形象表示。 

  
 

    

    
    資料結構與演算法_語言和框架特性前瞻和bug修復
    特性和問題
 JEPsThis JEP is the index of all JDK Enhancement Proposals, known as JEPs.
http://openjdk.java.net/jeps/1 

  
 

    

    
    【資料結構】演算法 組合的和 Combination Sum
    目錄組合的和 Combination Sum思路Tag
組合的和 Combination Sum
一個沒有重複元素的正整陣列candidates 和一個正整數target。從candidates 中找出所有可以滿足數字加和為target 的組合，candidates 中的數字可以被 

  
 

    

    
    資料結構與演算法  10.樹
    樹
樹的基本概念
每個節點有0個或多個子節點
沒有父節點的節點稱為根節點
每一個非根節點有且只有一個父節點 

  
 

    

    
    Go語言資料結構與演算法-Trie樹
    Trie樹
概述
Trie樹，又叫字典樹、字首樹（Prefix Tree）、單詞查詢樹或鍵樹，是一種很常用的樹結構【多叉樹】。 

  
 

    

    
    資料結構和演算法——Huffman樹和Huffman編碼
    Huffman樹是一種特殊結構的二叉樹，由Huffman樹設計的二進位制字首編碼，也稱為Huffman編碼在通訊領域有著廣泛的應用。在word2vec模型中，在構建層次Softmax的過程中，也使用到了Huffman樹的知識。 

  
 

    

    
    資料結構與演算法--二叉樹和樹
    樹形結構是複雜結構中最簡單的一類結構, 在實際中使用廣泛, 它們不但本身很有用, 還反映了許多計算過程的抽象結構。樹和二叉樹都屬於樹形結構。 

  
 

    

    
    2-資料結構與演算法-二叉樹和排序二叉樹
    二叉樹

根節點

柱狀結構最上層的一個節點
葉子節點

左葉子節點
右葉子節點
完整的子樹 

  
 

    

    
    資料結構與演算法-二叉樹和排序二叉樹
    二叉樹

根節點

柱狀結構最上層的一個節點
葉子節點

左葉子節點
右葉子節點
完整的子樹 

  
 

    

    
    資料結構與演算法（二叉樹）~ 介紹二叉樹以及力扣上幾道二叉樹題目的方法和套路
    資料結構與演算法（二叉樹）~ 介紹二叉樹以及力扣上幾道二叉樹題目的方法和套路 

  
 

    

    
    資料結構與演算法（二叉搜尋樹）~ 介紹二叉搜尋樹以及力扣上幾道二叉搜尋樹題目的方法和套路
    資料結構與演算法（二叉搜尋樹）~ 介紹二叉搜尋樹以及力扣上幾道二叉搜尋樹題目的方法和套路 

  
 

    

    
    資料結構和演算法——kd樹
    一、K-近鄰演算法
K-近鄰演算法是一種典型的無參監督學習演算法，對於一個監督學習任務來說，其mm個訓練樣本為： 

  
 

    

    
    《資料結構與演算法之美》16——散列表（三）為什麼散列表和連結串列經常會一起使用？
    有兩種資料結構（散列表和連結串列）經常會被放在一起使用。前面的章節中有兩個地方講到散列表和連結串列的組合使用，分別是： 

  
 

    

    
    資料結構與演算法--棧和佇列
    概述
棧和佇列主要用於計算過程中臨時儲存資料,這些資料是計算中發現或者產生的, 在後面的計算中可能需要使用到它們。如果需要儲存的資料項數不能事先確定, 就必須使用複雜的機制儲存和管理, 這樣的儲存機制稱為緩衝 

  
 

    

    
    資料結構與演算法（24）——優先佇列和二叉堆
    優先佇列Priority Queue

性質：隊首出隊。高優先順序的資料項在隊首，而低優先順序的資料項則排在後面。 

  
 

    

    
    資料結構與演算法-資料結構和演算法概述、評判程式優劣、資料結構
    據結構和演算法概述
什麼是電腦科學？
首先明確的一點就是電腦科學不僅僅是對計算機的研究，雖然計算機在科學發展的過程中發揮了重大的作用，但是它只是一個工具，一個沒有靈魂的工具而已。所謂的電腦科學 

  
 

    

    
    資料結構與演算法之【最大子列和問題】
    題目
【劍指offer】42.連續子陣列的最大和
輸入一個整型陣列，陣列中的一個或連續多個整陣列成一個子陣列。求所有子陣列的和的最大值。 

  
 

    

    
    最全最詳細資料結構與演算法視訊-【附課件和原始碼】
    原始碼和課件下載方式在文末

什麼是資料結構與演算法

演算法用來設計並實現一種用計算機來解決問題的方法。它滿足下列性質：