20172305 2018-2019-1 藍墨雲班課實驗--哈夫曼樹的編碼

阿新 • • 發佈：2018-12-11

20172305 2018-2019-1 藍墨雲班課實驗--哈夫曼樹的編碼

實驗要求

設有字符集：S={a,b,c,d,e，f,g,h,i,j,k,l,m,n.o.p.q,r,s,t,u,v,w,x,y,z}。
給定一個包含26個英文字母的檔案，統計每個字元出現的概率，根據計算的概率構造一顆哈夫曼樹。
並完成對英文檔案的編碼和解碼。
要求：
- (1) 準備一個包含26個英文字母的英文檔案（可以不包含標點符號等），統計各個字元的概率
- (2) 構造哈夫曼樹
- (3) 對英文檔案進行編碼，輸出一個編碼後的檔案
- (4) 對編碼檔案進行解碼，輸出一個解碼後的檔案
- (5) 撰寫部落格記錄實驗的設計和實現過程，並將原始碼傳到碼雲
- (6) 把實驗結果截圖上傳到雲班課

哈夫曼編碼

哈夫曼編碼(Huffman Coding)，又稱霍夫曼編碼，是一種編碼方式，哈夫曼編碼是可變字長編碼(VLC)的一種。Huffman於1952年提出一種編碼方法，該方法完全依據字元出現概率來構造異字頭的平均長度最短的碼字，有時稱之為最佳編碼，一般就叫做Huffman編碼(有時也稱為霍夫曼編碼)。

步驟：

對給定的n個權值{W1,W2,W3,...,Wi,...,Wn}構成n棵二叉樹的初始集合F= {T1,T2,T3,...,Ti,...,Tn}，其中每棵二叉樹Ti中只有一個權值為Wi的根結點，它的左右子樹均為空。（為方便在計算機上實現算法，一般還要求以Ti的權值Wi的升序排列。）

在F中選取兩棵根結點權值最小的樹作為新構造的二叉樹的左右子樹，新二叉樹的根結點的權值為其左右子樹的根結點的權值之和。

從F中刪除這兩棵樹，並把這棵新的二叉樹同樣以升序排列加入到集合F中。

重複上兩步的操作，直到集合F中只有一棵二叉樹為止，即為哈夫曼樹

第1步：建立森林，森林包括5棵樹，這5棵樹的權值分別是5,6,7,8,15。
第2步：在森林中，選擇根結點權值最小的兩棵樹，即“樹5”和“樹6”來進行合併，將它們作為一顆新樹的左右子結點(誰左誰右無關緊要，這裡，我們選擇較小的作為左孩子)，並且新樹的權值是左右子結點的權值之和。即，新樹的權值是11。然後，將"樹5"和"樹6"從森林中刪除，並將新的“樹11”新增到森林中。

第3步：在森林中，選擇根結點權值最小的兩棵樹即“樹7”和“樹8”來進行合併，得到的新樹的權值是15。然後，將"樹7"和"樹8"從森林中刪除，並將新的“樹15”新增到森林中。
第4步：在森林中，選擇根節點權值最小的兩棵樹(11和15)來進行合併。得到的新樹的權值是26。然後，將"樹11"和"樹15"從森林中刪除，並將新的樹(樹26)新增到森林中。
第5步：在森林中，選擇根節點權值最小的兩棵樹即“樹15”和“樹26”來進行合併，得到的新樹的權值是41。然後，將"樹15"和"樹26"從森林中刪除，並將新的“樹41”新增到森林中。
此時，森林中只有一棵樹(樹41)。這棵樹就是我們需要的哈夫曼樹！
各字元對應的編碼為：“15”->0, “26”->1, “5”->100, “6”->101, “7”->110, "8"->111

Java實現哈夫曼編碼

構造哈夫曼樹的結點類

在實現這個部分的時候，根據老師的PPT所示，需要新增元素資訊、權值、雙親、左孩子和右孩子，通過實現介面Comparable就利用權值進行比較，來確定是放在哈夫曼樹的左側還是右側，針對建立的問題可以仿照之前的建立二叉樹的結點差不多，給大家推薦一篇有關哈夫曼樹的部落格。在此基礎上，為了方便輸出它的0/1編碼，需要見一個code變數，用來確定每一個的編碼值。

  public class HuffmanNode<T> implements Comparable<HuffmanNode<T>>{
private T letter;
private double weight;
private HuffmanNode lChild, rChild;
private String code;
public HuffmanNode(T letter, double weight){
    this.letter = letter;
    this.weight = weight;
    code = "";
}
   public T getLetter() {
    return letter;
}

public double getWeight() {
    return weight;
}

public HuffmanNode getlChild() {
    return lChild;
}

public HuffmanNode getrChild() {
    return rChild;
}

public String getCode() {
    return code;
}

public void setLetter(T letter) {
    this.letter = letter;
}

public void setWeight(double weight) {
    this.weight = weight;
}

public void setlChild(HuffmanNode lChild) {
    this.lChild = lChild;
}

public void setrChild(HuffmanNode rChild) {
    this.rChild = rChild;
}

public void setCode(String code) {
    this.code = code;
}

@Override
public String toString() {
    return "Huffman: " + letter + " 權值:" + weight + "編碼:" + code;
}

@Override
public int compareTo(HuffmanNode<T> huffmanNode) {
    if(this.weight > huffmanNode.getWeight())
        return -1;
    else
        return 1;
}    
}

構造哈夫曼樹

哈夫曼樹的構造，並不需要像建立二叉樹的那麼多的方法，滿足形成哈夫曼編碼的部分就好。分享的那篇部落格有相關的內容，我們只需要在此基礎上新增每次建立的的編碼值就可以，左側0右側1就可以。
建立樹，先將結點進行排序，利用結點類中實現的比較方法，分別將左孩子定義為列表中的倒數第二個，因為左側編碼為0，所以讓該結點的編碼為0；右孩子為列表中的倒數第一個，因為右側編碼為1，所以讓該結點的編碼為1，雙親結點根據所講內容為左右結點權重相加之和，把雙親結點加入列表中，然後刪除倒數兩個結點並新增雙親結點，再次進行迴圈，排序，不斷從列表中把倒數兩個結點刪除，直至跳出迴圈，此時列表中的結點只剩一個，該結點的左右部分包含了所有按照編碼進行新增的元素內容。

public HuffmanNode<T> createTree(List<HuffmanNode<T>> nodes) {
      while (nodes.size() > 1) {
          Collections.sort(nodes);
          HuffmanNode<T> left = nodes.get(nodes.size() - 2);//令其左孩子的編碼為0
          left.setCode("0");
          HuffmanNode<T> right = nodes.get(nodes.size() - 1);//令其右孩子的編碼為1
          right.setCode("1");
          HuffmanNode<T> parent = new HuffmanNode<T>(null, left.getWeight() + right.getWeight());
          parent.setlChild(left);
          parent.setrChild(right);
          nodes.remove(left);
          nodes.remove(right);
          nodes.add(parent);
      }
      return nodes.get(0);
  }

輸出編碼，利用哈夫曼樹的createTree方法來實現編碼內容，然後輸出每一個結點的編碼值，按照每個分支的0/1進行，左側0右側1進行。

public List<HuffmanNode<T>> breath(HuffmanNode<T> root) {
      List<HuffmanNode<T>> list = new ArrayList<HuffmanNode<T>>();
      Queue<HuffmanNode<T>> queue = new LinkedList<>();
      if (root != null) {
          queue.offer(root);
          root.getlChild().setCode(root.getCode() + "0");
          root.getrChild().setCode(root.getCode() + "1");
      }

      while (!queue.isEmpty()) {
          list.add(queue.peek());
          HuffmanNode<T> node = queue.poll();
          if (node.getlChild() != null)
              node.getlChild().setCode(node.getCode() + "0");
          if (node.getrChild() != null)
              node.getrChild().setCode(node.getCode() + "1");
          if (node.getlChild() != null)
              queue.offer(node.getlChild());
          if (node.getrChild() != null)
              queue.offer(node.getrChild());

      }
      return list;
  }

編碼與解碼
- 編碼部分，需要按照讀取的內容進行新增每一個的編碼值，變數result即為編碼之後的內容，將這部分內容寫入一個檔案。
```
 String result = "";
      for(int f = 0; f < sum; f++){
          for(int j = 0;j<letter.length;j++){
              if(neirong.charAt(f) == letter[j].charAt(0))
                  result += code[j];
          }
      }
```
- 解碼部分，需要每次調出編碼內容的一個0/1，然後每讀出一位就要判斷一次是否有對應的編碼值，如果有就輸出，如果沒有就不斷往下讀取內容，並刪除讀出的內容避免重複讀取，直至將編碼的內容全部讀完解碼完成。利用兩個迴圈，外層迴圈進行每一次的新增一個編碼位，內層迴圈將新增一位的內容進行對比，符合就為編碼值，不符合就需要在新增一位。
```
for(int h = list4.size(); h > 0; h--){
          string1 = string1 + list4.get(0);
          list4.remove(0);
          for(int i=0;i<code.length;i++){
              if (string1.equals(code[i])) {
                  string2 = string2+""+letter[i];
                  string1 = "";
              }
          }
      }
```

計算概率和重複次數

從檔案中進行讀取，並按照英文字母的種類進行記錄每一個字母的出現次數，這裡我添加了一個記錄空格、逗號和句號，便於編寫檔案內容。針對檔案中的內容總不能針對每一個位置都要迴圈確定一遍是否含有那個字母，利用我在實驗室嘗試過的程式碼，Collections.frequency();來實現，裡面的兩個形式引數，按照第二個形式引數表現的內容，記錄其在第一個列表內的重複次數，這樣只需要將檔案內容一每個字元的形式存放在一個列表中就行，然後進行比對即可。總的字元數目就是每一個字母的重複次數。

for(int a = 0; a <= getFileLineCount(file); a++){
          String tp = bufferedReader.readLine();
          neirong += tp;
          for(int b = 0; b < tp.length(); b++){
                  list2.add(String.valueOf(tp.charAt(b)));
          }
          Esum[0] += Collections.frequency(list2, list1.get(0));
          Esum[1] += Collections.frequency(list2, list1.get(1));
          Esum[2] += Collections.frequency(list2, list1.get(2));
          Esum[3] += Collections.frequency(list2, list1.get(3));
          Esum[4] += Collections.frequency(list2, list1.get(4));
          Esum[5] += Collections.frequency(list2, list1.get(5));
          Esum[6] += Collections.frequency(list2, list1.get(6));
          Esum[7] += Collections.frequency(list2, list1.get(7));
          Esum[8] += Collections.frequency(list2, list1.get(8));
          Esum[9] += Collections.frequency(list2, list1.get(9));
          Esum[10] += Collections.frequency(list2, list1.get(10));
          Esum[11] += Collections.frequency(list2, list1.get(11));
          Esum[12] += Collections.frequency(list2, list1.get(12));
          Esum[13] += Collections.frequency(list2, list1.get(13));
          Esum[14] += Collections.frequency(list2, list1.get(14));
          Esum[15] += Collections.frequency(list2, list1.get(15));
          Esum[16] += Collections.frequency(list2, list1.get(16));
          Esum[17] += Collections.frequency(list2, list1.get(17));
          Esum[18] += Collections.frequency(list2, list1.get(18));
          Esum[19] += Collections.frequency(list2, list1.get(19));
          Esum[20] += Collections.frequency(list2, list1.get(20));
          Esum[21] += Collections.frequency(list2, list1.get(21));
          Esum[22] += Collections.frequency(list2, list1.get(22));
          Esum[23] += Collections.frequency(list2, list1.get(23));
          Esum[24] += Collections.frequency(list2, list1.get(24));
          Esum[25] += Collections.frequency(list2, list1.get(25));
          Esum[26] += Collections.frequency(list2, list1.get(26));
          Esum[27] += Collections.frequency(list2, list1.get(27));
          Esum[28] += Collections.frequency(list2, list1.get(28));
      }

總個數

for(int c = 0; c < Esum.length; c++)
          sum += Esum[c];
      System.out.println("總字母個數：" + sum);

在此部分我用了一個可以確定檔案內容行數的方法，便於當檔案出現多行的時候的讀寫和編碼、解碼的相關操作。

讀寫檔案

讀寫檔案的部分只需要呼叫File相關類進行編寫即可，我直接用了字元流直接將String型別的內容進行新增。

      File file = new File("英文檔案.txt");
      File file1 = new File("編碼檔案.txt");
      File file2 = new File("解碼檔案.txt");

      if (!file1.exists() && !file2.exists())
      {
          file1.createNewFile();
          file2.createNewFile();
      }
      FileReader fileReader = new FileReader(file);
      BufferedReader bufferedReader = new BufferedReader(fileReader);
      FileWriter fileWriter1 = new FileWriter(file1);
      FileWriter fileWriter2 = new FileWriter(file2);
      fileWriter1.write(result);
      fileWriter2.write(string2);
      fileWriter1.close();
      fileWriter2.close();

碼雲連結

感悟

哈夫曼編碼在剛開始的時候編得很混亂，在看過參考資料和同學的之後才理清思路，對於這種編碼形式，很大程度上的解決了資料壓縮的問題，便於儲存資料。

參考資料

20172305 2018-2019-1 藍墨雲班課實驗--哈夫曼樹的編碼

20172305 2018-2019-1 藍墨雲班課實驗--哈夫曼樹的編碼實驗要求設有字符集：S={a,b,c,d,e，f,g,h,i,j,k,l,m,n.o.p.q,r,s,t,u,v,w,x,y,z}。給定一個包含26個英文字母的檔案，統計每個字元出現的概率，根據計算的概率構造一顆哈夫曼樹

20172303 2018-2019-1《程式設計與資料結構》哈夫曼樹編碼與解碼

20172303 2018-2019-1《程式設計與資料結構》哈夫曼樹編碼與解碼哈夫曼樹簡介定義：給定n個權值作為n個葉子結點，構造一棵二叉樹，若帶權路徑長度達到最小，稱這樣的二叉樹為最優二叉樹，也稱為哈夫曼樹(Huffman Tree)。哈夫曼樹是帶權路徑長度最短的樹，權值較大的結點離根較近。

172322 2018-2019-1 《程式設計與資料結構》哈夫曼編碼測試報告

172322 2018-2019-1 《程式設計與資料結構》哈夫曼編碼測試報告課程：《程式設計與資料結構》班級： 1723 姓名：張昊然學號：20172322 教師：王志強助教：張之睿/張師瑜編碼測試日期：2018年11月19日必修/選修：必修哈夫

20172304 藍墨雲實驗哈夫曼樹

20172304 藍墨雲實驗哈夫曼樹實驗要求設有字符集：S={a,b,c,d,e，f,g,h,i,j,k,l,m,n.o.p.q,r,s,t,u,v,w,x,y,z}。給定一個包含26個英文字母的檔案，統計每個字元出現的概率，根據計算的概率構造一顆哈夫曼樹。並完成對英文檔案的編碼和解碼。

20172303 2018-2019-1《程序設計與數據結構》哈夫曼樹編碼與解碼

exce eat temp 基礎第一個最小 charat 轉換 except 20172303 2018-2019-1《程序設計與數據結構》哈夫曼樹編碼與解碼哈夫曼樹簡介定義：給定n個權值作為n個葉子結點，構造一棵二叉樹，若帶權路徑長度達到最小，稱這樣的二叉樹為最

20172305 2018-2019-1 《Java軟件結構與數據結構》第二周學習總結

利用關系博客 4.2 官方 clas 標簽 evaluator 頭部 20172305 2018-2019-1 《Java軟件結構與數據結構》第二周學習總結教材學習內容總結本周內容主要為書第三章和第四章的內容：第三章(以數組來替代棧的作用) 集合(聚集，組織了

20172305 2018-2019-1 《Java軟件結構與數據結構》第四周學習總結

con 一道 exc nts 對象 owin bee 題目創建 20172305 2018-2019-1 《Java軟件結構與數據結構》第四周學習總結教材學習內容總結本周內容主要為書第六章內容：列表有序列表(元素按照元素內在特性進行排序) 無序列表(元素間不具

20172305 2018-2019-1 《Java軟體結構與資料結構》第七週學習總結

20172305 2018-2019-1 《Java軟體結構與資料結構》第七週學習總結教材學習內容總結本週內容主要為書第十一章內容：二叉查詢樹(附加屬性的二叉樹) 二叉查詢樹是對樹中的每個結點，其左結點都要小於其父結點，而父結點又小於或等於其右結點。二叉查詢樹的定義

20172305 2018-2019-1 《Java軟體結構與資料結構》第八週學習總結

20172305 2018-2019-1 《Java軟體結構與資料結構》第八週學習總結教材學習內容總結本週內容主要為書第十二章內容：堆(附加屬性的二叉樹) 完全二叉樹 (最小堆)對於每一個結點，它小於或等於其左孩子和右孩子。 (最大堆)對於每一個結點，它大於或

20172305 2018-2019-1 《Java軟件結構與數據結構》第九周學習總結

優先 body 想要布爾 -- 兩種方法回溯解決辦法效率 20172305 2018-2019-1 《Java軟件結構與數據結構》第九周學習總結教材學習內容總結本周內容主要為書第十五章內容：圖(結點和結點之間的連接構成) 頂點：結點邊：結點之間的連接鄰

20172305 2018-2019-1 《Java軟體結構與資料結構》第九周學習總結

20172305 2018-2019-1 《Java軟體結構與資料結構》第九周學習總結教材學習內容總結本週內容主要為書第十五章內容：圖(結點和結點之間的連線構成) 頂點：結點邊：結點之間的連線鄰接：兩個結點之間有一條連通邊，則兩個結點是鄰接的，有時鄰接頂點

20172322 2018-2019-1 10月19日課上測試報告

20172322 2018-2019-1 10月19日課上測試報告課程：《程式設計與資料結構》班級： 1723 姓名：張昊然學號： 20172322 實驗教師：王志強老師測試日期：2018年10月19日必修/選修：必修增補的習題原題需要查詢的數字初始順序為11，78，10，1，3，2，

2018-2019-1 20165232 第八週課下作業

第八週課上測試補做題目二把第一個練習中的程式碼在X86-64（Ubuntu）中反彙編，給出彙編程式碼和機器碼的截圖把X86-64彙編翻譯成Y86-64彙編，並給出相應機器碼的截圖（使用附件中的Y86-64模擬器）過程：終端輸入gcc -E sum.c -o sum.i 終端輸入

2018-2019-1 20165232 第八周課下作業

connected 編譯測試客戶端 UNC 消息 ref yun out 第八周課上測試補做題目二把第一個練習中的代碼在X86-64（Ubuntu）中反匯編，給出匯編代碼和機器碼的截圖把X86-64匯編翻譯成Y86-64匯編，並給出相應機器碼的截圖（使用附件中的

資料結構與演算法 -- 哈夫曼樹思想與建立詳解1

PS:什麼是哈夫曼樹？　　給定n個權值作為n個葉子結點，構造一棵二叉樹，若該樹的帶權路徑長度達到最小，稱這樣的二叉樹為最優二叉樹，也稱為哈夫曼樹(Huffman Tree)。哈夫曼樹是帶權路徑長度最短的樹，權值較大的結點離根較近。計算規則：　　假設一組權值，一個權值是一個結點，12 &

20172310 藍墨雲ASL測試 2018-1938872

位置 interval 二分查找自己二叉對數 val int arc 20172310 藍墨雲ASL測試 2018-1938872 題目：已知線性表具有元素{5,13,19，21,37,56,64,75,80,88,92}，如果使用折半查找法，ASL是多少？解

2018-2019-1課表

roman 周四 order cin span nbsp width mil pad 2018-2019-1 周一周二周三周四第1節現代偏微

2018-2019-1 《信息安全專業導論》教學進程

license 收藏 tty 名稱閱讀 href 信息安全系統 ret 嵌入式《信息安全專業導論》教學進程目錄考核方式教學進程第01周學習任務和要求第02周學習任務和要求第03周學習任務和要求第04周學習任務和要求第05周學習任務和要求第06周學

20172303 2018-2019-1 《程序設計與數據結構》第一周學習總結

tps 算法分析加法增加練習題系列質量體系找到可移植性 20172303 2018-2019-1 《程序設計與數據結構》第一周學習總結教材學習內容總結第1章概述 1.軟件工程定義：一門關於高質量軟件開發的技術和理論的學科。目標：軟件工程的目標與其他

20172315 2018-2019-1 《程序設計與數據結構》第一周學習總結

之間 https 加法任務工程規則位置 href for 20172315 2018-2019-1 《程序設計與數據結構》第一周學習總結教材學習內容總結第一章正確性：軟件遵守其特定要求的程度。可靠性：軟件故障的頻率和重要性。健壯性：很好地處理錯誤情況的程

20172305 2018-2019-1 藍墨雲班課實驗--哈夫曼樹的編碼

20172305 2018-2019-1 藍墨雲班課實驗--哈夫曼樹的編碼

實驗要求

哈夫曼編碼

步驟：

Java實現哈夫曼編碼

感悟

參考資料

相關推薦