hadoop常用的壓縮演算法總結和實驗驗證

阿新 • • 發佈：2019-02-07

壓縮格式總表

壓縮格式	工具	演算法	副檔名	是否可切分
DEFLATE	N/A	DEFLATE	.deflate	No
gzip	gzip	DEFLATE	.gz	No
bzip2	bzip2	bzip2	.bz2	Yes
LZO	lzop	LZO	.lzo	No
LZ4	N/A	LZ4	.lz4	No
Snappy	N/A	Snappy	.snappy	No

壓縮演算法的時間空間權衡

所有的壓縮演算法都是時間和空間的轉換，更快的壓縮時間還是更小的壓縮比，可以通過引數來指定，-1意味著速度，-9意味著空間。例如：

Gzip -1 file

壓縮演算法的速度和壓縮比例的特點

壓縮演算法	特點	速度和壓縮比
DEFLATE	標準壓縮演算法，沒有生成它的常用命令列工具，通常都是用Gzip格式，也就是在deflate格式上新增gzip的檔案頭和檔案尾，.deflate副檔名是hadoop定義的	——
Gzip	DEFLATE為基礎擴展出來的一種演算法；通用壓縮工具，時間和空間消耗比較折中	折中
Bzip2	壓縮效果最好，但是壓縮和解壓速度最慢；本身的解壓速度比壓縮速度快	壓縮效果最好，速度最慢
LZO	比gzip速度快，但是壓縮效果不好	壓縮效果不好，速度快
LZ4	比gzip速度快，但是壓縮效果不好；解壓比LZO快	壓縮效果不好，速度快
Snappy	比gzip速度快，但是壓縮效果不好；解壓比LZO快	壓縮效果不好，速度快

實驗驗證

下面是在某公司利用真實的交易資料進行的壓縮測試。由於LZO沒有安裝相應元件未做測試。從真實的實驗可以看出，snappy用時最短，bzip2用時最長。Deflate實際上採用了Gzip演算法，所以用時和壓縮率接近。由於實驗僅僅做了一次，再加上測試時間不同，叢集效能可能也會有差異，理論上LZ4應該比gzip快。

壓縮演算法	表名	壓縮時間	total time	原大小	壓縮後大小	壓縮比
Gzip	a	333.276 s	0 hours 23 min 28 s	71.9G	8.1 G	7.9%
	b	321.246 s		229.7 G	9.4 G
	c	281.316 s		109.9 G	7.6 G
	d	379.03 s		71.9 G	13.2 G
	e	73.333 s		5.8 G	276.0 M
bzip2	a	481.926 s	0 hours 32 min 10 s	71.9G	6.3 G	6.6%
	b	478.724 s		229.7 G	8.3 G
	c	404.097 s		109.9 G	6.4 G
	d	424.537 s		71.9 G	11.0 G
	e	125.326 s		5.8 G	217.6 M
deflate	a	250.34 s	0 hours 20 min 52 s	71.9G	8.1 G	7.9%
	b	301.89 s		229.7 G	9.4 G
	c	264.25 s		109.9 G	7.6 G
	d	337.296 s		71.9 G	13.2 G
	e	73.91 s		5.8 G	275.9 M
LZ4	a	459.488 s	0 hours 30 min 27 s	71.9G	15.2 G	13.4%
	b	478.385 s		229.7 G	16.1 G
	c	399.978 s		109.9 G	12.5 G
	d	412.668 s		71.9 G	21.2 G
	e	60.985 s		5.8 G	509.6 M
Snappy	a	216.268 s	0 hours 19 min 6 s	71.9G	14.0 G	13%
	b	281.972 s		229.7 G	16.0 G
	c	241.483 s		109.9 G	12.2 G
	d	322.299 s		71.9 G	20.7 G
	e	63.202 s		5.8 G	548.5 M

以上採用hive進行測試，每次新建一個rcfile格式的表，從原始資料insert overwrite select進行資料匯入，在執行指令碼之前設定壓縮演算法，壓縮演算法的設定如下：

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set mapred.min.split.size=536870912;
set mapred.min.split.size.per.node=536870912;
set mapred.min.split.size.per.rack=536870912;
set mapred.output.compress=true;

--設定壓縮功能開啟
SET hive.exec.compress.output=true; 
--設定壓縮編碼
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
--SET mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec;
--SET mapred.output.compression.codec=org.apache.hadoop.io.compress.Lz4Codec;
--SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
--SET mapred.output.compression.codec=org.apache.hadoop.io.compress.DefaultCodec;--deflate
--SET mapred.output.compression.codec=org.apache.hadoop.io.compress.BZip2Codec;
--設定壓縮型別block  
SET mapred.output.compression.type=BLOCK;   
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

hadoop常用的壓縮演算法總結和實驗驗證

壓縮格式總表壓縮格式工具演算法副檔名是否可切分 DEFLATE N/A DEFLATE .deflate No gzip gzip DEFLATE .gz No bzip2 bzip2 bz

Java 常用排序演算法總結

氣泡排序： /*冒泡演算法*/ public class BubbleSort { public static void bubble_sort(int[] arr){ int temp; for(int i = 0; i < arr

資料結構與演算法：常用排序演算法總結

排序演算法穩定性的簡單形式化定義為：如果Ai = Aj，排序前Ai在Aj之前，排序後Ai還在Aj之前，則稱這種排序演算法是穩定的。通俗地講就是保證排序前後兩個相等的數的相對順序不變。　　對於不穩定的排序演算法，只要舉出一個例項，即可說明它的不穩定性；而對於穩定的排序演算法，必須對演算

不常用加密演算法總結筆記

1、凱撒加密凱撒加密是很古老的加密方法，利用了字母錯位的方式進行加密。 2、柵欄密碼所謂柵欄密碼，就是把要加密的明文分成N個一組，然後把每組的第1個字連起來，形成一段無規律的話。一般來說見到一堆字母沒有空格，就應該想一想是不是柵欄。比較常見的是2欄的棚欄密碼。比如明文：THERE

機器學習——常用排序演算法總結

我們通常所說的排序演算法往往指的是內部排序演算法，即資料記錄在記憶體中進行排序。排序演算法大體可分為兩種：一種是比較排序，時間複雜度O(nlogn) ~ O(n^2)，主要有：氣泡排序，選擇排序，插入排序，歸併排序，堆排序，快速排序等。另一種是非比較排序，時間複雜度可以達到O(

各種排序演算法總結和比較

排序演算法可以說是一項基本功，解決實際問題中經常遇到，針對實際資料的特點選擇合適的排序演算法可以使程式獲得更高的效率，有時候排序的穩定性還是實際問題中必須考慮的，這篇部落格對常見的排序演算法進行整理，包括：插入排序、選擇排序、氣泡排序、快速排序、堆排序、歸併

JavaScript常用排序演算法總結

（一）氣泡排序原理：比較相鄰的元素，如果第一個比第二個大，就交換他們兩個；對每一對相鄰元素做同樣的工作，從開始第一對到結尾的最後一對；在這一點，最後的元素應該會是最大的數；針對所有的元素重複

常用排序演算法總結（Java實現）

排序演算法比較： 1. 氣泡排序 /** * 氣泡排序 * 比較相鄰的元素。如果第一個比第二個大，就交換他們兩個。 * 對每一對相鄰元素作同樣的工作，從開始第一對到結尾的最後一對。在這一點，最後的元素應該會是最大的數。 * 針對所有的元素重複以上的步驟，除了最後一個

常用排序演算法總結

　　目錄氣泡排序　　雞尾酒排序　　選擇排序歸併排序堆排序快速排序　　我們通常所說的排序演算法往往指的是內部排序演算法，即資料記錄在記憶體中進行排序。排序演算法大體可分為兩種：　　　　一種是比較排序，時間複雜度O(nlogn

常用排序演算法總結(一)

　　目錄氣泡排序　　雞尾酒排序　　選擇排序歸併排序堆排序快速排序　　我們通常所說的排序演算法往往指的是內部排序演算法，即資料記錄在記憶體中進行排序。排序演算法大體可分為兩種：　　　　一種是比較排序，時間複雜度O(nlogn) ~ O(n^2)，主

常用排序演算法總結（2）-- 非比較排序演算法

上一篇總結了常用的比較排序演算法，主要有氣泡排序，選擇排序，插入排序，歸併排序，堆排序，快速排序等。這篇文章中我們來探討一下常用的非比較排序演算法：計數排序，基數排序，桶排序。在一定條件下，它們的時間複雜度可以達到O(n)。這裡我們用到的唯一資料結構就是陣列，當然我們也可以利用連結串列來

常用排序演算法總結（1）-- 比較排序

我們通常所說的排序演算法往往指的是內部排序演算法，即資料記錄在記憶體中進行排序。排序演算法大體可分為兩種：一種是比較排序，時間複雜度O(nlogn) ~ O(n^2)，主要有：氣泡排序，選擇排序，插入排序，歸併排序，堆排序，快速排序等。另一種是非比較排序，時間複雜度可以達到O(n)，

幾種常用排序演算法總結

選擇排序、快速排序、希爾排序、堆排序不是穩定的排序演算法，氣泡排序、插入排序、歸併排序和基數排序是穩定的排序演算法。冒泡法：這是最原始，也是眾所周知的最慢的演算法了。他的名字的由來因為它的工作看來象是冒泡：複雜度為O(n*n)。當資料為正序，將不會有交換。複雜度為

區塊鏈中常用共識演算法總結

本文是對區塊鏈技術中涉及的共識演算法的學習總結整理。其中PBFT和Raft是聯盟鏈和私有鏈常用的共識演算法，而PoW（比特幣採用）和PoS是公有鏈常用的共識演算法。建議對區塊鏈的學習，要分成是公有鏈還是聯盟鏈，這兩種鏈中一般採用的共識演算法是有較大不

時間複雜度為O(N*logN)的常用排序演算法總結與Java實現

時間複雜度為O(N*logN)的常用排序演算法主要有四個——快速排序、歸併排序、堆排序、希爾排序1.快速排序·基本思想隨機的在待排序陣列arr中選取一個元素作為標記記為arr[index](有時也直接選擇起始位置)，然後在arr中從後至前以下標j尋找比arr[inde

常用排序演算法總結9一一計數排序

定義計數排序（英語：Counting Sort）是一種穩定的線性時間排序演算法。計數排序使用一個額外的陣列C，其中第i個元素是待排序陣列A中值等於i的元素的個數。然後根據陣列C來將A中的元素排到正確的位置。演算法步驟找出待排序的陣列中最大和

機器學習實戰之K-近鄰演算法總結和程式碼解析

機器學習實戰是入手機器學習和python實戰的比較好的書，可惜我現在才開始練習程式碼！先宣告：本人菜鳥一枚，機器學習的理論知識剛看了一部分，python的知識也沒學很多，所以寫程式碼除錯的過程很痛可！但是還是挨個找出了問題所在，蠻開心的！看了很多大牛

Hadoop檔案壓縮格式分析和比較

Hadoop支援壓縮格式：壓縮格式可分割演算法副檔名 Linux工具 gzip 否 DEFLATE .gz gzip lzo 是(加索引) LZO .lzo lzop snappy 否 Snapp

路徑最短問題演算法總結和實現（Floyd,Dijkstra,SPFA）

題目描述：求兩個點之間的最短路徑輸入：兩個整數n,m（1<=n,m<=100）n的含義是節點的個數，m的含義是邊的個數，接下來的m行輸入三個整數i j c,分別表示開始結束節點和之間的費用輸出：從1到n節點之間的路徑長度Floyd演算法：使用二維陣列ans[i][

深度學習優化演算法總結與實驗

　　深度學習優化演算法最耳熟能詳的就是GD（Gradient Descend）梯度下降，然後又有一個所謂的SGD（Stochastic Gradient Descend）隨機梯度下降，其實還是梯度下降，只不過每次更新梯度不用整個訓練集而是訓練集中的隨機樣本。梯度下降的好處就是用到了當前迭代的一些性質，以至於總

hadoop常用的壓縮演算法總結和實驗驗證

壓縮格式總表

壓縮演算法的時間空間權衡

壓縮演算法的速度和壓縮比例的特點

實驗驗證

相關推薦