Hadoop支援Lzo壓縮

阿新 • • 發佈：2018-12-20

1.前置要求

編譯安裝好hadoop
java & maven 安裝配置好

安裝前置庫

 yum -y install  lzo-devel  zlib-devel  gcc autoconf automake libtool

2.安裝 lzo

2.1 下載

  #下載
  wget www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz
  
  # 解壓縮
  [[email protected] app]$ tar -zxvf lzo-2.06.tar.gz -C .. 
/app

2.2 增加引數

[[email protected] app]$ cd lzo-2.06/
[[email protected] lzo-2.06]$ export CFLAGS=-m64

# 建立資料夾,用來存放編譯之後的lzo
[[email protected] lzo-2.06]$ mkdir complie

#指定編譯之後的位置
[[email protected] lzo-2.06]$ ./configure -enable-shared -prefix=/home/hadoop/app/lzo-2.06/complie/

#開始編譯安裝
[[email protected] 
 lzo-2.06]$ make && make install

# 檢視編譯是否成功 只要有如下內容 就可以了
[[email protected] lzo-2.06]$ cd complie/
[[email protected] complie]$ ll
total 12
drwxrwxr-x 3 hadoop hadoop 4096 Dec  6 17:08 include
drwxrwxr-x 2 hadoop hadoop 4096 Dec  6 17:08 lib
drwxrwxr-x 3 hadoop hadoop 4096 Dec  6 17:08 share
[ 
[email protected] complie]$

3. 安裝hadoop-lzo

3.1 下載 & 解壓

# 下載
[[email protected] soft]$ wget https://github.com/twitter/hadoop-lzo/archive/master.zip

#解壓
[[email protected] soft]$ unzip master

# 如果提示沒有 unzip  記得用yum 安裝下
[[email protected] ~]# yum -y install unzip

3.2 修改hadoop-lzo-master下的pom.xml檔案

   <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <hadoop.current.version>2.6.0</hadoop.current.version> #這裡修改成對應的hadoop版本號
    <hadoop.old.version>1.0.4</hadoop.old.version>
  </properties>

3.3 增加配置

[[email protected] app]$ cd hadoop-lzo-master/
[[email protected] hadoop-lzo-master]$ export CFLAGS=-m64
[[email protected] hadoop-lzo-master]$  export CXXFLAGS=-m64
[[email protected] hadoop-lzo-master]$ export C_INCLUDE_PATH=/home/hadoop/app/lzo-2.06/complie/include/     # 這裡需要提供編譯好的lzo的include檔案
[[email protected] hadoop-lzo-master]$ export LIBRARY_PATH=/home/hadoop/app/lzo-2.06/complie/lib/           # 這裡需要提供編譯好的lzo的lib檔案
[[email protected] hadoop-lzo-master]$

3.4 開始編譯

[[email protected] hadoop-lzo-master]$ mvn clean package -Dmaven.test.skip=true

出現 BUILD SUCCESS 的時候說明成功!

3.5 執行如下操作

[[email protected] hadoop-lzo-master]$ 
# 檢視編譯成功之後的包
[[email protected] hadoop-lzo-master]$ ll
total 80
-rw-rw-r--  1 hadoop hadoop 35147 Oct 13  2017 COPYING
-rw-rw-r--  1 hadoop hadoop 19753 Dec  6 17:18 pom.xml
-rw-rw-r--  1 hadoop hadoop 10170 Oct 13  2017 README.md
drwxrwxr-x  2 hadoop hadoop  4096 Oct 13  2017 scripts
drwxrwxr-x  4 hadoop hadoop  4096 Oct 13  2017 src
drwxrwxr-x 10 hadoop hadoop  4096 Dec  6 17:21 target

# 進入target/native/Linux-amd64-64 目錄下執行如下命令
[[email protected] hadoop-lzo-master]$ cd target/native/Linux-amd64-64
[[email protected] Linux-amd64-64]$ tar -cBf - -C lib . | tar -xBvf - -C ~
./
./libgplcompression.so
./libgplcompression.so.0
./libgplcompression.la
./libgplcompression.a
./libgplcompression.so.0.0.
[[email protected] Linux-amd64-64]$ cp ~/libgplcompression* $HADOOP_HOME/lib/native/


# 這裡很重要  需要把hadoop-lzo-0.4.21-SNAPSHOT.jar 複製到hadoop中
[[email protected] hadoop-lzo-master]$  cp target/hadoop-lzo-0.4.21-SNAPSHOT.jar $HADOOP_HOME/share/hadoop/common/ 
[[email protected] hadoop-lzo-master]$  cp target/hadoop-lzo-0.4.21-SNAPSHOT.jar $HADOOP_HOME/share/hadoop/mapreduce/lib

4.配置hadoop配置檔案

4.1 修改 vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh

# 增加 編譯好的lzo包下的lib
export LD_LIBRARY_PATH=/home/hadoop/app/lzo-2.06/complie/lib

4.2 修改 vim $HADOOP_HOME/etc/hadoop/core-site.

<property>
    <name>io.compression.codecs</name>
    <value>org.apache.hadoop.io.compress.GzipCodec,
            org.apache.hadoop.io.compress.DefaultCodec,
            org.apache.hadoop.io.compress.BZip2Codec,
            com.hadoop.compression.lzo.LzoCodec,
            com.hadoop.compression.lzo.LzopCodec
    </value>
</property>
<property>
    <name>io.compression.codec.lzo.class</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

4.3 修改 vim $HADOOP_HOME/etc/hadoop/mapred-site.xml

<property>
    <name>mapred.child.env </name>
    <value>LD_LIBRARY_PATH=/home/hadoop/app/lzo-2.06/complie/lib</value>
</property>
<property>
    <name>mapreduce.map.output.compress</name>
    <value>true</value>
</property>
<property>
    <name>mapreduce.map.output.compress.codec</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

4.4 重啟hadoop

5.hadoop使用Lzo

5.1 資料準備

我準備好了一個大的資料檔案,使用lzo壓縮下

# 原始大小
[[email protected] data]$ ls -lh
total 5.0G
-rw-r--r-- 1 hadoop hadoop 5.0G Dec  5 17:58 access.20161111.log
[[email protected] data]$

# 使用lzo 壓縮
lzop access.20161111.log

# 壓縮之後的大小
[[email protected] data]$ ls -lh
total 5.9G
-rw-r--r-- 1 hadoop hadoop 5.0G Dec  5 17:58 access.20161111.log
-rw-r--r-- 1 hadoop hadoop 878M Dec  5 17:58 access.20161111.log.lzo
[[email protected] data]$

5.2 上傳資料到hdfs中

# 上傳
[[email protected] data]$ hdfs dfs -put access.20161111.log.lzo /data

#檢視上傳結果
[[email protected] data]$ hdfs dfs -ls /data
Found 1 items
-rw-r--r--   1 hadoop supergroup  920128684 2018-12-06 18:36 /data/access.20161111.log.lzo
[[email protected] data]$

5.3 執行hadoop wc 應用

[[email protected] mapreduce]$ hadoop jar \
hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount \
/data/access.20161111.log.lzo \
/out

檢視執行過程,可以看到 ** number of splits:1** ,說明 hadoop並沒有給我的lzo檔案切片


18/12/06 18:39:00 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
18/12/06 18:39:00 INFO input.FileInputFormat: Total input paths to process : 1
18/12/06 18:39:00 INFO lzo.GPLNativeCodeLoader: Loaded native gpl library from the embedded binaries
18/12/06 18:39:00 INFO lzo.LzoCodec: Successfully loaded & initialized native-lzo library [hadoop-lzo rev f1deea9a313f4017dd5323cb8bbb3732c1aaccc5]
18/12/06 18:39:01 INFO mapreduce.JobSubmitter: number of splits:1
18/12/06 18:39:01 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1544089631050_0001
18/12/06 18:39:01 INFO impl.YarnClientImpl: Submitted application application_1544089631050_0001
18/12/06 18:39:01 INFO mapreduce.Job: The url to track the job: http://localhost:8088/proxy/application_1544089631050_0001/
18/12/06 18:39:01 INFO mapreduce.Job: Running job: job_1544089631050_0001

5.4 給lzo檔案建立索引

通過之前的學習,我知道,如果使用lzo壓縮的話,需要有lzo的索引檔案,接下來我們生產索引檔案

[[email protected] hadoop-2.6.0-cdh5.7.0]$ hadoop jar \
share/hadoop/mapreduce/lib/hadoop-lzo-0.4.21-SNAPSHOT.jar \
com.hadoop.compression.lzo.DistributedLzoIndexer \
/data/access.20161111.log.lzo

[[email protected] mapreduce]$ hdfs dfs -ls /data
Found 2 items
-rw-r--r--   1 hadoop supergroup  920128684 2018-12-06 18:36 /data/access.20161111.log.lzo
-rw-r--r--   1 hadoop supergroup     163088 2018-12-06 18:42 /data/access.20161111.log.lzo.index
[[email protected] mapreduce]$

如上我的索引檔案以及生成,那我繼續執行wc程式,看我的hadoop是否能支援lzo檔案的切片

[[email protected] mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount /data/access.20161111.log.lzo /out1
18/12/06 18:45:01 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
18/12/06 18:45:02 INFO input.FileInputFormat: Total input paths to process : 1
18/12/06 18:45:02 INFO lzo.GPLNativeCodeLoader: Loaded native gpl library from the embedded binaries
18/12/06 18:45:02 INFO lzo.LzoCodec: Successfully loaded & initialized native-lzo library [hadoop-lzo rev f1deea9a313f4017dd5323cb8bbb3732c1aaccc5]
18/12/06 18:45:02 INFO mapreduce.JobSubmitter: number of splits:1
18/12/06 18:45:02 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1544089631050_0003
18/12/06 18:45:03 INFO impl.YarnClientImpl: Submitted application application_1544089631050_0003
18/12/06 18:45:03 INFO mapreduce.Job: The url to track the job: http://localhost:8088/proxy/application_1544089631050_0003/
18/12/06 18:45:03 INFO mapreduce.Job: Running job: job_1544089631050_0003

從上面的執行過程,我看出來我的hadoop還是不能將我的lzo檔案給切片,接著翻閱資料…

5.5 更改

通過翻閱資料得知,單純的做了索引還是不行的，在執行程式的時候還要對要執行的程式進行相應的更改,
把inputformat設定成LzoTextInputFormat，不然還是會把索引檔案也當做是輸入檔案，還是隻執行一個map來處理。

所以修改我的提交任務的方式增加 -Dmapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat

[[email protected] mapreduce]$ 
[[email protected]doop000 mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount \
-Dmapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat \
/data/access.20161111.log.lzo \
/out3
18/12/06 18:48:39 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
18/12/06 18:48:40 INFO input.FileInputFormat: Total input paths to process : 1
18/12/06 18:48:40 INFO mapreduce.JobSubmitter: number of splits:7
18/12/06 18:48:41 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1544089631050_0005
18/12/06 18:48:41 INFO impl.YarnClientImpl: Submitted application application_1544089631050_0005
18/12/06 18:48:41 INFO mapreduce.Job: The url to track the job: http://localhost:8088/proxy/application_1544089631050_0005/
18/12/06 18:48:41 INFO mapreduce.Job: Running job: job_1544089631050_0005
^C^C[[email protected] mapreduce]$ ^C

從上述結果看出來hadoop已經能自動的將我的lzo檔案給我切片了~~

成功~~

Hadoop支援Lzo壓縮

1.前置要求編譯安裝好hadoop java & maven 安裝配置好安裝前置庫 yum -y install lzo-devel zlib-devel gcc autoconf automake libtool 2.安裝

Hadoop使用lzo壓縮輸出

Hadoop處理大量的資料，如果期間的輸出資料、中間資料能壓縮儲存，對系統的I/O效能會有提升。參考了網上不少資料，發現綜合考慮壓縮、解壓速度、是否支援split，目前lzo是最好的選擇。lzo最初在google code上託管，但後來轉移到github了，所以以github

hadoop使用lzo壓縮檔案筆記

LZO效能編譯LZO 下載： wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz 安裝： tar -zxf lzo-2.06.tar.gz cd lzo-

hadoop支援lzo完整過程

簡介啟用lzo 啟用lzo的壓縮方式對於小規模叢集是很有用處，壓縮比率大概能降到原始日誌大小的1/3。同時解壓縮的速度也比較快。安裝lzo lzo並不是linux系統原生支援，所以需要下載安裝軟體包。這裡至少需要安裝3

【總結】spark按文本格式和Lzo格式處理Lzo壓縮文件的比較

spark lzotextinputformat1、描述spark中怎麽加載lzo壓縮格式的文件2、比較lzo格式文件以textFile方式和LzoTextInputFormat方式計算數據，Running Tasks個數的影響 a.確保lzo文件所在文件夾中生成lzo.index索引文件 b.以

MapReduce 讀寫 lzo 壓縮檔案詳細

問題：用java編寫mapreduce程式時，lzo格式作為輸入跟用文字作為輸入一樣，可以把lzo檔案當做文字直接使用，但是一個lzo檔案會分在一個map上，如果lzo檔案過大，希望用多個map時，調整mapred.min.split.size和mapred.max.split.size就

Hive中使用LZO壓縮的方式

1.建立表的時候指定為lzo格式 CREATE EXTERNAL TABLE foo ( columnA string, columnB string ) PARTITIO

0003-如何在CDH中使用LZO壓縮

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。 1.問題描述 CDH中預設不支援Lzo壓縮編碼，需要下載額外的Parcel包，才能讓Hadoop相關元件如HDFS，Hive，Spark支援Lzo編碼。具體請參考： https://www.cloudera.com/docum

cdh5.13 配置LZO壓縮模式

下載安裝包 wget http://archive.cloudera.com/gplextras5/parcels/5.13.3/GPLEXTRAS-5.13.3-1.cdh5.13.3.p0.2-el7.parcel wget http://archive.cloudera.

hadoop 支援hbase 各個版本情況

由於Hbase是建立在HDFS上的，而HDFS又是Hadoop的一部分，因此安裝Hbase的時候需要先安裝Hadoop; 關於Hbase與Hadoop的版本對應關係，是有一定的要求的，HBase各版本和Hadoop版本的支援情況，官方有相關說明，下面表格中： "S" =

hadoop2.2支援snappy壓縮安裝及配置

由於我們的生產環境沒有root使用者使用許可權，且為了不在所有主機上安裝一些依賴外掛，因此我啟用了使用hadoop native本地庫，即在core-site.xml中配置了： <property>

gzip工具類支援字串壓縮解壓縮

import java.io.ByteArrayInputStream; import java.io.ByteArrayOutputStream; import java.io.File; import java.io.FileInputStream;

驚喜：opera換webkit核心後完美支援SDCH壓縮協議

csdn發郵件警告說再不發文章就取消我的專家頭銜了。呵呵，其實我只是在csdn暴露了我的帳號密碼以後不得已把csdn密碼修改成一個我自己都記不住的貨，所以很少上來了。言歸正傳。我們從去年就在QQ空間上線了SDCH壓縮協議支援，並且取得了非常好的壓縮效果。那這次opera放棄P

Hadoop支援的多種檔案系統URI格式

org.apache.hadoop.fs.FileSystem 這個抽象類代表hadoop的一個檔案系統，目前系統已經有很多個具體實現：檔案系統 URI字首 hadoop的具體實現類 Local

10.5 zipfile--支援ZIP壓縮包

ZIP檔案格式是一個通用的壓縮包，本模組主要提供了對這種格式檔案進行建立、讀取、寫入、增加和讀取檔案列表。本模組不支援多卷壓縮的功能，普通的ZIP檔案只能4G大小，如果想使用更大的檔案要使用ZIP64擴充套件方式。本模組支援開啟有加密的壓縮包檔案，但不支援建立加密的壓縮包檔案

firefox提示內容編碼錯誤無法顯示您嘗試檢視的頁面，因為它使用了無效或者不支援的壓縮格式。

早上有同事問起這個：剛好發現了 php環境相容性問題-- 內容編碼錯誤無法顯示您嘗試檢視的頁面，因為它使用了無效或者不支援的壓縮格式。請聯絡網站的所有者以告知此問題。以前也遇到過同樣的問題，記得是PHP程式碼ob_start('ob_gzhandler')導致

不僅是HDFS，Hadoop支援多種檔案系統

org.apache.hadoop.fs.FileSystem 這個抽象類代表hadoop的一個檔案系統，目前系統已經有很多個具體實現：檔案系統 URI字首 hadoop的具體實現類 Local

hadoop的檔案壓縮

目前在Hadoop中用得比較多的有lzo，gzip，snappy，bzip2這4種壓縮格式，筆者根據實踐經驗介紹一下這4種壓縮格式的優缺點和應用場景，以便大家在實踐中根據實際情況選擇不同的壓縮格式。1 gzip壓縮優點：壓縮率比較高，而且壓縮/解壓速度也比較快；hadoo

4.hadoop中的壓縮

所有的壓縮演算法都會考慮時間和空間的權衡列出一些可以用於Hadoop的常見壓縮格式以及特性 Hadoop壓縮api應用例項獲得具體的[編碼/解碼]方式 egg1:通過傳入壓縮的方式

對TextFile格式檔案的lzo壓縮建立index索引

hadoop中可以對檔案進行壓縮，可以採用gzip、lzo、snappy等壓縮演算法。對於lzo壓縮，常用的有LzoCodec和lzopCodec，可以對sequenceFile和TextFile進

Hadoop支援Lzo壓縮

1.前置要求

2.安裝 lzo

2.1 下載

2.2 增加引數

3. 安裝hadoop-lzo

3.1 下載 & 解壓

3.2 修改hadoop-lzo-master下的pom.xml檔案

3.3 增加配置

3.4 開始編譯

3.5 執行如下操作

4.配置hadoop配置檔案

4.1 修改 vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh

4.2 修改 vim $HADOOP_HOME/etc/hadoop/core-site.

4.3 修改 vim $HADOOP_HOME/etc/hadoop/mapred-site.xml

4.4 重啟hadoop

5.hadoop使用Lzo

5.1 資料準備

5.2 上傳資料到hdfs中

5.3 執行hadoop wc 應用

5.4 給lzo檔案建立索引

5.5 更改

相關推薦