Hadoop-之配置LZO壓縮完整手冊

阿新 • • 發佈：2021-01-10

Hadoop-之配置LZO壓縮完整手冊

1 前言

HADOOP本身除了GIP、DEFLATE、BZIP2等壓縮之外是不支援LZO壓縮的，所以我們加入需要讓HDFS支援LZO(一種可切分的壓縮形式，壓縮率也很低)壓縮，我們需要引入Twitter的Hadoop-LZO,參考地址為：https://github.com/twitter/hadoop-lzo/

2 hadoop-lzo的編譯-構建與配置流程

2.1 環境準備

maven
- 下載安裝，環境變數，修改阿里雲映象
gcc-c++
zlib-devel
autoconf

automake
libtool

#除了maven，其它的前提條件通過yum進行安裝
yum -y install gcc-c++ lzo-devel zlib-devel autoconf automake libtool

2.1 下載安裝並編譯lzo

#step1 
wget https://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz

#step2
tar -zxvf lzo-2.10.tar.gz -C /opt/module 

#step3 
cd /opt/module/lzo-2.10

#step4
./configure --enable-shared --prefix /usr/local/hadoop/lzo

#step5 

make 
make install

2.2 編譯hadoop-lzo原始碼

#step1 下載hadoop-lzo原始碼
wget https://github.com/twitter/hadoop-lzo/archive/master.zip

#step2 解壓，並修改配置pom.xml檔案
<hadoop.current.version>2.7.7</hadoop.current.version>

#step3 宣告2個臨時的環境變數
export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include 
export LIBRARY_PATH= 
/usr/local/hadoop/lzo/lib 

#step4 編譯
cd /hadoop-lzo-master
mvn package -Dmaven.test.skip=true

#step5 進入target目錄
#hadoop-lzo 0.4.21-SNAPSHOT.jar就是編譯成功的hadoop-lzo元件
pwd 
>>>>>
/opt/module/hadoop-lzo-master/target

lS -ahl
>>>>>
drwxr-xr-x. 2 root root   4096 Jan  9 15:19 antrun
drwxr-xr-x. 4 root root   4096 Jan  9 15:20 apidocs
drwxr-xr-x. 5 root root     77 Jan  9 15:19 classes
drwxr-xr-x. 3 root root     25 Jan  9 15:19 generated-sources
-rw-r--r--. 1 root root 188965 Jan  9 15:19 hadoop-lzo-0.4.21-SNAPSHOT.jar
-rw-r--r--. 1 root root 180845 Jan  9 15:20 hadoop-lzo-0.4.21-SNAPSHOT-javadoc.jar
-rw-r--r--. 1 root root  52042 Jan  9 15:19 hadoop-lzo-0.4.21-SNAPSHOT-sources.jar
drwxr-xr-x. 2 root root     71 Jan  9 15:20 javadoc-bundle-options
drwxr-xr-x. 2 root root     28 Jan  9 15:19 maven-archiver
drwxr-xr-x. 3 root root     28 Jan  9 15:19 native
drwxr-xr-x. 3 root root     18 Jan  9 15:19 test-classes

2.3 將編譯好的jar包放入hadoop的common目錄下

cp hadoop-lzo-0.4.21-SNAPSHOT.jar /opt/module/hadoop-2.7.7/share/hadoop/common/

2.4 分發jar包到其它的節點

cd /opt/module/hadoop-2.7.7/share/hadoop/common/
xsync hadoop-lzo-0.4.21-SNAPSHOT.jar

2.4 配置core-site.xml檔案，配置LZO,並分發

<!--vim core-site.xml-->
<!--配置hadoop的lzo壓縮支援-->
<property>
        <name>io.compression.codecs</name>
        <value>
		org.apache.hadoop.io.compress.GzipCodec,
		org.apache.hadoop.io.compress.DefaultCodec,
		org.apache.hadoop.io.compress.BZip2Codec,
		org.apache.hadoop.io.compress.SnappyCodec,
		com.hadoop.compression.lzo.LzoCodec,
		com.hadoop.compression.lzo.LzopCodec
		</value>
</property>
<property>
        <name>io.compression.codec.lzo.class</name>
        <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

xsync core-site.xml

3 驗證是否配置lzo成功

執行流程如下。

#step1 在本地建立一個檔案test.txt
touch test.txt 
echo mother fucker damn shit >> test.txt 

#step2 上傳至hdfs
hadoop fs -mkdir /input 
hadoop fs -put test.txt /input

#step3 通過自帶的mapreduce包執行wordcount命令如下，將結果輸出到/output,需指定mapreduce的輸出端壓縮配置引數:mapreduce.output.fileoutputformat.compress=true mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec
hadoop jar /opt/module/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount -Dmapreduce.output.fileoutputformat.compress=true -Dmapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec /input /output

最終假如在HDFS的web端看到如下結果，說明lzo配置成功。切記
輸出端lzo壓縮結果

我們平常說的lzo壓縮是使用com.hadoop.compression.lzo.LzopCodec
如果使用的是com.hadoop.compression.lzo.LzoCodec，那麼生成的檔案就是xx.lzo_deflate

Hadoop-之配置LZO壓縮完整手冊

技術標籤：Hadoophadoophdfs大資料mapreduce Hadoop-之配置LZO壓縮完整手冊 1 前言 HADOOP本身除了GIP、DEFLATE、BZIP2等壓縮之外是不支援LZO壓縮的，所以我們加入需要讓HDFS支援LZO(一種可切分的壓縮形式，壓縮

Hadoop之Lzo壓縮配置

技術標籤：叢集搭建Hadoophadoop大資料 Hadoop之Lzo壓縮配置一、hadoop-lzo編譯 hadoop本身並不支援lzo壓縮，故需要使用twitter提供的hadoop-lzo開源元件。hadoop-lzo需依賴hadoop和lzo進行編譯，編譯步驟如下

Hadoop【LZO壓縮配置】

目錄一.編譯二.相關配置三.為LZO檔案建立索引一.編譯 hadoop本身並不支援lzo壓縮，故需要使用twitter提供的hadoop-lzo開源元件。hadoop-lzo需依賴hadoop和lzo進行編譯，編譯步驟如下。

hadoop 支援 LZO 壓縮配置

1）hadoop 本身並不支援 lzo 壓縮，故需要使用 twitter 提供的 hadoop-lzo 開源元件。hadoop

雲端計算課程實驗之安裝Hadoop及配置偽分散式模式的Hadoop

一．實驗目的 1. 掌握Linux虛擬機器器的安裝方法。 2. 掌握Hadoop的偽分散式安裝方法。

Spring Boot載入配置檔案的完整步驟

前言本文針對版本2.2.0.RELEASE來分析SpringBoot的配置處理原始碼，通過檢視SpringBoot的原始碼來弄清楚一些常見的問題比如：

IntelliJ IDEA之配置JDK的4種方式(小結)

一、新建專案前配置JDK 開啟IDEA整合開發環境工具，點選：File--Project Structure，如下圖

PyCharm使用之配置SSH Interpreter的方法步驟

在文章PyCharm使用之利用Docker映象搭建Python開發環境中，該文章介紹了在PyCharm中如何利用Docker映象搭建Python開發環境。在本文中，將會介紹如何使用PyCharm來配置SSH Interpreter，本文中的SSH Interpreter用Doc

Thinkphp 框架配置操作之配置載入與讀取配置例項分析

本文例項講述了Thinkphp 框架配置操作之配置載入與讀取配置。分享給大家供大家參考，具體如下：

Linux操作篇之配置DNS服务（一）

一、什么是DN。　　域名（Domain Name）又称网域，是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称，用于在数据传输时对计算机的定位标识（有时也指地理位置）。它的作用只是为了便于人们对网

Linux操作篇之配置DNS服務（一）

一、什麼是DN。　　域名（Domain Name）又稱網域，是由一串用點分隔的名字組成的Internet上某一臺計算機或計算機組的名稱，用於在資料傳輸時對計算機的定位標識（有時也指地理位置）。它的作用只是為了便於人們對網

4、MyBatis初級教程之配置解析

5、配置解析核心配置檔案 mybatis-config.xml 系統核心配置檔案 MyBatis 的配置檔案會深深影響 MyBatis 行為的設定和屬性資訊。

hadoop叢集配置

1.叢集部署規劃 hadoop11 hadoop12 hadoop13 HDFS NameNode DataNode DataNode SecondaryNameNode DataNode YARN

微服務架構之Nacos配置中心之配置MySQL資料庫

Nacos 在 0.7 版本之前，預設使用的是嵌入式資料庫 Apache Derby 來儲存資料（內嵌的資料庫會隨著 Nacos 一起啟動，無需額外安裝）；0.7 版本及以後，增加了對 MySQL 資料來源的支援。

系列文章：spring的xml配置是如何對應註解配置的之配置介紹

從我們熟悉的web.xml開始... 1、web.xml：指定spring配置檔案bean.xml(預設applicationContext.xml)

跟我一起學.NetCore之配置初體驗

前言配置對於程式來說，絕對是必不可少，畢竟配置是應用或元件動態適應各種環境的最優方案，沒有之一(我還年輕，我是這麼認為的)；之前可能用的最多的配置源是命令列、檔案(XML、Json、INI)，Web中對於Asp.Net程式設

CDH5: 使用parcels配置lzo

一、Parcel 部署步驟 1 下載: 首先需要下載 Parcel。下載完成後，Parcel 將駐留在 Cloudera Manager 主機的本地目錄中。2 分配: Parcel 下載後，將分配到群集中的所有主機上並解壓縮。3 啟用: 分配後，啟用 Parcel

nginx服務之配置https和監控狀態頁面

目錄1. 配置https2. zabbix監控狀態介面2.1 開啟狀態介面2.2 取出狀態的值2.3 建立監控指令碼2.4 安裝zabbix（客戶端）3. 配置監控3.1 建立主機組，新增主機3.2 新增監控項3.3 新增觸發器3.4 檢視監控狀態3.5 同樣把

kubernetes之配置mysql的configmap

一.簡單說明我們在執行一個mysql服務時，mysql服務有兩類重要的資料，一個是儲存的資料、另一個是儲存的配置檔案。儲存資料這裡我們可以使用掛載PVC來實現持久化儲存，配置檔案這裡我們如果實現和容器的解耦，可以採

nginx1.18配置brotli壓縮

個人學習筆記，謝絕轉載！！！原文：https://www.cnblogs.com/wshenjin/p/13522283.html 安裝

Hadoop-之配置LZO壓縮完整手冊

Hadoop-之配置LZO壓縮完整手冊

1 前言

2 hadoop-lzo的編譯-構建與配置流程

2.1 環境準備

2.1 下載安裝並編譯lzo

2.2 編譯hadoop-lzo原始碼

2.3 將編譯好的jar包放入hadoop的common目錄下

2.4 分發jar包到其它的節點

2.4 配置core-site.xml檔案，配置LZO,並分發

3 驗證是否配置lzo成功

相關推薦