Hadoop之Lzo壓縮配置

阿新 • • 發佈：2020-12-13

Hadoop之Lzo壓縮配置

一、hadoop-lzo編譯

hadoop本身並不支援lzo壓縮，故需要使用twitter提供的hadoop-lzo開源元件。hadoop-lzo需依賴hadoop和lzo進行編譯，編譯步驟如下。

環境準備
maven（下載安裝，配置環境變數，修改sitting.xml加阿里雲映象）
gcc-c++
zlib-devel
autoconf
automake
libtool
通過yum安裝即可，yum -y install gcc-c++ lzo-devel zlib-devel autoconf automake libtool
下載、安裝並編譯LZO

wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz

tar -zxvf lzo-2.10.tar.gz

cd lzo-2.10

./configure -prefix=/usr/local/hadoop/lzo/

make

make install
編譯hadoop-lzo原始碼

2.1 下載hadoop-lzo的原始碼，下載地址：https://github.com/twitter/hadoop-lzo/archive/master.zip

2.2 解壓之後，修改pom.xml
```
   <hadoop.current.version 
>3.1.3</hadoop.current.version>
```
2.3 宣告兩個臨時環境變數
```
export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include
 export LIBRARY_PATH=/usr/local/hadoop/lzo/lib 
```
2.4 編譯
進入hadoop-lzo-master，執行maven編譯命令
```
mvn package -Dmaven.test.skip=true
```
2.5 進入target，hadoop-lzo-0.4.21-SNAPSHOT.jar 即編譯成功的hadoop-lzo元件

二、Hadoop相關配置

1）將編譯好後的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/

[[email protected] common]$ pwd
/opt/module/hadoop-3.1.3/share/hadoop/common
[[email protected] common]$ ls
hadoop-lzo-0.4.20.jar

2）同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104

[[email protected] common]$ xsync hadoop-lzo-0.4.20.jar

3）core-site.xml增加配置支援LZO壓縮

<configuration>
    <property>
        <name>io.compression.codecs</name>
        <value>
            org.apache.hadoop.io.compress.GzipCodec,
            org.apache.hadoop.io.compress.DefaultCodec,
            org.apache.hadoop.io.compress.BZip2Codec,
            org.apache.hadoop.io.compress.SnappyCodec,
            com.hadoop.compression.lzo.LzoCodec,
            com.hadoop.compression.lzo.LzopCodec
        </value>
    </property>

    <property>
        <name>io.compression.codec.lzo.class</name>
        <value>com.hadoop.compression.lzo.LzoCodec</value>
    </property>
</configuration>

4）同步core-site.xml到hadoop103、hadoop104

[[email protected] hadoop]$ xsync core-site.xml

5）啟動及檢視叢集

[[email protected] hadoop-3.1.3]$ sbin/start-dfs.sh
[[email protected] hadoop-3.1.3]$ sbin/start-yarn.sh

三、專案經驗之LZO建立索引

建立LZO檔案的索引，LZO壓縮檔案的可切片特性依賴於其索引，故我們需要手動為LZO壓縮檔案建立索引。若無索引，則LZO檔案的切片只有一個。
```
hadoop jar /path/to/your/hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer big_file.lzo
```

測試
（1）將bigtable.lzo（200M）上傳到叢集的根目錄

[[email protected] module]$ hadoop fs -mkdir /input
[[email protected] module]$ hadoop fs -put bigtable.lzo /input

（2）執行wordcount程式

[[email protected] module]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-
examples-3.1.3.jar wordcount -Dmapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat /input 	 /output1

在這裡插入圖片描述

（3）對上傳的LZO檔案建索引

[[email protected] module]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar 
 com.hadoop.compression.lzo.DistributedLzoIndexer /input/bigtable.lzo

（4）再次執行WordCount程式

[[email protected] module]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-
examples-3.1.3.jar wordcount -Dmapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat 
/input /output2

在這裡插入圖片描述

注意：如果以上任務，在執行過程中報如下異常
Container [pid=8468,containerID=container_1594198338753_0001_01_000002] is running 318740992B beyond the ‘VIRTUAL’

memory limit. Current usage: 111.5 MB of 1 GB physical memory used; 2.4 GB of 2.1 GB virtual memory used. 
Killing container.
Dump of the process-tree for container_1594198338753_0001_01_000002 :

解決辦法：在hadoop102的/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml檔案中增加如下配置，然後分發到hadoop103、hadoop104伺服器上，並重新啟動叢集。

<!--是否啟動一個執行緒檢查每個任務正使用的實體記憶體量，如果任務超出分配值，則直接將其殺掉，預設是true -->
<property>
   <name>yarn.nodemanager.pmem-check-enabled</name>
   <value>false</value>
</property>

<!--是否啟動一個執行緒檢查每個任務正使用的虛擬記憶體量，如果任務超出分配值，則直接將其殺掉，預設是true -->
<property>
   <name>yarn.nodemanager.vmem-check-enabled</name>
   <value>false</value>
</property>

Hadoop之Lzo壓縮配置

技術標籤：叢集搭建Hadoophadoop大資料 Hadoop之Lzo壓縮配置一、hadoop-lzo編譯 hadoop本身並不支援lzo壓縮，故需要使用twitter提供的hadoop-lzo開源元件。hadoop-lzo需依賴hadoop和lzo進行編譯，編譯步驟如下

Hadoop【LZO壓縮配置】

目錄一.編譯二.相關配置三.為LZO檔案建立索引一.編譯 hadoop本身並不支援lzo壓縮，故需要使用twitter提供的hadoop-lzo開源元件。hadoop-lzo需依賴hadoop和lzo進行編譯，編譯步驟如下。

hadoop 支援 LZO 壓縮配置

1）hadoop 本身並不支援 lzo 壓縮，故需要使用 twitter 提供的 hadoop-lzo 開源元件。hadoop

Hadoop-之配置LZO壓縮完整手冊

技術標籤：Hadoophadoophdfs大資料mapreduce Hadoop-之配置LZO壓縮完整手冊 1 前言 HADOOP本身除了GIP、DEFLATE、BZIP2等壓縮之外是不支援LZO壓縮的，所以我們加入需要讓HDFS支援LZO(一種可切分的壓縮形式，壓縮

vue效能優化之Gzip壓縮

1.安裝依賴： compression-webpack-plugin是一個非常好用的壓縮外掛，適用於vue-cli版本2以上，

Spring實戰之使用@Resource配置依賴操作示例

本文例項講述了Spring使用@Resource配置依賴操作。分享給大家供大家參考，具體如下：

3.redis单一持久化模式之优化配置

1.RDB最佳配置 #save 900 1 #save 300 10 #save 60 10000 dbfilename dump-${port}.rdb dir /bigdiskpath stop-writes-on-bgsave-error yes

Java學習基礎之安裝JDK/配置JDK環境&IEDA工具安裝

1. 安裝JDK 解釋: JDK是Java編寫環境--開發環境注: 安裝路徑不可出現中文及標點符號。比如：D:\\Java\\jdk8

MySQL資料庫入門之多例項配置方法詳解

本文例項講述了MySQL資料庫入門之多例項配置方法。分享給大家供大家參考，具體如下：

JDK9的新特性之String壓縮和字元編碼的實現方法

簡介 String的底層儲存是什麼？相信大部分人都會說是陣列。如果要是再問一句，那麼是以什麼陣列來儲存呢？相信不同的人有不同的答案。

Mariadb之日誌相關配置

　　前面我們聊到了mariadb的事務，以及事務隔離級別，回顧請參考https://www.cnblogs.com/qiuhom-1874/p/13198186.html；今天我們來聊一聊mariadb的日誌相關話題；mariadb日誌有6種，分別是查詢日誌（general_log）

解析SpringBoot專案開發之Gzip壓縮過程

為了減少資料在網路中的傳輸量，從而減少傳輸時長，增加使用者體驗，瀏覽器大都是支援Gzip壓縮技術的，http的請求頭 Accept-Encoding:gzip,deflate 就表示這次請求可以接受Gzip壓縮後的資料，圖片不要進行壓縮，因為

Java應用伺服器之tomcat基礎配置（一）

　　前文我們聊到了java相關重要元件和它們之間的關係以及jdk、tomcat部署回顧請參考https://www.cnblogs.com/qiuhom-1874/p/13302938.html；今天我們來聊一聊tomcat的配置使用相關話題；

Java應用伺服器之tomcat基礎配置（一）（轉載）

Java應用伺服器之tomcat基礎配置（二）

　　前文我們聊了下tomcat的配置檔案相關格式和元件簡介以及webapp目錄結構，manger部署和host managera部署，回顧請參考https://www.cnblogs.com/qiuhom-1874/p/13307892.html；今天我們來詳細聊一聊server.xml中的

typescript 起步之安裝及配置 ts-node 環境變數

步驟一：全域性安裝 typescript npm ``install` `-g typescript　　　　步驟二：全域性安裝 ts-node

Vue 新手學習筆記：vue-element-admin 之安裝，配置及入門開發

所屬專欄：Vue 開發學習進步說實話都是逼出來的，對於前端沒幹過ES6都不會的人，vue視訊也就看了基礎的一些但沒辦法，接下來做微服務架構，前端就用 vue，這塊你負責。。。。說多了都是淚，腳手架框架布

zabbix之主動監控配置

主動監控配置 agent端配置 [root@localhost ~]# egrep -v \"(^$|^#)\" /etc/zabbix/zabbix_agentd.conf

java檔案操作之war壓縮解壓

文章來源： java實現可壓縮或解壓縮WAR檔案 http://www.androidstar.cn/java%E5%AE%9E%E7%8E%B0%E5%8F%AF%E5%8E%8B%E7%BC%A9%E6%88%96%E8%A7%A3%E5%8E%8B%E7%BC%A9war%E6%96%87%E4%BB%B6/

SpringAop之日誌(讀配置檔案方式)

讀配置檔案的目的在於減少程式碼上的冗餘，這個冗餘通常指加註解之類的。

Hadoop之Lzo壓縮配置

Hadoop之Lzo壓縮配置

一、hadoop-lzo編譯

二、Hadoop相關配置

三、專案經驗之LZO建立索引

相關推薦