0003-如何在CDH中使用LZO壓縮

阿新 • • 發佈：2018-11-14

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。

1.問題描述

CDH中預設不支援Lzo壓縮編碼，需要下載額外的Parcel包，才能讓Hadoop相關元件如HDFS，Hive，Spark支援Lzo編碼。

具體請參考：

https://www.cloudera.com/documentation/enterprise/latest/topics/cm\_mc\_gpl\_extras.html

https://www.cloudera.com/documentation/enterprise/latest/topics/cm\_ig\_install\_gpl\_extras.html#xd\_583c10bfdbd326ba-3ca24a24-13d80143249--7ec6

首先我在沒做額外配置的情況下，生成Lzo檔案並讀取。我們在Hive中建立兩張表，test_table和test_table2，test_table是文字檔案的表，test_table2是Lzo壓縮編碼的表。如下：

create external table test_table(s1 string,s2 string)row format delimited fields terminated by '#'location '/lilei/test_table'; insert into test_table values('1','a'),('2','b'); create external table test_table2(s1 string,s2 string)row format delimited fields terminated by '#'location '/lilei/test_table2';

通過beeline訪問Hive並執行上面命令：

0003-如何在CDH中使用LZO壓縮

查詢test_table中的資料：

0003-如何在CDH中使用LZO壓縮

將test_table中的資料插入到test_table2，並設定輸出檔案為lzo壓縮：

set mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec;set hive.exec.compress.output=true;set mapreduce.output.fileoutputformat.compress=true;set mapreduce.output.fileoutputformat.compress.type=BLOCK; insert overwrite table test_table2 select * from test_table;

在Hive中執行報錯如下：

Error:Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)

0003-如何在CDH中使用LZO壓縮

通過Yarn的8088可以發現是因為找不到Lzo壓縮編碼：

Compression codec com.hadoop.compression.lzo.LzoCodec was not found.

0003-如何在CDH中使用LZO壓縮

2.解決辦法

通過Cloudera Manager的Parcel頁面配置Lzo的Parcel包地址：

0003-如何在CDH中使用LZO壓縮

注意：如果叢集無法訪問公網，需要提前下載好Parcel包併發布到httpd

下載->分配->啟用

0003-如何在CDH中使用LZO壓縮

配置HDFS的壓縮編碼加入Lzo：

com.hadoop.compression.lzo.LzoCodeccom.hadoop.compression.lzo.LzopCodec

0003-如何在CDH中使用LZO壓縮

儲存更改，部署客戶端配置，重啟整個叢集。

0003-如何在CDH中使用LZO壓縮

等待重啟成功：

0003-如何在CDH中使用LZO壓縮

再次插入資料到test_table2，設定為Lzo編碼格式：

set mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec;set hive.exec.compress.output=true;set mapreduce.output.fileoutputformat.compress=true;set mapreduce.output.fileoutputformat.compress.type=BLOCK; insert overwrite table test_table2 select * from test_table;

插入成功：

0003-如何在CDH中使用LZO壓縮

2.1 Hive驗證

首先確認test_table2中的檔案為Lzo格式：

0003-如何在CDH中使用LZO壓縮

在Hive的beeline中進行測試：

0003-如何在CDH中使用LZO壓縮

Hive基於Lzo壓縮檔案執行正常。

2.2 Spark SQL驗證

var textFile=sc.textFile("hdfs://ip-172-31-8-141:8020/lilei/test_table2/000000_0.lzo_deflate") textFile.count() sqlContext.sql("select * from test_table2")

0003-如何在CDH中使用LZO壓縮

SparkSQL基於Lzo壓縮檔案執行正常。

醉酒鞭名馬，少年多浮誇！嶺南浣溪沙，嘔吐酒肆下！摯友不肯放，資料玩的花！

0003-如何在CDH中使用LZO壓縮

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。

0003-如何在CDH中使用LZO壓縮

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。 1.問題描述 CDH中預設不支援Lzo壓縮編碼，需要下載額外的Parcel包，才能讓Hadoop相關元件如HDFS，Hive，Spark支援Lzo編碼。具體請參考： https://www.cloudera.com/docum

Hive中使用LZO壓縮的方式

1.建立表的時候指定為lzo格式 CREATE EXTERNAL TABLE foo ( columnA string, columnB string ) PARTITIO

hive中對lzo壓縮檔案建立索引實現並行處理

1,確保建立索引 $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/hiv

【總結】spark按文本格式和Lzo格式處理Lzo壓縮文件的比較

spark lzotextinputformat1、描述spark中怎麽加載lzo壓縮格式的文件2、比較lzo格式文件以textFile方式和LzoTextInputFormat方式計算數據，Running Tasks個數的影響 a.確保lzo文件所在文件夾中生成lzo.index索引文件 b.以

Linux中常用壓縮命令

指定 log 常用 gpo 所有包名壓縮命令文件名 body .zip格式壓縮 zip 壓縮文件名源文件壓縮文件 zip -r 壓縮文件名源目錄壓縮目錄 .zip格式解壓縮 unzip 壓縮文件解壓.zip文件 .gz格式壓

Linux中解壓縮命令gzip和unzip的一點說明

保留定向 -c 一點 test 重定向 gzip 默認 nbsp Linux 常用的壓縮命令有 gzip 和 zip，兩種壓縮包的結尾不同：zip 壓縮的後文件是 *.zip ，而 gzip 壓縮後的文件 *.gz ;相應的解壓縮命令則是 gunzip 和 unzip g

Linux中zip壓縮和unzip解壓縮命令詳解

檢查驗證信息大小寫 -o 所有壓縮 tab 除了 1、把/home目錄下面的mydata目錄壓縮為mydata.zipzip -r mydata.zip mydata #壓縮mydata目錄2、把/home目錄下面的mydata.zip解壓到mydatabak目錄裏

CentOS中zip壓縮和unzip解壓縮命令詳解

window centos fedora 搜搜命令詳解剛才錯誤完整壓縮文件以下命令均在/home目錄下操作cd /home #進入/home目錄1、把/home目錄下面的mydata目錄壓縮為mydata.zipzip -r mydata.zip mydata

Linux中的壓縮命令

bzip2 lena tar inux --help nbsp bsp name help Linux下常見的壓縮包格式有5種:zip tar.gz tar.bz2 tar.xz tar.Z 其中tar是種打包格式,gz和bz2等後綴才是指代壓縮方式:gzip和bzip2

MapReduce 讀寫 lzo 壓縮檔案詳細

問題：用java編寫mapreduce程式時，lzo格式作為輸入跟用文字作為輸入一樣，可以把lzo檔案當做文字直接使用，但是一個lzo檔案會分在一個map上，如果lzo檔案過大，希望用多個map時，調整mapred.min.split.size和mapred.max.split.size就

CDH中安裝Hue連線不上資料庫 Unexpected error. Unable to verify database connection 完美解決方案

在安裝CDH時，走到驗證資料庫連線部分時候，Hue總是驗證不過去，報錯為： Unexpected error. Unable to verify database connection。原因大都是因為缺少環境包所致。我安裝的過程中分別使用過postgresql和mysql，都出現過相

0003-OpenCV中重對映函式remap的使用,以影象在x和y方向的翻轉為例!

首先介紹一下remap函式！ remap就是用來做重對映的，重對映的含義這裡先不講，大家看完這篇文章就知道了！函式原型如下: C++: void remap(InputArray src, OutputArray dst, InputArray map1, InputArray map2, i

cdh中線上安裝及使用Phoenix

1.1：下載CDH 需要parcel包下載地址： http://archive.cloudera.com/cloudera-labs/phoenix/parcels/latest/ CLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3.0.p0.000-el

kafka manger最方便的安裝教程,與cdh中的kafka絕配

一、kafka-manager 功能簡介 1.管理多個kafka叢集 2.便捷的檢查kafka叢集狀態(topics,brokers,備份分佈情況,分割槽分佈情況) 3.選擇你要執行的副本 4.基於當前分割槽狀況進行 5.可以選擇topic配置並建立topic(0.8.1.1和0.8.2

0030-如何在CDH中安裝Kudu&Spark2&Kafka

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。 1.概述在CDH的預設安裝包中，是不包含Kafka，Kudu和Spark2的，需要單獨下載特定的Parcel包才能安裝相應服務。本文件主要描述在離線環境下，在CentOS6.5作業系統上基於CDH5.12.1叢集，使用Cloude

cdh5.13 配置LZO壓縮模式

下載安裝包 wget http://archive.cloudera.com/gplextras5/parcels/5.13.3/GPLEXTRAS-5.13.3-1.cdh5.13.3.p0.2-el7.parcel wget http://archive.cloudera.

python遞迴解壓資料夾中所有壓縮包

1. 簡述遞迴解壓資料夾中的所有壓縮包到指定資料夾 2. 環境配置 python解壓rar檔案需要安裝依賴庫（python-unrar） Windows：在 RARLab 官

Linux中各種壓縮檔案的壓縮/解壓方式

一般用tar命令可以進行壓縮/解壓（fileName指目標檔案） tar -(cxtzjJvfpPN) fileName 其中： -c ：建立一個壓縮檔案的引數指令（打包成tar，不是壓縮）； -x ：解開一個壓縮檔案的引數指令（解開tar包）！

Linux中的壓縮和解壓縮--tar

引數解釋 tar命令：用途比較多，可以用於打包，壓縮和解壓縮等打包和壓縮的區別打包：將一堆檔案或目錄變成一個檔案壓縮：將一個大檔案，通過壓縮演算法變成一個小檔案 Linux中的很多壓縮演算法只能對一個檔案進行壓縮，所以我們要壓縮的話，必須先進行打包常用的壓縮演算法 g

Hadoop支援Lzo壓縮

1.前置要求編譯安裝好hadoop java & maven 安裝配置好安裝前置庫 yum -y install lzo-devel zlib-devel gcc autoconf automake libtool 2.安裝

0003-如何在CDH中使用LZO壓縮

2.1 Hive驗證

相關推薦