hadoop mapreduce開發實踐之輸出數據壓縮

阿新 • • 發佈：2018-02-02

實踐 shuff file apr 存儲壓縮 ras 最終 item

1、hadoop 輸出數據壓縮

1.1、為什麽要壓縮？

輸出數據較大時，使用hadoop提供的壓縮機制對數據進行壓縮，可以指定壓縮的方式。減少網絡傳輸帶寬和存儲的消耗；
可以對map的輸出進行壓縮（map輸出到reduce輸入的過程，可以shuffle過程中網絡傳輸的數據量）
可以對reduce的輸出結果進行壓縮（最終保存到hdfs上的數據，主要是減少占用HDFS存儲）

mapper和reduce程序都不需要更改，只需要在streaming程序運行中指定參數即可；

-jobconf  "mapred.compress.map.output=true" -jobconf  "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" -jobconf  "mapred.output.compress=true" -jobconf  "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \

1.2、 run_streaming程序

#!/bin/bash

HADOOP_CMD="/home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.13.0/bin/hadoop"
STREAM_JAR_PATH="/home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.13.0/share/hadoop/tools/lib/hadoop-streaming-2.6.0-cdh5.13.0.jar"

INPUT_FILE_PATH="/input/The_Man_of_Property"
OUTPUT_FILE_PATH="/output/wordcount/CacheArchiveCompressFile"

$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_FILE_PATH

$HADOOP_CMD jar $STREAM_JAR_PATH                 -input $INPUT_FILE_PATH                 -output $OUTPUT_FILE_PATH                 -jobconf "mapred.job.name=wordcount_wordwhite_cacheArchivefile_demo"                 -jobconf  "mapred.compress.map.output=true"                 -jobconf  "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec"                 -jobconf  "mapred.output.compress=true"                 -jobconf  "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec"                 -mapper "python mapper.py WHF.gz"                 -reducer "python reducer.py"                 -cacheArchive "hdfs://localhost:9000/input/cachefile/wordwhite.tar.gz#WHF.gz"                 -file "./mapper.py"                 -file "./reducer.py"

1.3、執行程序

$ chmod +x run_streaming_compress.sh
$ ./run_streaming_compress.sh
... 中間輸出省略 ...
18/02/02 10:51:50 INFO streaming.StreamJob: Output directory: /output/wordcount/CacheArchiveCompressFile

1.4、查看結果

$ hadoop fs -ls /output/wordcount/CacheArchiveCompressFile
Found 2 items
-rw-r--r--   1 hadoop supergroup          0 2018-02-02 10:51 /output/wordcount/CacheArchiveCompressFile/_SUCCESS
-rw-r--r--   1 hadoop supergroup         81 2018-02-02 10:51 /output/wordcount/CacheArchiveCompressFile/part-00000.gz
$ hadoop fs -get /output/wordcount/CacheArchiveCompressFile/part-00000.gz ./
$ gunzip part-00000.gz 
$ cat part-00000 
and 2573
had 1526
have    350
in  1694
or  253
the 5144
this    412
to  2782

2、hadoop streaming 語法參考

http://blog.51cto.com/balich/2065419

hadoop mapreduce開發實踐之輸出數據壓縮

實踐 shuff file apr 存儲壓縮 ras 最終 item 1、hadoop 輸出數據壓縮 1.1、為什麽要壓縮？輸出數據較大時，使用hadoop提供的壓縮機制對數據進行壓縮，可以指定壓縮的方式。減少網絡傳輸帶寬和存儲的消耗；可以對map的輸出進行壓縮（m

hadoop mapreduce開發實踐之HDFS文件分發by streaming

submit ast nap direct 如同 lis slots cal ado 1、分發HDFS文件（-cacheFile）需求：wordcount（只統計指定的單詞），但是該文件非常大,可以先將該文件上傳到hdfs，通過-cacheFile的方式進行分發； -ca

hadoop mapreduce開發實踐之HDFS壓縮文件（-cacheArchive）

delete info dset odi .gz .tar.gz package cal 2.6.0 1、分發HDFS壓縮文件（-cacheArchive）需求：wordcount（只統計指定的單詞【the,and,had...】），但是該文件存儲在HDFS上的壓縮文件,

使用ADO實現BLOB數據的存取 -- ADO開發實踐之二

好的 length actual 詳細介紹 int 數字 .sh item 並且使用ADO實現BLOB數據的存取 -- ADO開發實踐之二 http://www.360doc.com/content/11/0113/16/4780948_86256633.shtml 一

cocos2d-html5開發之本地數據存儲

本地 ava 一個使用 class gin 自己記得 default 做遊戲時常常須要的一個功能呢就是數據的保存了，比方遊戲最高分、得到的金幣數、物品的數量等等。cocos2d-html5使用了html5。所以html5的數據保存方法是對引擎可用的； html5本

阿裏巴巴Java 開發手冊編程規約之MySQL 數據庫

影響含義 delayed 建表 decimal 冗余字段 ger 無法 font (一)建表規約1. 【強制】表達是與否概念的字段，必須使用 is_xxx 的方式命名，數據類型是 unsigned tinyint（1 表示是， 0 表示否）。說明：任何字段如果為非負數

Python學習----第七模塊筆記（Web開發進階之Django數據庫操作）

long 機制 idt 4.5 gen git 表之間 protoc 小數 4、Django ORM 4.1、連接數據庫創建Django工程後運行該工程，會在工程根目錄下創建db.sqlite3文件，為Django自帶的sqlite3數據庫（Django自帶的功能也需要數

編程開發之--Oracle數據庫--存儲過程使用動態參數綁定（3）

oracle SQ cts arc creat || pac proc package 1、動態參數綁定，可以實現動態的執行不同的sql --創建包 create or replace PACKAGE MYPACKAGE AS type empcursor is

C#之各類控件中輸入、輸出數據

inf table l命令 doc tex 文本框 str ase 圖片本文重點講的是：ComboBox、DateTimePicker、TextBox、RadioButton、DataGridView這五種控件的輸入和輸出。一、控件數據的輸入：（1）ComboBox控

Hybrid小程序混合開發之路 - 數據交互

改變神奇頻繁內核跨平臺事件響應 response 都是 HTML+CSS是歷史悠久、超高自由度、控制精準、表現能力極強、編碼簡單、學習門檻超低、真跨平臺的一種UI界面開發方式。本文介紹的是微信小程序和H5混合開發的一種數據交互方式。很多應用在原生界面中混

Redis開發與運維 (數據庫技術叢書) PDF 下載，深度剖析Hadoop HDFS PDF 下載

RoCE 微信大數 ask 關註 fff str 添加 ges 1、Redis開發與運維 (數據庫技術叢書) PDF 下載 2、深度剖析Hadoop HDFS (大數據技術叢書) PDF 下載關註微信公眾號：職業開發者之路，百度雲免費下載 PDF 電子書籍，或直接

Centos_6.5之Mysql數據庫

服務器 dns服務器 centos6.5 linux mysql 數據庫 1、安裝Mysql數據庫 yum install mysql mysql-server mysql-devel -y 2、啟動Mysql服務 service mysqld start3、設置My

1Python全棧之路系列之MySQL數據庫基本操作

大型數據庫數據庫管理數據庫軟件程序員 sql數據庫 Python全棧之路系列之MySQL數據庫基本操作MySQL數據庫介紹MySQL是一種快速易用的關系型數據庫管理系統(RDBMS)，很多企業都在使用它來構建自己的數據庫。MySQL由一家瑞典公司MySQL AB開發、運營並予以支持。

Java核心技術之基本數據類型

又能 art 資料 string 1.4 get bool 讀取大數這篇文章。我們討論一些java的最主要的東西。這些東西我們一般剛剛學java的時候就學過，可是不一定真正明確。正好，我在做一個讀取內存的值，涉及到bit位的值的讀取和寫。那就能夠討論一個

【Python之基本數據類型基本運算】

card das symmetric ear move user lis 增加 .cn 一、基本數據類型 1.字符串類：str 方法：選中str，按住command（ctrl）+左鍵跳轉至對應的方法字符串常用方法歸納如下： 1）capitalize 功能：實現

sqlite學習筆記9：C語言中使用sqlite之插入數據

name article void num mes cut cpp content int 前面創建了一張表，如今給他插入一些數據。插入數據跟創建表差點兒相同，不過SQL語言不一樣而已，完整代碼例如以下： #include <stdio.h> #inclu

Snappy數據壓縮配置到Hadoop

nbsp ould 安裝官方文檔 toc ora automake java_home -o 依賴庫：yum -y install gcc+ gcc-c++ 官方文檔中提到編譯前提需要：gcc c++, autoconf, automake, libtool, Java

《UNIX環境高級編程》讀書筆記之系統數據文件和信息（1）

返回 -m 獲取高級編程記得 clas oid data- size 1.UNIX系統口令文件包括了下圖所看到的的各字段，這些字段包括在<pwd.h>中定義的passwd結構體中 POSIX定義了兩個獲取口令文件項的函數。在給出用戶登錄名或用戶ID後

mysql之 mysql數據庫壓力測試工具（mysqlslap）

root .cn this 用戶 cas bench 測試逗號 complete mysqlslap是從MySQL的5.1.4版開始就開始官方提供的壓力測試工具。通過模擬多個並發客戶端並發訪問MySQL來執行壓力測試，同時提供了較詳細的SQL執行數據性能報告，並且能很好的

上層系統之基礎數據維護(1)

總結邏輯控制影響公開來看 update 不同最小讀寫才疏學淺，勤奮一點。——無感一個制造企業的數據建模大到企業集團的信息管理,小可以追溯到生產車間的每一個數據地址。普通的MES系統主要針對工廠車間級別的數據建模與維護，一個MES系統的基礎數據建模大概可以分

hadoop mapreduce開發實踐之輸出數據壓縮

1.1、為什麽要壓縮？

1.2、 run_streaming程序

1.3、 執行程序

1.4、 查看結果

2、hadoop streaming 語法參考

相關推薦

1.3、執行程序

1.4、查看結果