MapReduce的輸出格式

阿新 • • 發佈：2018-04-01

輸出數據轉存 partition tip 4.2 分區創建 margin value

1. OutputFormat接口

　　OutputFormat為輸出格式接口，主要用於描述輸出數據的格式，它能將輸出的鍵值對寫入特定格式的文件中。輸出格式的層次結構如下

技術分享圖片

2. 文本輸出

　　Hadoop默認的輸出格式為文本輸出格式TextOutputFormat，其鍵和值可以使任意類型的，因為該輸出方式會調用toString()方法將它們轉化為字符串。每個鍵/值對由制表符進行分割，當然也可以設定 mapreduce.output.textoutputformat.separator 屬性（舊版本 API 中為 mapred.textoutputformat.separator）改變默認的分隔符。

3. 二進制輸出

　　二進制輸出有三種方式：SequenceFileOutputFormat，SequenceFileAsBinaryOutputFormat和MapFileOutputFormat。重點掌握第一種。

　　對於SequenceFileOutputFormat，顧名思義，SequenceFileOutputFormat 將它的輸出寫為一個順序文件。如果輸出需要作為後續 MapReduce 任務的輸入，這便是一種好的輸出格式，因為它的格式緊湊，並且很容易被壓縮。而對於SequenceFileAsBinaryOutputFormat，它將鍵/值對作為二進制格式寫到一個 SequenceFile 容器中。不同的是，MapFileOutputFormat 把 MapFile 作為輸出。MapFile 中的鍵必須順序添加，所以必須確保 reducer 輸出的鍵已經排好序。

4. 多個輸出

　　由於默認情況下只有一個 Reducer，輸出只有一個文件。有時可能需要對輸出的文件名進行控制或讓每個 reducer 輸出多個文件。

　　當只有一個reduce時，輸出文件命名格式為：part-r-00000。當有兩個reduce時，輸出文件命名格式為：part-r-00000，part-r-00001。當有多個時以此類推。實現Reducer輸出多個文件主要有以下兩種方式：Partitioner和MultipleOutputs。

　4.1 Partitioner

　　我們考慮這樣一個需求：按學生的年齡段，將數據輸出到不同的文件路徑下。這裏我們分為三個年齡段：小於等於20歲、大於20歲小於等於50歲和大於50歲。

我們采用的方法是每個年齡段對應一個 reducer。為此，我們需要通過以下兩步實現。

第一步：把作業的 reducer 數設為年齡段數即為3。

　　job.setPartitionerClass(PCPartitioner.class);//設置Partitioner類

　　job.setNumReduceTasks(3);// reduce個數設置為3

　　第二步：寫一個 Partitioner，把同一個年齡段的數據放到同一個分區。

　　public static class PCPartitioner extends Partitioner< Text, Text>
 　　　　{
                  @Override
                  public int getPartition(Text key, Text value, int numReduceTasks) {

                          // TODO Auto-generated method stub
                          String[] nameAgeScore = value.toString().split("\t");
                          String age = nameAgeScore[1];//學生年齡
                          int ageInt = Integer.parseInt(age);//按年齡段分區

                          // 默認指定分區 0

                          if (numReduceTasks == 0)

                                   return 0;
                          //年齡小於等於20，指定分區0

                          if (ageInt <= 20) {

                                   return 0;
                          }
                          // 年齡大於20，小於等於50，指定分區1

                          if (ageInt > 20 && ageInt <= 50) {

                                   return 1 % numReduceTasks;
                          }
                          // 剩余年齡，指定分區2
                          else

                                   return 2 % numReduceTasks;
                  }
　　　　}

　　這種方法即實現了多文件輸出，但也只能滿足此種需求。很多情況下是無法實現的，因為這樣做存在兩個缺點：

　　1）需要在作業運行之前需要知道分區數和年齡段的個數，如果分區數很大或者未知，就無法操作。

2）一般來說，讓應用程序來嚴格限定分區數並不好，因為這樣可能導致分區數少或分區不均。

　4.2 MultipleOutputs

　　MultipleOutputs 類可以將數據寫到多個文件，這些文件的名稱源於輸出的鍵和值或者任意字符串。這允許每個 reducer（或者只有 map 作業的 mapper）創建多個文件。采用name-m-nnnnn 形式的文件名用於 map 輸出，name-r-nnnnn 形式的文件名用於 reduce 輸出，其中 name 是由程序設定的任意名字， nnnnn 是一個指明塊號的整數（從 00000 開始）。塊號保證從不同塊（mapper 或 reducer）寫的輸出在相同名字情況下不會沖突。

　　實例將在下一篇博文給出！

5. 數據庫輸出　

　　DBOutputFormat 適用於將作業輸出數據（中等規模的數據）轉存到Mysql、Oracle等數據庫。如果數據量較大請考慮其他方法將輸出數據導入或轉存到數據庫中。

以上就是博主為大家介紹的這一板塊的主要內容，這都是博主自己的學習過程，希望能給大家帶來一定的指導作用，有用的還望大家點個支持，如果對你沒用也望包涵，有錯誤煩請指出。如有期待可關註博主以第一時間獲取更新哦，謝謝！

MapReduce的輸出格式

輸出數據轉存 partition tip 4.2 分區創建 margin value 1. OutputFormat接口　　OutputFormat為輸出格式接口，主要用於描述輸出數據的格式，它能將輸出的鍵值對寫入特定格式的文件中。輸出格式的層次結構如下

MapReduce框架學習（1）——輸入、輸出格式

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版在前面的學習中，完成了幾件事：搭建並測試Hadoop完全分散式環境；在master節點上配置Hadoop的E

控制MapReduce輸出檔案個數及格式

控制MapReduce多檔案輸出預設情況下MapReduce任務結束後一個reduce產生一個輸出檔案，檔名類似part-xxxxx, 有時為了方便後續對這些檔案的處理，比如根據檔名import到不通的hive分割槽，我們需要控制reduce輸出產生的檔名，

C語言輸出格式總結

輸出無符號分享字符串 image 輸出字符串轉義輸出符連續 1 一般格式 printf(格式控制，輸出表列）例如：printf("i=%d,ch=%c\n",i,ch); 說明: (1)“格式控制”是用雙撇號括起來的字符串，也稱“轉換控

C語言的一些輸出格式

print 科學數據相同無符號整數 col 16進制大於 mic %e printf()的一種輸出格式　　科學表示的一種浮點數　1.24==1.240000e+000 1240000==1.240000e+006

Java日期時間輸出格式優化

用兩個 href 一個下午 class format 兩個 formate cst 使用printf格式化日期 printf 方法可以很輕松地格式化時間和日期。使用兩個字母格式，它以 %t 開頭並且以下面表格中的一個字母結尾。轉換符說明示

函數中{}輸出格式詳解(C#)

with content c-s sort 命名方式發現 1-1 原始的 des Console.WriteLine()函數中{}輸出格式詳解(C#) Console.WriteLine()函數的格式一直沒怎麽註意。今天同事問起Console.WriteLine({0

python | 輸入與輸出 | 格式符

pytho txt content 小數 python3 con eva pan 文件中 1 # encoding: utf-8 2 3 # python3中的input相當於python2中的raw_input(未加工) 4 content = input(‘

I - Secret Number （註意輸出格式的方法）（在E-Box of Bricks中有）

!= 註意 AC 問題範圍 ret number == 一個數有一天, KIKI 收到一張奇怪的信, 信上要KIKI 計算出給定數各個位上數字為偶數的和. eg. 5548 結果為12 , 等於 4 + 8 KIKI 很苦惱. 想請你幫忙解決這個問題.

print的輸出格式

\n 多次沒有 variant splay line 需要 watermark title print 輸出時，可以用單引號' '作為字符串標識符, 也可以用雙引號" "，至於這兩個符號有什麽區別，在博文中第二節會講解。python與C

Foundation框架—時間輸出格式NSDateFormatter

img format 24小時 @property 國標 china 知識點 ron nsdate 在開發iOS程序時，有時候需要將時間格式調整成自己希望的格式，這個時候我們可以用NSDateFormatter類來處理。下面來介紹NSDateFormatter的常用屬性和A

解決PHP使用var_dump()在瀏覽器輸出格式很難看的問題

解決PHP使用var_dump()在瀏覽器輸出格式很難看的問題在controllers目錄下除錯model返回來的資料時，習慣在controllers裡接收完引數後，寫var_dump()看一下返回的結果， var_dump($receive_data); die; 但是，在

python中list,array,mat,tuple，以及.format(）輸出格式

#coding: utf-8 from numpy import * a=[1,2,3,4,5,6,7] b=array([[1,2,3],[4,5,6]]) c=mat([[1,2,3],[4,5,6],[7,8,9]]) d=(0,2,4,5,6) print("a:{}\ntype:{},

統計一行文字的單詞個數（15 分）本題目要求編寫程式統計一行字元中單詞的個數。所謂“單詞”是指連續不含空格的字串，各單詞之間用空格分隔，空格數可以是多個。輸入格式: 輸入給出一行字元。輸出格式: 在一行中輸出單詞個數。輸入樣例: Let's go to room 209. 輸出樣例

MD,一開始就想著怎麼用空格和結尾前判斷字母來計算寫的頭的爆了，反過來判斷空格後面是否有 =‘ ’就尼瑪容易多了 #include<stdio.h> #include<stdlib.h> #include<string.h> int

MapReduce的輸出格式

MapReduce的輸出格式

MapReduce框架學習（1）——輸入、輸出格式

控制MapReduce輸出檔案個數及格式

C語言輸出格式總結

C語言的一些輸出格式

Java日期時間輸出格式優化

函數中{}輸出格式詳解(C#)

python | 輸入與輸出 | 格式符

I - Secret Number （註意輸出格式的方法）（在E-Box of Bricks中有）

print的輸出格式

Foundation框架—時間輸出格式NSDateFormatter

解決PHP使用var_dump()在瀏覽器輸出格式很難看的問題

python中list,array,mat,tuple，以及.format(）輸出格式

C/C++中printf和C++中cout的輸出格式

Python3部分Print輸出格式

python視覺化演算法執行進度（含輸出格式控制函式format用法）

LVDS介面分類，時序，輸出格式

LVDS接口分類，時序，輸出格式

java輸出格式-----System.out.printf（）

MapReduce的輸出格式

相關推薦