MapReduce之自定義InputFormat

阿新 • • 發佈：2020-07-19

在企業開發中，Hadoop框架自帶的InputFormat型別不能滿足所有應用場景，需要自定義InputFormat來解決實際問題。

自定義InputFormat步驟如下：

（1）自定義一個類繼承FilelnputFormat。
（2）自定義一個類繼承RecordReader，實現一次讀取一個完整檔案，將檔名為key，檔案內容為value。
（3）在輸出時使用SequenceFileOutPutFormat輸出合併檔案。

無論HDFS還是MapReduce，在處理小檔案時效率都非常低，但又難免面臨處理大量小檔案的場景，此時，就需要有相應解決方案。可以自定義InputFormat實現小檔案的合併。

1. 需求

將多個小檔案合併成一個SequenceFile檔案（SequenceFile檔案是Hadoop用來儲存二進位制形式的key-value(bytes) 對的檔案格式），SequenceFile裡面儲存著多個檔案，儲存的形式為檔案路徑+名稱為key，檔案內容為value。

（1）輸入資料

（2）期望輸出檔案格式

2. 需求分析

自定義一個類繼承FileInputFormat

（1）重寫isSplitable()方法，返回false，讓檔案不可切，整個檔案作為1片。

（2）重寫createRecordReader()，返回自定義的RecordReader物件
自定義一個類繼承RecordReader

在RecordReader中，nextKeyValue()是最重要的方法，返回當前讀取到的key-value，如果讀到返回true，呼叫Mapper的map()來處理，否則返回false

3. 編寫程式

MyInputFormat.java

/*

 * 1. 改變切片策略，一個檔案固定切1片，通過指定檔案不可切

 *

 * 2. 提供RR ，這個RR讀取切片的檔名作為key,讀取切片的內容封裝到bytes作為value

 */

public class MyInputFormat extends FileInputFormat {

	@Override

	public RecordReader createRecordReader(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {
 

		return new MyRecordReader();

	}

	@Override

	protected boolean isSplitable(JobContext context, Path filename) {

		return false;

	}

}

MyRecordReader.java

/*

 * RecordReader從MapTask處理的當前切片中讀取資料

 *

 * XXXContext都是Job的上下文，通過XXXContext可以獲取Job的配置Configuration物件

 */

public class MyRecordReader extends RecordReader {

	private Text key;

	private BytesWritable value;

	private String filename;

	private int length;

	private FileSystem fs;

	private Path path;

	private FSDataInputStream is;

	private boolean flag=true;

	// MyRecordReader在建立後，在進入Mapper的run()之前，自動呼叫

	// 檔案的所有內容設定為1個切片，切片的長度等於檔案的長度

	@Override

	public void initialize(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {

		FileSplit fileSplit=(FileSplit) split;

		filename=fileSplit.getPath().getName();

		length=(int) fileSplit.getLength();

		path=fileSplit.getPath();

		//獲取當前Job的配置物件

		Configuration conf = context.getConfiguration();

		//獲取當前Job使用的檔案系統

		fs=FileSystem.get(conf);

		 is = fs.open(path);

	}

	// 讀取一組輸入的key-value，讀到返回true,否則返回false

	// 將檔案的名稱封裝為key，將檔案的內容封裝為BytesWritable型別的value，返回true

	// 第二次呼叫nextKeyValue()返回false

	@Override

	public boolean nextKeyValue() throws IOException, InterruptedException {

		if (flag) {

			//例項化物件

			if (key==null) {

				key=new Text();

			}

			if (value==null) {

				value=new BytesWritable();

			}

			//賦值

			//將檔名封裝到key中

			key.set(filename);

			// 將檔案的內容讀取到BytesWritable中

			byte [] content=new byte[length];

			IOUtils.readFully(is, content, 0, length);

			value.set(content, 0, length);

			flag=false;

			return true;

		}

		return false;

	}

	//返回當前讀取到的key-value中的key

	@Override

	public Object getCurrentKey() throws IOException, InterruptedException {

		return key;

	}

	//返回當前讀取到的key-value中的value

	@Override

	public Object getCurrentValue() throws IOException, InterruptedException {

		return value;

	}

	//返回讀取切片的進度

	@Override

	public float getProgress() throws IOException, InterruptedException {

		return 0;

	}

	// 在Mapper的輸入關閉時呼叫，清理工作

	@Override

	public void close() throws IOException {

		if (is != null) {

			IOUtils.closeStream(is);

		}

		if (fs !=null) {

			fs.close();

		}

	}

}

CustomIFMapper.java

public class CustomIFMapper extends Mapper<Text, BytesWritable, Text, BytesWritable>{

}

CustomIFReducer.java

public class CustomIFReducer extends Reducer<Text, BytesWritable, Text, BytesWritable>{

}

CustomIFDriver.java

public class CustomIFDriver {

	public static void main(String[] args) throws Exception {

		Path inputPath=new Path("e:/mrinput/custom");

		Path outputPath=new Path("e:/mroutput/custom");

		//作為整個Job的配置

		Configuration conf = new Configuration();

		//保證輸出目錄不存在

		FileSystem fs=FileSystem.get(conf);

		if (fs.exists(outputPath)) {

			fs.delete(outputPath, true);

		}

		// 建立Job

		Job job = Job.getInstance(conf);

		// 設定Job執行的Mapper，Reducer型別，Mapper,Reducer輸出的key-value型別

		job.setMapperClass(CustomIFMapper.class);

		job.setReducerClass(CustomIFReducer.class);

		// Job需要根據Mapper和Reducer輸出的Key-value型別準備序列化器，通過序列化器對輸出的key-value進行序列化和反序列化

		// 如果Mapper和Reducer輸出的Key-value型別一致，直接設定Job最終的輸出型別

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(BytesWritable.class);

		// 設定輸入目錄和輸出目錄

		FileInputFormat.setInputPaths(job, inputPath);

		FileOutputFormat.setOutputPath(job, outputPath);

		// 設定輸入和輸出格式

		job.setInputFormatClass(MyInputFormat.class);

		job.setOutputFormatClass(SequenceFileOutputFormat.class);

		// ③執行Job

		job.waitForCompletion(true);

	}

}

MapReduce之自定義InputFormat

在企業開發中，Hadoop框架自帶的InputFormat型別不能滿足所有應用場景，需要自定義InputFormat來解決實際問題。

MapReduce之自定義分割槽器Partitioner

@ 目錄問題引出預設Partitioner分割槽自定義Partitioner步驟 Partition分割槽案例實操

SpringBoot之自定義註解掃描器@XXXScan

前言: 最近在學習Netty的過程中，跟著前輩們的思路用Netty作為底層通訊開發了一個非常牛逼，宇宙第一(實際超級垃圾)的Netty Rpc Demo。為啥不叫框架叫Demo呢，一個好的框架是需要非常長時間的開發和優化的，離不開大

SpringBoot系列教程web篇之自定義異常處理HandlerExceptionResolver

關於Web應用的全域性異常處理，上一篇介紹了ControllerAdvice結合@ExceptionHandler的方式來實現web應用的全域性異常管理；

Springboot之自定義全域性異常處理

本文首發至java技術部落格[碼上]：jdkcb.com/ 前言：在實際的應用開發中，很多時候往往因為一些不可控的因素導致程式出現一些錯誤，這個時候就要及時把異常資訊反饋給客戶端，便於客戶端能夠及時地進行處理，而針對

Android之自定義實現BaseAdapter（通用介面卡三）

在上一篇中，我們說過，在setData中如果有很多控制元件的話，我們還是要在該方法中寫入很多程式碼，為了降低開發的方便性，本次就在此基礎上再一次優化。實現原理是這樣的，每次在setData中都要查詢控制元件，然後se

tensorflow之自定義神經網路層例項

如下所示： import tensorflow as tf tfe = tf.contrib.eager tf.enable_eager_execution() 大多數情況下，在為機器學習模型編寫程式碼時，您希望在比單個操作和單個變數操作更高的抽象級別上操作。

詳解釘釘小程式元件之自定義模態框（彈窗封裝實現）

背景開發釘釘小程式中需要用到模態框文件裡也沒有自己搞一個… 效果大概長這個樣

Kotlin之自定義 Live Templates詳解(模板程式碼)

想必大家都知道 android studio 的 live templates 功能，那真是各種方便，比如你想使用 newInstance 去生成一個類的例項：

Keras之自定義損失(loss)函式用法說明

在Keras中可以自定義損失函式，在自定義損失函式的過程中需要注意的一點是，損失函式的引數形式，這一點在Keras中是固定的，須如下形式：

Netty原始碼分析之自定義編解碼器

在日常的網路開發當中，協議解析都是必須的工作內容，Netty中雖然內建了基於長度、分隔符的編解碼器，但在大部分場景中我們使用的都是自定義協議，所以Netty提供了 MessageToByteEncoder<I> 與 ByteToMessageD

Springboot之自定義校驗註解

　　在日常程式碼開發中，我們需要對實體類中的各個屬性進行校驗，比如非空判斷、url 判斷等等，在javax.validation.constraints.* 包下面集成了多個校驗註解。但是隨著業務的發展，我們需要自定義一些特殊的註解，比

python 3 基礎之自定義函式

函式 1、什麼是函式函式是組織好的，可重複使用的，用來實現單一，或相關聯功能的程式碼段。

使用MapReduce執行自定義bean案例

如果一個檔案的內容不只是簡單的單詞，而是類似於一個物件那般，有多種屬性值，如：

DRF框架之自定義action

一、自定義action 使用action裝飾器 methods 支援的請求方式，為一個列表，預設為[\'get\']

Python之自定義函式

函式 1、定義函式在Python中定義一個函式要使用def語句，一次寫出函式名、括號、括號中的的引數和冒號，然後在縮排塊中編寫函式體，函式的返回值用return返回。如下所示：

Flutter之自定義Dialog實現版本更新彈窗功能的實現

功能點： 1.更新彈窗UI 2.強更與非強更且別控制 3.遮蔽物理返回鍵（因為強更的時候點選返回鍵，彈窗會消失）

模板之自定義標籤、過濾器

自動轉義HTML 當從模版中生成HTML檔案時，總會存在各種風險，比如xss程式碼注入等惡意攻擊。比如下面的模版片段：

面向物件開發之自定義事件

class Event { constructor(){ this.handlers = {}; // 記錄所有的事件及處理函式 // { //click: [fn1, fn2],

基於.NetCore3.1系列 —— 日誌記錄之自定義日誌元件

一、前言回顧：日誌記錄之日誌核心要素揭祕在上一篇中，我們通過學習瞭解在.net core 中內建的日誌記錄中的幾大核心要素，在日誌工廠記錄器(ILoggerFactory)中實現將日誌記錄提供器(ILoggerProvider)物件都可以整合

MapReduce之自定義InputFormat

1. 需求

2. 需求分析

3. 編寫程式

相關推薦