MapReduce的常見輸入格式之NlineInputFormat

阿新 • • 發佈：2020-07-17

有兩個檔案：

NlineInputFormat

切片策略：讀取配置檔案中的引數mapreduce.input.lineinputformat.linespermap，預設為1，以檔案為單位，切片每此引數行作為1片！
既然有引數，那就可以修改，設定為每N行切為一片：

Configuration conf = new Configuration();
conf.set("mapreduce.input.lineinputformat.linespermap", "2")

RecordReader：LineRecordReader，一次處理一行，將一行內容的偏移量

作為key，一行內容作為value
它們的資料型別：

LongWritable key
Text value

所以上面兩個檔案總共八行，若一行切一片，則有八片；兩行切一片，則有四片。

WCMapper.java

public class WCMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
	
	private Text out_key=new Text();
	private IntWritable out_value=new IntWritable(1);
	
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
			throws IOException, InterruptedException {
	
		System.out.println("keyin:"+key+"----keyout:"+value);
		
		String[] words = value.toString().split("\t");
		
		for (String word : words) {
			out_key.set(word);
			//寫出資料(單詞,1)
			context.write(out_key, out_value);
		}
		
	}
}

WCReducer.java

public class WCReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
	
	private IntWritable out_value=new IntWritable();
	
	// reduce一次處理一組資料，key相同的視為一組
	@Override
	protected void reduce(Text key, Iterable<IntWritable> values,
			Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
		
		int sum=0;
		
		for (IntWritable intWritable : values) {
			sum+=intWritable.get();	
		}
		
		out_value.set(sum);
		
		//將累加的值寫出
		context.write(key, out_value);
		
	}
}

WCDriver.java

public class WCDriver {
	
	public static void main(String[] args) throws Exception {
		
		Path inputPath=new Path("e:/mrinput/nline");
		Path outputPath=new Path("e:/mroutput/nline");
	
		//作為整個Job的配置
		Configuration conf = new Configuration();
		
		conf.set("mapreduce.input.lineinputformat.linespermap", "2");//設定為每兩行切一片
		
		//保證輸出目錄不存在
		FileSystem fs=FileSystem.get(conf);
		
		if (fs.exists(outputPath)) {
			fs.delete(outputPath, true);
		}
		
		// ①建立Job
		Job job = Job.getInstance(conf);
		
		job.setJarByClass(WCDriver.class);
		
		// ②設定Job
		// 設定Job執行的Mapper，Reducer型別，Mapper,Reducer輸出的key-value型別
		job.setMapperClass(WCMapper.class);
		job.setReducerClass(WCReducer.class);
		
		// Job需要根據Mapper和Reducer輸出的Key-value型別準備序列化器，通過序列化器對輸出的key-value進行序列化和反序列化
		// 如果Mapper和Reducer輸出的Key-value型別一致，直接設定Job最終的輸出型別
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		// 宣告使用NLineInputFormat
		job.setInputFormatClass(NLineInputFormat.class);
		
		// 設定輸入目錄和輸出目錄
		FileInputFormat.setInputPaths(job, inputPath);
		FileOutputFormat.setOutputPath(job, outputPath);
		
		// ③執行Job
		job.waitForCompletion(true);
		
		
	}
}

MapReduce的常見輸入格式之NlineInputFormat

有兩個檔案： NlineInputFormat 切片策略：讀取配置檔案中的引數mapreduce.input.lineinputformat.linespermap，預設為1，以檔案為單位，切片每此引數行作為1片！

MapReduce的常見輸入格式之KeyValueTextInputFormat

有一檔案，如圖所示每行第一個欄位為名字，後面的則為該人的一些資訊，所以此時的輸入格式應該是以每一行的名字為Key，每一行的其他資訊為Value。

clickhouse輸入輸出格式之ORC

ORC資料的輸入輸出僅支援ORC格式的寫入。 ORC和CH資料型別的匹配關係 ORC data type (INSERT)ClickHouse data typeUINT8, BOOLUInt8INT8Int8UINT16UInt16INT16Int16UINT32UInt32INT32Int32UINT64UInt64INT64Int64F

10．Mapreduce例項——MapReduce自定義輸入格式小

10．Mapreduce例項——MapReduce自定義輸入格式小實驗原理 1.輸入格式：InputFormat類定義瞭如何分割和讀取輸入檔案，它提供有下面的幾個功能：

C#實現的一些常見時間格式

string aa = DateTime.Now.ToShortDateString();//\"2019/9/23\" string bb = DateTime.Now.ToShortTimeString();//\"上午 10:21\"

element-ui 時間選擇器（el-date-picker） - 支援多種輸入格式

全域性註冊自定義指令 // 時間選擇器 - 多種輸入格式 Vue.directive(\'dateFormat\', { inserted: function (el, binding, vnode) {

輸入格式第一行包含整數n

輸入格式第一行包含整數n。表示最長的不包含重複的數的連續區間的長度。資料範圍

Opencv常見影象格式Data Type及程式碼例項

cv::Mat 影象格式 (Data Type)命名規則通用的引數命名格式為： CV_{元素位元數}{元素型別}C{通道數}

Qt5 IP及埠輸入格式正側表示式

技術標籤：qtc++ Qt5 IP及埠輸入格式正側表示式 QLineEdit QRegExp rx_ip("((2[0-4]\\\\d|25[0-5]|[01]?\\\\d\\\\d?)\\\\.){3}(2[0-4]\\\\d|25[0-5]|[01]?\\\\d\\\\d?)");

列式儲存格式之parquet讀寫

技術標籤：javajavahadoop title: 列式儲存格式之parquet date: 2021-01-01 11:45:36 tags: haddop

OJ線上程式設計常見輸入輸出練習(11題)

技術標籤：java演算法字串輸入輸出 1,輸入包括兩個正整數a,b(1 <= a, b <= 10^9),輸入資料包括多組

B端常見互動邏輯之

一. 麵包屑 1. 麵包屑的由來：童話故事“漢賽爾和格萊特”，漢賽爾和格萊特穿過森林時，不小心迷路了，但是他們發現在沿途走過的地方都撒下了麵包屑，讓這些麵包屑來幫助他們找到回家的路。

apollo常見資料格式的使用

apollo 相關配置引數 1、string型別 @Value(\"${a.q}\") private String aQ; 相當於字串，直接使用

Golang 常見設計模式之選項模式

熟悉 Python 開發的同學都知道，Python 有預設引數的存在，使得我們在例項化一個物件的時候，可以根據需要來選擇性的覆蓋某些預設引數，以此來決定如何例項化物件。當一個物件有多個預設引數時，這個特性非常好用，

WPF設定DatePicker日期格式之卡Bug大法

<DatePicker Name=\"picker\" Grid.Column=\"5\" Grid.Row=\"0\" SelectedDate=\"{Binding Patient.Birthday, StringFormat=yyyy-MM-dd, Converter={StaticResource DateConverter}}\" VerticalAlignment=\"Cent