大數據學習之自定義輸入 13

阿新 • • 發佈：2019-05-12

table 輸入配置信息 tst float 分享 ado 自定義 throws

一：自定義輸出

需求：將多個小文件合並為SequenceFile（存儲了多個小文件）

存儲格式：文件路徑+文件的內容

c:/a.txt i am hunter henshuai

c:/b.txt i love delireba

inputFormat(自定義加上路徑)

代碼編寫：

1：自定義FileInputFormat編寫

package it.dawn.YARNPra.自定義.inputformate;

import java.io.IOException;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

/**
 * @author Dawn
 * @date 2019年5月9日22:58:19
 * @version 1.0
 * 自定義輸入，自己編寫框架
 * 需求？
 * 將多個小文件合並為SequenceFile（存儲了多個小文件）
 * 	存儲格式：文件路徑+文件的內容
 * 	c:/a.txt i am hunter henshuai 
 * 	c:/b.txt i love delireba
 * 
 * 	inputFormat(自定義加上路徑)
 */


//1.創建自定義inputformat 
//為什麽是用NullWritable, BytesWritable，
//因為，這裏的key我們暫時處理為空。到後面Map輸出階段的時候，我們再講輸出類型改成Text 和BytesWritable
public class FuncFileInputFormat extends FileInputFormat<NullWritable, BytesWritable>{


	@Override
	protected boolean isSplitable(JobContext context,Path filename) {
		//不切原來的文件
		return false;
	}
	
	@Override
	public RecordReader<NullWritable, BytesWritable> createRecordReader(InputSplit split, TaskAttemptContext context)
			throws IOException, InterruptedException {
		
		FuncRecordReader RecordReader=new FuncRecordReader();
		return RecordReader;
	}

}

2：自定義RecordReader類編寫

package it.dawn.YARNPra.自定義.inputformate;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

/**
 * @author Dawn
 * @date 2019年5月9日23:12:03
 * @version 1.0
 * 
 */
//2.編寫RecordReader 
public class FuncRecordReader extends RecordReader<NullWritable, BytesWritable>{

	boolean isProcess = false;
	FileSplit split;
	Configuration conf;
	BytesWritable value = new BytesWritable();
	
	@Override
	public void initialize(InputSplit split, TaskAttemptContext context)  {
		//初始化切片
		this.split=(FileSplit) split;
		//初始化配置信息
		conf=context.getConfiguration();
		
	}

	@Override
	public boolean nextKeyValue() throws IOException, InterruptedException {
		
		if(!isProcess) {
			//1.根據切片的長度來創建緩沖區
			byte[] buf= new byte[(int)split.getLength()];
			FSDataInputStream fis = null;
			FileSystem fs = null;
			
			try {
				//2.獲取路徑
				Path path=split.getPath();
				
				//3.根據路徑獲取文件系統
				fs=path.getFileSystem(conf);
				
				//4：拿到輸入流
				fis=fs.open(path);
				
				//5：數據拷貝
				IOUtils.readFully(fis, buf, 0, buf.length);
				
				//6.拷貝緩存到最終的輸出
				value.set(buf, 0, buf.length);
			}catch (IOException e) {
				e.printStackTrace();
			}finally {
				IOUtils.closeStream(fis);
				IOUtils.closeStream(fs);
			}
			
			isProcess=true;
			
			return true;
		}
		return false;
	}

	@Override
	public NullWritable getCurrentKey() throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		return NullWritable.get();
	}

	@Override
	public BytesWritable getCurrentValue() throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		return value;
	}

	@Override
	public float getProgress() throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		return 0;
	}

	@Override
	public void close() throws IOException {
		// TODO Auto-generated method stub
		
	}

}

3：編寫MR

map:

package it.dawn.YARNPra.自定義.inputformate;

import java.io.IOException;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

/**
 * @author Dawn
 * @date 2019年5月9日23:25:29
 * @version 1.0
 * 
 */
public class SequenceFileMapper extends Mapper<NullWritable, BytesWritable, Text, BytesWritable>{

	Text k=new Text();
	
	@Override
	protected void setup(Context context)
			throws IOException, InterruptedException {
		//1拿到切片信息
		FileSplit split=(FileSplit) context.getInputSplit();
		
		//2路徑
		Path path=split.getPath();
		
		//3.即帶路徑又帶名稱
		k.set(path.toString());
	}
	
	
	@Override
	protected void map(NullWritable key, BytesWritable value,Context context)
			throws IOException, InterruptedException {
		context.write(k, value);
	}


}

Reducer:

package it.dawn.YARNPra.自定義.inputformate;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

/**
 * @author Dawn
 * @date 2019年5月9日23:12:03
 * @version 1.0
 * 
 */
//2.編寫RecordReader 
public class FuncRecordReader extends RecordReader<NullWritable, BytesWritable>{

	boolean isProcess = false;
	FileSplit split;
	Configuration conf;
	BytesWritable value = new BytesWritable();
	
	@Override
	public void initialize(InputSplit split, TaskAttemptContext context)  {
		//初始化切片
		this.split=(FileSplit) split;
		//初始化配置信息
		conf=context.getConfiguration();
		
	}

	@Override
	public boolean nextKeyValue() throws IOException, InterruptedException {
		
		if(!isProcess) {
			//1.根據切片的長度來創建緩沖區
			byte[] buf= new byte[(int)split.getLength()];
			FSDataInputStream fis = null;
			FileSystem fs = null;
			
			try {
				//2.獲取路徑
				Path path=split.getPath();
				
				//3.根據路徑獲取文件系統
				fs=path.getFileSystem(conf);
				
				//4：拿到輸入流
				fis=fs.open(path);
				
				//5：數據拷貝
				IOUtils.readFully(fis, buf, 0, buf.length);
				
				//6.拷貝緩存到最終的輸出
				value.set(buf, 0, buf.length);
			}catch (IOException e) {
				e.printStackTrace();
			}finally {
				IOUtils.closeStream(fis);
				IOUtils.closeStream(fs);
			}
			
			isProcess=true;
			
			return true;
		}
		return false;
	}

	@Override
	public NullWritable getCurrentKey() throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		return NullWritable.get();
	}

	@Override
	public BytesWritable getCurrentValue() throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		return value;
	}

	@Override
	public float getProgress() throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		return 0;
	}

	@Override
	public void close() throws IOException {
		// TODO Auto-generated method stub
		
	}

}

driver:

package it.dawn.YARNPra.自定義.inputformate;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

/**
 * @author Dawn
 * @date 2019年5月9日23:32:39
 * @version 1.0
 * 
 */
public class SequenceDriver {
	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		// 1.獲取job信息
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);

		// 2.獲取jar包
		job.setJarByClass(SequenceDriver.class);

		// 3.獲取自定義的mapper與reducer類
		job.setMapperClass(SequenceFileMapper.class);
		job.setReducerClass(SequenceFileReducer.class);
		
		//設置自定義讀取方式
		job.setInputFormatClass(FuncFileInputFormat.class);
		//設置默認的輸出方式
		job.setOutputFormatClass(SequenceFileOutputFormat.class);

		// 4.設置map輸出的數據類型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(BytesWritable.class);

		// 5.設置reduce輸出的數據類型（最終的數據類型）
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(BytesWritable.class);

		// 6.設置輸入存在的路徑與處理後的結果路徑
		FileInputFormat.setInputPaths(job, new Path("f:/temp/inputSelf/*.txt"));
		FileOutputFormat.setOutputPath(job, new Path("f:/temp/inputSelfout1"));

		// 7.提交任務
		boolean rs = job.waitForCompletion(true);
		System.out.println(rs ? 0 : 1);

	}

}

運行結果截圖：

輸入：

技術分享圖片

輸出（將就看吧！輸出格式是BytesWriteble字節的輸出，看起來不是很好）：

技術分享圖片

大數據學習之自定義輸入 13

table 輸入配置信息 tst float 分享 ado 自定義 throws 一：自定義輸出需求：將多個小文件合並為SequenceFile（存儲了多個小文件）存儲格式：文件路徑+文件的內容 c:/a.txt i am hunter henshu

大數據學習之自定義輸出 13

系統 java pub 什麽 rri args sda stream out 二：自定義輸出自定義輸出需求:過濾日誌文件把包含itstaredu的放在一個文件中 d:/itstaredu.log 把不包含itstaredu的放在另外一個文件 d:/oth

Android學習之自定義TextWatcher來監聽文字最大輸入字數

開發中有種很可能會遇到的需求就是限制EditText的文字輸入字數，例如微博就限制140字，如果只是限制輸入的字數的話很簡單，EditText有個屬性叫android:maxLength，設定140就

大數據學習之Scala中main函數的分析以及基本規則（2）

語言 python rgs 數字 popu 結束圖片區別返回一、main函數的分析首先來看我們在上一節最後看到的這個程序，我們先來簡單的分析一下。有助於後面的學習 object HelloScala { def main(args:

大數據學習之Linux環境搭建（導航）

vmw href 。。人的 com linu 過程 htm next 環境搭建過程網上有挺多，我只是站在巨人的肩膀上。更多是對自己的搭建環境過程中的一個記錄。首先是VMware軟件的安裝，沒什麽說的，一直“下一步”就好了，虛擬機下安裝Linux系統也比較簡單，不贅述。

大數據學習之五——HDFS常用命令

dfs 放置 shell. 下載文件參數 linux系統文件的 com HDFS文件操作常用命令：（1）列出HDFS下的文件 hadoop dfs -ls <目錄> （2）上傳文件將Linux系統本地文件上傳到HDFS中 hadoop d

大數據學習之六——Hadoop I/O

管理完整檢測適合 img 復數節點數據設計大文件 Hadoop IO的操作意義：基於海量數據集的完整性和壓縮性，Hadoop提供了用於分布式系統的API，包括序列化操作以及底層的數據結構。 1.HDFS數據完整性目的：保證用戶在存儲和處理數據時，數據不會

大數據學習之九——Combiner,Partitioner,shuffle和MapReduce排序分組

pareto 聚合文件 ner 數據傳輸定義排序 str ack 獲取數據 1.Combiner Combiner是MapReduce的一種優化手段。每一個map都可能會產生大量的本地輸出，Combiner的作用就是對map端的輸出先做一次合並，以減少map和reduc

大數據學習之十二——MapReduce代碼實例：關聯性操作

reducer equal 學習 obj actor 對應關系關系 exceptio ted 1.單表關聯 "單表關聯"要求從給出的數據中尋找所關心的數據，它是對原始數據所包含信息的挖掘。實例描述給出child-parent（孩子——父母）表，要求輸出grandchil

大數據學習之十五——sqoop的安裝和使用

dfs 9.1 pos 屬性操作所有 alt 成功 nbsp 1.概念了解 sqoop主要用於hadoop與傳統的數據庫（mysql、postgresql...）間進行數據的傳遞，可以將一個關系型數據庫（例如：MYSQL，Oracle，Postgrep等）中的數據導到h

大數據學習之（Storm）-原理詳解！

大數據 storm 角色 Client client的主要作用是提交topology到集群 Worker Worker是運行在Supervisor節點上的一個獨立的JVM進程，主要作用是運行topology，一個topology可以包含多個worker，但一個worker只能屬於一個topology

大數據學習之路

ebo 必備 pen 計算機程序因此 hadoop中高級 mapreduce 歷程一直在努力學習大數據大數據相關的技術，很想了解眾多老司機的學習歷程。因為大數據涉及的技術很廣需要了解的東西也很多，會讓很多新手望而卻步。所以，我就在自己學習的過程中總結一下學到的內容以及

大數據學習之sqoop

ase could mce HERE ont exe port color 上傳點擊下載sqoop：http://mirror.bit.edu.cn/apache/sqoop/ 解壓縮:tar -xvf sqoop-1.4.7.bin__hadoop-2.6.0.tar

大數據學習之路（跟著大神學習一波）

cimage 行數據 linux 次數原來跟著結構工具匯總前言：一、背景介紹二、大數據介紹正文：一、大數據相關的工作介紹二、大數據工程師的技能要求三、大數據學習規劃四、持續學習資源推薦（書籍，博客，網站）五、項目案例分析（批處理+實時處理）

大數據學習之Hadoop快速入門

spa data 一次架構 spark 1.7 cor catalina 工具 1、Hadoop生態概況 Hadoop是一個由Apache基金會所開發的分布式系統集成架構，用戶可以在不了解分布式底層細節情況下，開發分布式程序，充分利用集群的威力來進行高速運算與存儲，具有可

大數據學習之路-簡介

str 現實生活之路 sea ear 現實什麽是大數據分布式數據庫 1、什麽是大數據基本概念《數據處理》在互聯網技術發展到現今階段，大量日常、工作等事務產生的數據都已經信息化，人類產生的數據量相比以前有了爆炸式的增長，以前的傳統的數據處理技術已經無法勝任，需求

大數據學習之小白如何學大數據？（詳細篇）

第二章文本 size storm mongod mage 分析 phoenix sqlserve 大數據這個話題熱度一直高居不下，不僅是國家政策的扶持，也是科技順應時代的發展。想要學習大數據，我們該怎麽做呢？大數據學習路線是什麽？先帶大家了解一下大數據的特征以及發展方向。

C++學習之自定義型別

我們在C語言裡面學習了結構體，在C++中的結構體和C中的結構體不一樣。C++允許新增建構函式，成員方法，訪問許可權等等。在C++中還有一種型別叫做類，也可以有成員方法，訪問許可權和建構函式，成員變數等等。那麼這之間有什麼區別呢？其實沒有區別，唯一的區別就是在不宣告許可權的時候預設許可權問題。

安卓開發學習之自定義Toast的實現

背景吐司提示很常見，但系統的吐司有一個缺點，就是顯示時長不能自定義，而自定義Toast可以實現這一點實現步驟整體思路是：活動視窗發出彈出吐司請求，然後中間層接收請求，發給排程層，排程層顯示吐司這裡請求的傳遞就是方法的呼叫，顯示和消除吐司的關鍵是呼叫windo

vivado學習之自定義IP和呼叫自定義IP和的步驟

一、自定義IP核 1、開啟 VIVADO 軟體，新建一個工程。 2、Flow Navigater下，單擊 Add Source，選擇 Add or Creat design Sources,然後單擊 Next。 3、單擊 Create File，輸入檔名，單擊 OK。 4、

大數據學習之自定義輸入 13

一：自定義輸出

1：自定義FileInputFormat編寫

2：自定義RecordReader類編寫

3：編寫MR

driver:

相關推薦