大數據學習之自定義輸出 13

阿新 • • 發佈：2019-05-12

系統 java pub 什麽 rri args sda stream out

二：自定義輸出

自定義輸出

需求:過濾日誌文件

把包含itstaredu的放在一個文件中 d:/itstaredu.log

把不包含itstaredu的放在另外一個文件 d:/other.log

1：自定義編寫FileOutputFormate

package it.dawn.YARNPra.自定義.outputformat;

import java.io.IOException;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * @author Dawn
 * @date 2019年5月11日23:45:47
 * @version 1.0
 * 類似自定義輸入，根據源碼自己寫一個FileOutputFormat
 * 繼承FileOutputFormat
 */
public class FuncFileOutputFormat extends FileOutputFormat<Text, NullWritable>{

	@Override
	public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job)
			throws IOException, InterruptedException {
		FileRecordWriter recordWriter = new FileRecordWriter(job);
		return recordWriter;
	}

}

2 : 自定義編寫FileRecordWriter類

package it.dawn.YARNPra.自定義.outputformat;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;

/**
 * @author Dawn
 * @date 2019年5月11日23:48:31
 * @version 1.0
 * 繼承 RecordWriter
 */
public class FileRecordWriter extends RecordWriter<Text, NullWritable>{
	
	Configuration conf=null;
	FSDataOutputStream itstarlog=null;
	FSDataOutputStream otherlog=null;

	//1.定義數據輸出路徑
	public FileRecordWriter(TaskAttemptContext job) throws IOException {
		//獲取配置信息
		conf=job.getConfiguration();
		
		//獲取文件系統
		FileSystem fs=FileSystem.get(conf);
		
		//定義輸出路徑
		//默認就是那個我們很熟悉的part-r-00000。這裏我們把它自定義成itstar.log  other.log
		itstarlog=fs.create(new Path("f:/temp/outputformateSelf/fileoutSelf1/itstar.log"));
		otherlog=fs.create(new Path("f:/temp/outputformateSelf/fileoutSelf2/other.log"));
	}
	
	//2.數據輸出
	@Override
	public void write(Text key, NullWritable value) throws IOException, InterruptedException {
		//判斷的話根據key
		if(key.toString().contains("itstar")) {
			//寫出到文件
			itstarlog.write(key.getBytes());
		}else {
			otherlog.write(key.getBytes());
		}
		
	}

	//3.關閉資源
	@Override
	public void close(TaskAttemptContext context) throws IOException, InterruptedException {
		if(null != itstarlog) {
			itstarlog.close();
		}
		
		if(null != otherlog) {
			otherlog.close();
		}
		
	}

}

3：編寫MR

mapper

package it.dawn.YARNPra.自定義.outputformat;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/**
 * @author Dawn
 * @date 2019年5月11日23:58:27
 * @version 1.0
 * 直接代碼一把梭，寫出去
 */
public class FileMapper extends Mapper<LongWritable, Text, Text, NullWritable>{

	@Override
	protected void map(LongWritable key, Text value, Context context)
			throws IOException, InterruptedException {
		context.write(value, NullWritable.get());
	}
	
	

}

Reduce：

package it.dawn.YARNPra.自定義.outputformat;

import java.io.IOException;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class FileReducer extends Reducer<Text, NullWritable, Text, NullWritable>{

	@Override
	protected void reduce(Text key, Iterable<NullWritable> values,
				Context context) throws IOException, InterruptedException {
		//換個行吧！
		String k = key.toString()+"\n";
		
		context.write(new Text(k), NullWritable.get());
	}
	
	

}

Driver類：

package it.dawn.YARNPra.自定義.outputformat;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * @author Dawn
 * @date 2019年5月12日00:03:03
 * @version 1.0
 * 
 * 這裏大家可能有個小疑問？
 * 就是我們已近在自定義輸出的時候，已經指定了輸出位置。為什麽我們這裏還是要寫輸出位置？
 * 
 * 大家可以這樣想下，就是我們不進行自定義輸出的時候，是不是每次任務之後，
 * 會出現一大堆的文件 ._SUCCESS.crc  .part-r-00000.crc _SUCCESS  part-r-00000這4個的嘛。
 * 而我們再自己寫的自定義輸出的時候，其實只是對part-r-00000文件指定了位置，而其他的什麽 ._SUCCESS.crc ...這些沒做處理啊！！
 * 
 */
public class FileDriver {
	
	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		// 1.獲取job信息
		Configuration conf = new Configuration();
		Job job=Job.getInstance(conf);
		
		// 2.獲取jar包
		job.setJarByClass(FileDriver.class);
		
		// 3.獲取自定義的mapper與reducer類
		job.setMapperClass(FileMapper.class);
		job.setReducerClass(FileReducer.class);
		
		// 4.設置map輸出的數據類型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(NullWritable.class);
		
		// 5.設置reduce輸出的數據類型（最終的數據類型）
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(NullWritable.class);
		
		//設置自定outputFormat
		job.setOutputFormatClass(FuncFileOutputFormat.class);
		
		// 6.設置輸入存在的路徑與處理後的結果路徑
		FileInputFormat.setInputPaths(job, new Path("f:/temp/流量日誌.dat"));
		FileOutputFormat.setOutputPath(job, new Path("f:/temp/outputformateSelf"));
		
		// 7.提交任務
		boolean rs = job.waitForCompletion(true);
		System.out.println(rs? "成功":"失敗");
	}

}

運行截圖：

輸入：

技術分享圖片

輸出（看好了路徑根據 FileRecordWriter類中的一樣）：

技術分享圖片

===============================================================

技術分享圖片

=============================================================================================

技術分享圖片

大數據學習之自定義輸出 13

系統 java pub 什麽 rri args sda stream out 二：自定義輸出自定義輸出需求:過濾日誌文件把包含itstaredu的放在一個文件中 d:/itstaredu.log 把不包含itstaredu的放在另外一個文件 d:/oth

大數據學習之自定義輸入 13

table 輸入配置信息 tst float 分享 ado 自定義 throws 一：自定義輸出需求：將多個小文件合並為SequenceFile（存儲了多個小文件）存儲格式：文件路徑+文件的內容 c:/a.txt i am hunter henshu

大數據學習之Scala中main函數的分析以及基本規則（2）

語言 python rgs 數字 popu 結束圖片區別返回一、main函數的分析首先來看我們在上一節最後看到的這個程序，我們先來簡單的分析一下。有助於後面的學習 object HelloScala { def main(args:

大數據學習之Linux環境搭建（導航）

vmw href 。。人的 com linu 過程 htm next 環境搭建過程網上有挺多，我只是站在巨人的肩膀上。更多是對自己的搭建環境過程中的一個記錄。首先是VMware軟件的安裝，沒什麽說的，一直“下一步”就好了，虛擬機下安裝Linux系統也比較簡單，不贅述。

大數據學習之五——HDFS常用命令

dfs 放置 shell. 下載文件參數 linux系統文件的 com HDFS文件操作常用命令：（1）列出HDFS下的文件 hadoop dfs -ls <目錄> （2）上傳文件將Linux系統本地文件上傳到HDFS中 hadoop d

大數據學習之六——Hadoop I/O

管理完整檢測適合 img 復數節點數據設計大文件 Hadoop IO的操作意義：基於海量數據集的完整性和壓縮性，Hadoop提供了用於分布式系統的API，包括序列化操作以及底層的數據結構。 1.HDFS數據完整性目的：保證用戶在存儲和處理數據時，數據不會

大數據學習之九——Combiner,Partitioner,shuffle和MapReduce排序分組

pareto 聚合文件 ner 數據傳輸定義排序 str ack 獲取數據 1.Combiner Combiner是MapReduce的一種優化手段。每一個map都可能會產生大量的本地輸出，Combiner的作用就是對map端的輸出先做一次合並，以減少map和reduc

大數據學習之十二——MapReduce代碼實例：關聯性操作

reducer equal 學習 obj actor 對應關系關系 exceptio ted 1.單表關聯 "單表關聯"要求從給出的數據中尋找所關心的數據，它是對原始數據所包含信息的挖掘。實例描述給出child-parent（孩子——父母）表，要求輸出grandchil

大數據學習之十五——sqoop的安裝和使用

dfs 9.1 pos 屬性操作所有 alt 成功 nbsp 1.概念了解 sqoop主要用於hadoop與傳統的數據庫（mysql、postgresql...）間進行數據的傳遞，可以將一個關系型數據庫（例如：MYSQL，Oracle，Postgrep等）中的數據導到h

大數據學習之（Storm）-原理詳解！

大數據 storm 角色 Client client的主要作用是提交topology到集群 Worker Worker是運行在Supervisor節點上的一個獨立的JVM進程，主要作用是運行topology，一個topology可以包含多個worker，但一個worker只能屬於一個topology

大數據學習之路

ebo 必備 pen 計算機程序因此 hadoop中高級 mapreduce 歷程一直在努力學習大數據大數據相關的技術，很想了解眾多老司機的學習歷程。因為大數據涉及的技術很廣需要了解的東西也很多，會讓很多新手望而卻步。所以，我就在自己學習的過程中總結一下學到的內容以及

大數據學習之sqoop

ase could mce HERE ont exe port color 上傳點擊下載sqoop：http://mirror.bit.edu.cn/apache/sqoop/ 解壓縮:tar -xvf sqoop-1.4.7.bin__hadoop-2.6.0.tar

大數據學習之路（跟著大神學習一波）

cimage 行數據 linux 次數原來跟著結構工具匯總前言：一、背景介紹二、大數據介紹正文：一、大數據相關的工作介紹二、大數據工程師的技能要求三、大數據學習規劃四、持續學習資源推薦（書籍，博客，網站）五、項目案例分析（批處理+實時處理）

大數據學習之Hadoop快速入門

spa data 一次架構 spark 1.7 cor catalina 工具 1、Hadoop生態概況 Hadoop是一個由Apache基金會所開發的分布式系統集成架構，用戶可以在不了解分布式底層細節情況下，開發分布式程序，充分利用集群的威力來進行高速運算與存儲，具有可

大數據學習之路-簡介

str 現實生活之路 sea ear 現實什麽是大數據分布式數據庫 1、什麽是大數據基本概念《數據處理》在互聯網技術發展到現今階段，大量日常、工作等事務產生的數據都已經信息化，人類產生的數據量相比以前有了爆炸式的增長，以前的傳統的數據處理技術已經無法勝任，需求

大數據學習之小白如何學大數據？（詳細篇）

第二章文本 size storm mongod mage 分析 phoenix sqlserve 大數據這個話題熱度一直高居不下，不僅是國家政策的扶持，也是科技順應時代的發展。想要學習大數據，我們該怎麽做呢？大數據學習路線是什麽？先帶大家了解一下大數據的特征以及發展方向。

C++學習之自定義型別

我們在C語言裡面學習了結構體，在C++中的結構體和C中的結構體不一樣。C++允許新增建構函式，成員方法，訪問許可權等等。在C++中還有一種型別叫做類，也可以有成員方法，訪問許可權和建構函式，成員變數等等。那麼這之間有什麼區別呢？其實沒有區別，唯一的區別就是在不宣告許可權的時候預設許可權問題。

安卓開發學習之自定義Toast的實現

背景吐司提示很常見，但系統的吐司有一個缺點，就是顯示時長不能自定義，而自定義Toast可以實現這一點實現步驟整體思路是：活動視窗發出彈出吐司請求，然後中間層接收請求，發給排程層，排程層顯示吐司這裡請求的傳遞就是方法的呼叫，顯示和消除吐司的關鍵是呼叫windo

vivado學習之自定義IP和呼叫自定義IP和的步驟

一、自定義IP核 1、開啟 VIVADO 軟體，新建一個工程。 2、Flow Navigater下，單擊 Add Source，選擇 Add or Creat design Sources,然後單擊 Next。 3、單擊 Create File，輸入檔名，單擊 OK。 4、

Mybatis學習之自定義typeHandler

自定義typeHandler背景比如儲存到資料庫時，有以下需求：1.有個列舉型別的值，想要儲存到資料庫為字串或整數2.Date型別存入資料庫為毫秒數3.物件中的集合（List）屬性儲存資料庫為｛xxx，xxx，xxx｝的格式，讀取出來自動轉車List傳統的讀取操作也能達到這個

大數據學習之自定義輸出 13

二：自定義輸出

1：自定義編寫FileOutputFormate

2 : 自定義編寫FileRecordWriter類

3：編寫MR

運行截圖：

輸入：

輸出（看好了 路徑根據 FileRecordWriter類中的一樣 ）：

相關推薦

輸出（看好了路徑根據 FileRecordWriter類中的一樣）：