OutputFormat---自定義輸出方式

阿新 • • 發佈：2020-10-11

簡介

可以自定義輸出的格式和檔案，例如包含某欄位的輸出到一個指定檔案，不包含某欄位的輸出到另一個檔案。

案例

資料

www.nevesettle.com
www.baidu.com
www.qq.com
www.mi.com
www.jd.com
www.std.com

Mapper

package com.neve.outputformat;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class LogMapper extends Mapper<LongWritable, Text,Text, NullWritable> {

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        context.write(value,NullWritable.get());
    }
}

Reducer

package com.neve.outputformat;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class LogReducer extends Reducer<Text, NullWritable,Text,NullWritable> {

    @Override
    protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

        for (NullWritable value : values) {
            context.write(key,value);
        }

    }
}

Driver

package com.neve.outputformat;

import com.neve.phone.FlowBean;
import com.neve.phone.FlowMapper;
import com.neve.phone.FlowReducer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class LogDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        //1.建立配置
        Configuration configuration = new Configuration();
        //2.建立job
        Job job = Job.getInstance(configuration);
        //3.關聯驅動類
        job.setJarByClass(LogDriver.class);
        //4.關聯mapper和reducer類
        job.setMapperClass(LogMapper.class);
        job.setReducerClass(LogReducer.class);
        //5.設定mapper的輸出值和value
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);
        //6.設定最終的輸出值和value
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);
        //7.設定輸入輸出路徑
        FileInputFormat.setInputPaths(job,new Path("F:\\Workplace\\IDEA_Workplace\\hadoopStudy2\\outputformatinput"));
        FileOutputFormat.setOutputPath(job,new Path("F:\\Workplace\\IDEA_Workplace\\hadoopStudy2\\outputformatoutput"));
        //設定自定義的format類
        job.setOutputFormatClass(LogOutputFormat.class);
        //8.提交job
        job.waitForCompletion(true);

    }
}

LogOutputFormat

package com.neve.outputformat;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class LogOutputFormat extends FileOutputFormat<Text, NullWritable> {

    public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {
        LogRecordWriter logw = new LogRecordWriter(job);
        return logw;
    }
}

LogRecordWriter

package com.neve.outputformat;

import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;

import java.io.IOException;

public class LogRecordWriter extends RecordWriter<Text, NullWritable> {

    //定義輸出路徑
    private String nelog = "F:\\nelog.log";
    private String otherlog = "F:\\otherlog.log";

    private FileSystem fs ;
    private FSDataOutputStream neos;
    private FSDataOutputStream otheros;


    public LogRecordWriter(TaskAttemptContext job) throws IOException {
        //獲取檔案系統物件
        fs = FileSystem.get(job.getConfiguration());
        neos = fs.create(new Path(nelog));
        otheros = fs.create(new Path(otherlog));
    }

    public void write(Text key, NullWritable value) throws IOException, InterruptedException {
        String string = key.toString();
        if (string.contains("neve")){
            neos.writeBytes(string + "\r");
        }else {
            otheros.writeBytes(string + "\r");
        }
    }

    public void close(TaskAttemptContext context) throws IOException, InterruptedException {
        IOUtils.closeStream(neos);
        IOUtils.closeStream(otheros);
    }
}

OutputFormat---自定義輸出方式

簡介可以自定義輸出的格式和檔案，例如包含某欄位的輸出到一個指定檔案，不包含某欄位的輸出到另一個檔案。

TensorFlow實現自定義Op方式

『寫在前面』以CTC Beam search decoder為例，簡單整理一下TensorFlow實現自定義Op的操作流程。

django admin 新增自定義連結方式

背景最近做專案開發出現一個需求，就是前端會發來使用者對某一項內容的報錯，報錯資訊中包含出錯內容的id，為了方便管理，需要實現點選這個id直接轉達相應內容的詳情頁面。

Android在自定義類中實現自定義監聽器方式

監聽器可以說是Android開發中最常用的東西之一。我們通過監聽器可以監聽物件的各種變化事件，並進行一些需要的處理，相當有用，而且使用起來也很簡單。其實，監聽器就相當於C++中的回撥函式，達到條件就回調執行。

在SpringBoot 中從application.yml中獲取自定義常量方式

要注意的地方是 application.yml 中不能用駝峰式寫法（systemParams）要改成system-params

Keras自定義IOU方式

我就廢話不多說了，大家還是直接看程式碼吧！ def iou(y_true,y_pred,label: int): \"\"\"

django rest framework 自定義返回方式

大家在用Django Rest Framework的時候會發現預設繼承後，增刪改查的返回資訊都是一段data,這是因為我實際是狀態碼和資訊你在呼叫api的時候是看不到的，僅僅如此麼？並不是這樣，在我前端呼叫後端的時候，實際上相關的

詳解Spring Boot使用Maven自定義打包方式

前言：本文將告訴你如何將程式Jar與與依賴Jar及配置檔案分離打包，以下列舉了兩種不同Maven打包方式，其打包效果一致！

Nginx捕獲404錯誤實現自定義處理方式

技術標籤：java踩坑系列nginxjava 需求背景最近專案在做架構升級，由原來的SSM的單體架構變成前後端分離的專案，原專案使用了大量的動態路由，由於時間原因，我們不能使用VUE等支援動態路由的技術，這就導致之前

spring data jpa 查詢自定義欄位,轉換為自定義實體方式

目標：查詢資料庫中的欄位，然後轉換成 jsON 格式的資料，返回前臺。環境：idea 2016.3.4， jdk 1.8， mysql 5.6， spring-boot 1.5.2

MapReduce當中自定義輸出：多檔案輸出MultipleOutputs

MapReduce當中自定義輸出：多檔案輸出MultipleOutputs 自定義輸出：多檔案輸出MultipleOutputs馬克-to-win @ 馬克java社群：對於剛才的單獨訂單topN的問題，如果需要把單獨的訂單id的記錄放在自己的一個檔案中，

Python日誌:自定義輸出欄位 json格式輸出方式

最近有一個需求:將日誌以json格式輸出,並且有些欄位是logging模組沒有的.看了很多原始碼和資料,終於搞定,抽取精華分享出來,一起成長.

Spark輸出自定義檔案目錄踩坑(Java)

最近專案中，使用Spark做離線計算，結果需要輸出一份結果到檔案中儲存，並且需要按Key來放置不同的目錄。因為spark通過saveAsTextFile()方法預設輸出是以part-0000的形式。

pytorch自定義二值化網路層方式

任務要求：自定義一個層主要是定義該層的實現函式,只需要過載Function的forward和backward函式即可,如下:

Tensorflow 自定義loss的情況下初始化部分變數方式

一般情況下，tensorflow裡面變數初始化過程為： #variables ........... #.....................

pytorch 自定義引數不更新方式

nn.Module中定義引數：不需要加cuda，可以求導，反向傳播 class BiFPN(nn.Module): def __init__(self,fpn_sizes):

pytorch 自定義卷積核進行卷積操作方式

一卷積操作：在pytorch搭建起網路時，大家通常都使用已有的框架進行訓練，在網路中使用最多就是卷積操作，最熟悉不過的就是

基於TensorFlow中自定義梯度的2種方式

前言在深度學習中，有時候我們需要對某些節點的梯度進行一些定製，特別是該節點操作不可導（比如階梯除法如），如果實在需要對這個節點進行操作，而且希望其可以反向傳播，那麼就需要對其進行自定義反向傳播時的梯度

Vue自定義元件的四種方式示例詳解

四種元件定義方式都存在以下共性(血淚史) 規則： 1.元件只能有一個根標籤 2.記住兩個詞全域性和區域性

Android Studio 配置:自定義頭部程式碼註釋及新增模版方式

1. 自定義標頭檔案註釋: 實現效果實現步驟依次操作File -> Settings ->Editor ->File and Code Templates，在詳細展示視窗點選includes選項卡，找到

OutputFormat---自定義輸出方式

簡介

案例

相關推薦