18.自定義Inputformat

阿新 • • 發佈：2018-12-27

需求：

將一個資料夾裡的幾個小檔案讀入併合並，輸出為：檔案路徑+檔案內容

程式碼:

public class Fcinputformat extends FileInputFormat<NullWritable, BytesWritable> {
    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
        //不切原來檔案
        return false;
    }

    @Override
    public RecordReader<NullWritable, BytesWritable> createRecordReader(InputSplit inputSplit, TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {

      FcRecordReader fc =  new FcRecordReader();
        return fc;
    }
}

-----------------------------------------------------------
public class FcRecordReader extends RecordReader<NullWritable, BytesWritable> {
    boolean isProcess = false;
    FileSplit sp;
    Configuration conf;
    BytesWritable value = new BytesWritable();

    public void initialize(InputSplit inputSplit, TaskAttemptContext Context)  {
        this.sp = (FileSplit) inputSplit;
        conf = Context.getConfiguration();
    }

    public boolean nextKeyValue() throws IOException {

        if (!isProcess){
                 FSDataInputStream fis ;
                 FileSystem fs ;

                //1.根據切片長度獲得緩衝區
                byte [] bur = new byte[(int)sp.getLength()];
                //2.獲得路徑
                Path path = sp.getPath();
                //3.通過路徑獲得檔案系統
                fs = path.getFileSystem(conf);
                //4.通過檔案系統獲得輸入流
                fis = fs.open(path);
                //5.拷貝流
                IOUtils.readFully(fis,bur,0,bur.length);
                //6.關閉流

                value.set(bur, 0, bur.length);


                IOUtils.closeStream(fis);
                IOUtils.closeStream(fs);



            isProcess = true;

            return true;
        }

        return false;
    }

    public NullWritable getCurrentKey()  {
        return NullWritable.get();
    }

    public BytesWritable getCurrentValue()  {
        return value;
    }

    public float getProgress() {
        return 0;
    }

    public void close()  {

    }
}
----------------------------------------------------
public class SquenceDrive {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJarByClass(SquenceDrive.class);



        job.setMapperClass(SquenceMapper.class);
        job.setReducerClass(SquenceReducer.class);

        job.setInputFormatClass(Fcinputformat.class);
        job.setOutputFormatClass(SequenceFileOutputFormat.class);
//        job.setOutputFormatClass(TextOutputFormat.class);


        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(BytesWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(BytesWritable.class);

        FileInputFormat.setInputPaths(job,new Path("B:/測試資料/"));
        FileOutputFormat.setOutputPath(job,new Path("B:/測試資料/out"));

        boolean b = job.waitForCompletion(true);

        System.out.println(b);
    }
}
-----------------------------------------------------------------------------------------
public class SquenceMapper extends Mapper<NullWritable, BytesWritable, Text, BytesWritable> {
        Text k = new Text();
    @Override
    protected void setup(Context context) throws IOException, InterruptedException {
        FileSplit sp = (FileSplit) context.getInputSplit();
        Path path = sp.getPath();
        k.set(path.toString());
    }

    @Override
    protected void map(NullWritable key, BytesWritable value, Context context) throws IOException, InterruptedException {
        context.write(k,value);
    }
}
--------------------------------------------------------------------
public class SquenceReducer extends Reducer<Text, BytesWritable,Text, BytesWritable> {
    @Override
    protected void reduce(Text key, Iterable<BytesWritable> values, Context context) throws IOException, InterruptedException {
        for (BytesWritable v : values){
            context.write(key,v);
        }
    }
}

輸入結果:

在這裡插入圖片描述

上面包名不能去掉，用的不多，主要熟悉下Inputformat的過程和寫法！

預設格式TextInputformat

setInputFormat：
TextInputFormat：用於讀取純文字檔案，檔案被分為一系列以LF或CR結束的行，key是每一行的偏移量(LongWritable)，value是每一行的內容(Text)。
KeyValueTextInputFormat：用於讀取檔案，如果行被分隔符分割為兩部分，第一部分為key，剩下的為value；若沒有分隔符，整行作為key，value為空。
SequenceFileInputFormat：用於讀取SequenceFile，讀取格式要與寫出SequenceFileOutputFormat時設定的setOutputKeyClass與setOutputValueClass一致（key+value的格式）。
SequenceFileInputFilter：根據filter從SequenceFile中取得滿足條件的資料，通過setFilterClass指定Filter，內建了三種Filter，RegexFilter取key值滿足指定的正則表示式的記錄；PercentFilter通過指定引數f，取記錄行數f%0的記錄；MD5Filter通過指定引數f，取MD5(key)%f

0的記錄。

setOutputFormat：
TextOutputFormat：輸出到純文字檔案，格式為key + “ ”+ value。
NullOutputFormat：hadoop中的/dev/null，將輸出送進黑洞。
SequenceFileOutputFormat，輸出SequenceFile檔案，其具體格式與setOutputKeyClass，setOutputValueClass相關，如此SequenceFileInputFormat的讀取格式應該與SequenceFileOutputFormat的輸出格式一致（key+value的格式）
MultipleSequenceFileOutputFormat, MultipleTextOutputFormat：根據key將記錄輸出到不同的檔案，可以被重寫
DBInputFormat和DBOutputFormat，從DB讀取，輸出到DB。

18.自定義Inputformat

需求：將一個資料夾裡的幾個小檔案讀入併合並，輸出為：檔案路徑+檔案內容程式碼: public class Fcinputformat extends FileInputFormat<NullWritable, BytesWritable> { @O

Hadoop 自定義InputFormat實現自定義Split

原文連結：http://blog.csdn.net/anbo724/article/details/6956286 上一篇文章中提到了如何進行RecordReader的重寫，本篇文章就是來實現如何實現自定義split的大小要解決的需求：（1）一個

sharepoint 2016 學習系列篇(18)-自定義列表應用篇-(7)列表檢視設定

前面我們通過一個例子，使用“使用者資訊表”，學習瞭如何建立列表，以及如何建立列表欄位，接下來，還有一個是列表資料的展示。關於列表資料的展示方式，在sharepoint上，也有靈活的使用方法，可以根據

MapReduce-XML處理-自定義InputFormat及自定義RecordReader

這一篇說明如何自定義InputFormat以及RecordReader這兩個元件，通過使用mapreduce處理xml檔案格式的檔案來說明其用法，這一個例子來自《hadoop硬實戰》一書的技術點12講解的用法，如果有說明得不清楚的可以自行進行查閱下面就來說說這個例項要達到的目

自定義InputFormat

程式程式碼如下： package inputformat; import java.io.DataInput; import java.io.DataOutput; import java.io.FileInputStream; import java.io.IOExc

如何使用activiti 5.18+自定義流程自定義表單

以自定義一個請假流程作為示例。 1.首先，建立幾個表單，這些自定義表單，是在請假流程中使用的。表單管理->新建表單我們新建了5個表單。vacation-request、vacation-department、vacation-hr、vacation-modif

MapReduce之自定義InputFormat

>在企業開發中，Hadoop框架自帶的`InputFormat`型別不能滿足所有應用場景，需要==自定義==InputFormat來解決實際問題。自定義InputFormat步驟如下： - （1）自定義一個類繼承`FilelnputFormat`。 - （2）自定義一個類繼承`RecordReader`，實

mysql-5.7.18版本（二進制包安裝）-自定義安裝路徑

mysql linux lnmp mysql-5.7.18版本（二進制包安裝）-自定義安裝路徑安裝路徑：/application/mysql-5.7.181.前期準備mysql依賴libaioyum install -y libaio創建用戶mysql，以該用戶的身份執行mysqluseradd

18)django-模板的過濾器和tag，自定義simple_tag和filter

hello 直接結果 from simple 使用 span 裝飾 san 模板過濾器是在變量被顯示前修改它的值的一個簡單方法。過濾器使用管道字符 . 模板標簽(template tag) 。標簽(tag)定義比較明確，即：僅通知模板系統完成某些工作的標簽。一：d

Lucene筆記18-Lucene的分詞-實現自定義同義詞分詞器-思路分析

一、實現自定義同義詞分詞器思路分析前面文章我們提到同義詞分詞器，這裡我們先來分析下同義詞分詞器的設計思路。首先我們有一個需要分詞的字串string，通過new StringReader(string)拿到Reader。使用analyzer.tokenStream("co

18 Django - 自定義分頁、FBV和CBV

Django - 自定義分頁、FBV和CBV 一、自定義分頁（優勢在於能夠儲存搜尋條件） """ 分頁元件使用示例： 1) 先取出所有資料USER_LIST 2) 例項化：

Thinkphp5.0.18最高效的實現自定義類的自動載入方式

今天看了下，tp5的原始碼。發現自定義類庫的載入方式是有順序的。分別是按對映方式 psr4 psr0,其中最高效的，順序最前的當然是對映方式。我貼出原始碼，大家看下。 private static function findFile($class) { //echo

OpenGL ES(18): 核心：自定義EGL環境

1.簡介 EGL：是OpenGL ES和本地視窗系統的介面，不同平臺上EGL配置是不一樣的，而 OpenGL的呼叫方式是一致的，就是說：OpenGL跨平臺就是依賴於EGL介面。為什麼要自己建立EGL環境？當我們需要把同一個場景渲染到不同的Surface上時，此時系統GLSurfac

laravel5之自定義驗證規則15位18位身份證驗證

1,app\Providers\AppServiceProvider.php在檔案中的boot方法中新增 namespace App\Providers; use Validator; use Illuminate\Support\ServiceProvider; clas

hadoop程式設計小技巧（5）---自定義輸入檔案格式類InputFormat

Hadoop程式碼測試環境：Hadoop2.4應用：在對資料需要進行一定條件的過濾和簡單處理的時候可以使用自定義輸入檔案格式類。Hadoop內建的輸入檔案格式類有：1）FileInputFormat<K,V>這個是基本的父類，我們自定義就直接使用它作為父類；2）T

自定義hadoop map/reduce輸入檔案切割InputFormat 更改輸入value的分隔符

本文轉載自：http://hi.baidu.com/lzpsky/blog/item/99d58738b08a68e7b311c70d.html hadoop會對原始輸入檔案進行檔案切割，然後把每個split傳入mapper程式中進行處理，FileInputForma

Qt編寫自定義控制元件18-魔法小魚

前言上次發了個純painter繪製的老鼠，那個就是qt目錄下的demo，改的，只是比demo中的老鼠稍微胖一點，估計人到中年都發

【小白學PyTorch】18 TF2構建自定義模型

【機器學習煉丹術】的煉丹總群已經快滿了，要加入的快聯絡煉丹兄WX:cyx645016617 參考目錄： [TOC] 之前講過了如何用tensorflow構建資料集，然後這一節課講解如何用Tensorflow2.0來建立模型。 TF2.0中建立模型的API基本上都放到了它的Keras中了，Keras可以理

MySQL全面瓦解18：自定義函式

定義我們之前學習了MySQL的內建函式，非常豐富，滿足了我們對資料操作的大部分需求。但是如果有一些複雜的業務邏輯在資料庫層面就可以完成，無需在程式層面完成的時候，這時候就可以寫成MySQL自定義函式。所以，函式是指一組預編譯好的sql語句集合，理解成批處理語句。類似於C# 中的方法，並且必須有返回值。

WF4.0以上使用代碼完整自定義動態生成執行工作流Xaml文件

load 控制 brush 類型 rpv 返回 cap 並且 sco 給大家分享一下，如何完全使用代碼自定義的創建生成工作流文件（用代碼創建Xaml文件），並且動態加載運行所生成的工作流。工作流生成後在Xaml文件裏的主要節點如下：輸入輸出參數 <x

18.自定義Inputformat

需求：

程式碼:

輸入結果:

預設格式TextInputformat

相關推薦