hadoop MapReduce 原始碼 FileInputFormat 核心方法分析

阿新 • • 發佈：2018-12-25

public List<InputSplit> getSplits(JobContext job) throws IOException {
    StopWatch sw = new StopWatch().start();
     //獲取檔案的最小值,如果沒有配置，就按預設值1
    long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));
     //獲取最大值，如果沒有配置就按預設值 long的最大值
    long maxSize = getMaxSplitSize(job);

    // generate splits
     //建立一個儲存切割資訊的陣列
    List<InputSplit> splits = new ArrayList<InputSplit>();
    //將job中的所有檔案資訊。存在一個list中返回
    List<FileStatus> files = listStatus(job);
     //迴圈遍歷所有檔案
    for (FileStatus file: files) {
      //獲取檔案路徑
      Path path = file.getPath();
      //獲取檔案長度
      long length = file.getLen();
      //當檔案長度不等於0
      if (length != 0) {
        BlockLocation[] blkLocations;
        if (file instanceof LocatedFileStatus) {
          blkLocations = ((LocatedFileStatus) file).getBlockLocations();
        } else {
          FileSystem fs = path.getFileSystem(job.getConfiguration());
          blkLocations = fs.getFileBlockLocations(file, 0, length);
        }
         //判斷是否能切割。如果能切割那就切割,有些檔案是不可以切的
        if (isSplitable(job, path)) {
          //獲取塊大小
          long blockSize = file.getBlockSize();
          //求切割長度。根據maxsize和minsize 和 塊大小來求
          // max(minsize,min(maxsize,blocksize))
          //如果是按照預設配置的話。就是塊大小。
          long splitSize = computeSplitSize(blockSize, minSize, maxSize);
		 //剩餘長度，一開始是lenth
          long bytesRemaining = length;
          //如果當前剩餘長度>要切的長度的1.1倍。那麼才切。否則不切了
          while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
             //新增切片資訊
            int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
            splits.add(makeSplit(path, length-bytesRemaining, splitSize,
                        blkLocations[blkIndex].getHosts(),
                        blkLocations[blkIndex].getCachedHosts()));
            bytesRemaining -= splitSize;
          }
		//最後多餘了一個沒有切乾淨，就再新增一個切片資訊
          if (bytesRemaining != 0) {
            int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
            splits.add(makeSplit(path, length-bytesRemaining, bytesRemaining,
                       blkLocations[blkIndex].getHosts(),
                       blkLocations[blkIndex].getCachedHosts()));
          }
        } //如果不能切片
          else { // not splitable
           //就不切。直接拿整個
          splits.add(makeSplit(path, 0, length, blkLocations[0].getHosts(),
                      blkLocations[0].getCachedHosts()));
        }
      } //當檔案長度等於零
        else { 
        //Create empty hosts array for zero length files
         //建立一個空的切割塊新增進去
        splits.add(makeSplit(path, 0, length, new String[0]));
      }
    }
    // Save the number of input files for metrics/loadgen
    job.getConfiguration().setLong(NUM_INPUT_FILES, files.size());
    sw.stop();
    if (LOG.isDebugEnabled()) {
      LOG.debug("Total # of splits generated by getSplits: " + splits.size()
          + ", TimeTaken: " + sw.now(TimeUnit.MILLISECONDS));
    }
    //返回切片資訊
    return splits;
  }

hadoop MapReduce 原始碼 FileInputFormat 核心方法分析

public List<InputSplit> getSplits(JobContext job) throws IOException { StopWatch sw = new StopWatch().start(); //獲取檔案的最小值,如

使用hadoop mapreduce分析mongodb數據

大資料技術學習筆記之Hadoop框架基礎3-網站日誌分析及MapReduce過程詳解

一、回顧 -》Hadoop啟動方式 -》單個程序 sbin/h

原始碼分析---onSaveInstanceState()方法分析

①在Activity的onSaveInstanceState()方法中，呼叫super()方法，裡面最終就是呼叫這裡的方法。主要是儲存activity的狀態，fragment的狀態，最終呼叫application進行儲存狀態。 ②首先是Activity的狀態。

使用MapReduce對Hadoop下的日誌記錄進行分析處理

一. 簡介 MapReduce是一個高效能的批處理分散式計算框架，用於對海量資料進行並行分析和處理。與傳統方法相比較，MapReduce更傾向於蠻力去解決問題，通過簡單、粗暴、有效的方式去處理海量的資料。通過對資料的輸入、拆分與組合（核心），將任務分配到多個節點伺服器上，進

MapReduce原始碼分析之InputSplit分析

前言 MapReduce的原始碼分析是基於Hadoop1.2.1基礎上進行的程式碼分析。什麼是InputSplit InputSplit是指分片，在MapReduce當中作業中，作為map task最小輸入單位。分片是基於檔案基礎上出來的而來的概念，通俗的理

【Spring原始碼閱讀】 preInstantiateSingletons方法分析，單例Bean獲取/例項化流程

在初始化ClassPathXmlApplicatonContext過程中，核心初始化邏輯在AbstractApplicationContext的refresh函式中： public void refresh() throws BeansException, IllegalStateE

Hadoop MapReduce核心技術淺析-----RPC框架解析

java 阻塞IO模型比較常見的就是伺服器的傳統socket通訊，為了更好地服務客戶端，伺服器會為每個客戶端建立一個執行緒，由於socket連線數有限，如果使用者請求的併發數過高會導致無法響應使用者請求，同時，由於socket採用阻塞IO，如果後端處理時間較長會導致

jQuery原始碼閱讀（十）---jQuery靜態方法分析

jQuery工具方法（靜態方法）是通過jQuery.extend方法來掛在的，extend方法的原始碼實現在這篇部落格中也有整理過。現在簡單回顧下，當jQuery.extend中的引數為一個物件時，就是擴充套件外掛的方式，也就是說裡面的方法都會擴充套件到jQue

一篇很好的Hadoop入門文章：Hadoop是什麼、核心HDFS與MapReduce的原理

Hadoop一直是我想學習的技術，正巧最近專案組要做電子商城，我就開始研究Hadoop，雖然最後鑑定Hadoop不適用我們的專案，但是我會繼續研究下去，技多不壓身。《Hadoop基礎教程》是我讀的第一本Hadoop書籍，當然在線只能試讀第一章，不過對Hadoop歷史、

MapReduce原始碼分析之MapTask分析(二)

SpillThread分析為什麼需要Spill 記憶體大小總是有效，因此在Mapper在處理過程中，資料持續輸出到記憶體中時，必然需要有機制能將記憶體中的資料換出，合理的刷出到磁碟上。SpillThread就是用來完成這部分工作。 Sp

CyclicBarrier核心程式碼dowait()方法分析（底層實現機制）

引言：相信大家對CyclicBarrier並不陌生，當一個執行緒呼叫了CyclicBarrier的await方法時，執行緒阻塞，直到指定數量的執行緒都執行完await方法後才喚醒

Hadoop中MapReduce多種join實現例項分析

感謝分享：http://database.51cto.com/art/201410/454277.htm 1、在Reudce端進行連線。在Reudce端進行連線是MapReduce框架進行表之間join操作最為常見的模式，其具體的實現原理如下： Map端的主要工作：為來自

學習Hadoop MapReduce與WordCount例子分析

/* MapReduce框架一直圍繞著key-value這樣的資料結構，下面以官方自帶的WordCount為例子，自己分析MapReduce的工作機制。MapReduce可以分為Map和Reduce過程，程式碼實現了兩個類，分別是繼承Mapper和Reduceer，Map

hadoop3.1.1下MapReduce操作出現錯誤: 找不到或無法載入主類org.apache.hadoop.mapreduce.v2.app.MRAppMaster 問題解決方法

Hadoop3.1.1下成功安裝後，進行MapReduce操作出現錯誤：錯誤: 找不到或無法載入主類org.apache.hadoop.mapreduce.v2.app.MRAppMaster 解決辦法：在命令列下輸入如下命令，並將返回的地址複製。 hadoop c

Mapreduce程式中的FileInputFormat.addInputPaths和FileInputFormat.addInputPath方法

好幾天沒動筆了，今天寫個簡單的~~ 寫MR過程中經常會遇到多個源路徑的輸入，我們可以在MR程式主函式中通過FileInputFormat.addInputPaths(job, conf.get("input_dir"))方法來實現，在提交指令碼中將多個源的路徑用“，”分隔

Hadoop Mapreduce之WordCount實現

註意 com split gin 繼承 [] leo ring exce 1.新建一個WCMapper繼承Mapper public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritab

16-hadoop-mapreduce簡介

沒有 size 需求 val reduce 進行 light mapper merger mapreduce是hadoop的核心組件, 設計理念是移動計算而不是移動數據, mapreduce的思想是‘分而治之‘, 將復雜的任務分解成幾個簡單的任務去執行 1, 數據和計算規

基於MapReduce的手機流量統計分析

methods ica spec err reduce same new form sel 1，代碼 package mr; import java.io.IOException; import org.apache.commons.lang.StringUtils;

Hadoop MapReduce輸入輸出類型

imu finally configure 獲得命名 pfile 計算 uil 大文件一、輸入格式　　1、輸入分片split 　　　　　　一個分片對應一個map任務；　　　　　　一個分片包含一個表（整個文件）上的若幹行，而一條記錄（單行）對應一行；　　　　　　分片

hadoop MapReduce 原始碼 FileInputFormat 核心方法分析

相關推薦