Hadoop，MapReduce，JOB引數

阿新 • • 發佈：2019-01-27

下面介紹MapReduce的主要的六個類，只有瞭解了這六個類的作用，才能在編寫程式中知道哪個類是要自己實現，哪些類可以呼叫預設的類，才能真正的做到遊刃有餘，關於需要自己編寫的類（使用者制定類）可以參考：

InputFormat類。該類的作用是將輸入的檔案和資料分割成許多小的split檔案，並將split的每個行通過LineRecorderReader解析成<Key,Value>,通過job.setInputFromatClass()函式來設定，預設的情況為類TextInputFormat，其中Key預設為字元偏移量，value是該行的值。
Map類。根據輸入的<Key,Value>對生成中間結果，預設的情況下使用Mapper類，該類將輸入的<Key,Value>對原封不動的作為中間按結果輸出，通過job.setMapperClass()實現。實現Map函式。

Combine類。實現combine函式，該類的主要功能是合併相同的key鍵，通過job.setCombinerClass()方法設定，預設為null，不合並中間結果。實現map函式
Partitioner類。該該主要在Shuffle過程中按照Key值將中間結果分成R份，其中每份都有一個Reduce去負責，可以通過job.setPartitionerClass()方法進行設定，預設的使用hashPartitioner類。實現getPartition函式
Reducer類。將中間結果合併，得到中間結果。通過job.setReduceCalss()方法進行設定，預設使用Reducer類，實現reduce方法。

OutPutFormat類，該類負責輸出結果的格式。可以通過job.setOutputFormatClass()方法進行設定。預設使用TextOUtputFormat類，得到<Key,value>對。

note：hadoop主要是上面的六個類進行mapreduce操作，使用預設的類，處理的資料和文字的能力很有限，具體的專案中，使用者通過改寫這六個類（過載六個類），完成專案的需求。說實話，我剛開始學的時候，我懷疑過Mapreudce處理資料功能，隨著學習深入，真的很欽佩mapreduce的設計，基本就二個函式，通過過載，可以完成所有你想完成的工作。

public  static void main(String[] args)throws IOException {
        Configuration conf = new Configuration();
        Job job = new Job(conf);
        job.setInputFormatClass(TextInputFormat.class);
        job.setMapperClass(Mapper.class);
        job.setCombinerClass(null);
        job.setPartitionerClass(HashPartitioner.class);
        job.setReducerClass(Reducer.class);
        job.setOutputFormatClass(TextOutFormat.class);
    }
}

Hadoop，MapReduce，JOB引數

Hadoop，MapReduce，JOB引數

Hadoop，Spark，Storm，Docker，Mapreduce，Kafka深入解析

為什麼說，MapReduce，顛覆了網際網路分層架構的本質？

MapReduce中job引數及設定map和reduce的個數

Hadoop: MapReduce2多個job序列處理複雜的MapReduce處理中，往往需要將複雜的處理過程，分解成多個簡單的Job來執行，第1個Job的輸出做為第2個Job的輸入，相互之間有一

執行hadoop的MapReduce示例，在Running job卡住

Hadoop之MapReduce過程，單詞計數WordCount

解決eclipse遠端連線MapReduce，提示HADOOP_HOME or hadoop.home.dir are not set.

windows下idea中搭建hadoop開發環境，向遠端hadoop叢集提交mapreduce任務

Hadoop，MapReduce,HDFS面試題

【Mapreduce】利用job巢狀，多重Mapreduce，求解二度人脈

一個Java Jenkins工具類，支援建立，構建，帶引數構建，刪除JenkinsJob，停止Jenkins Job任務等

Azkaban實戰，Command型別單一job示例，任務中執行外部shell指令碼，Command型別多job工作flow,HDFS操作任務，MapReduce任務，HIVE任務

全文索引-lucene，solr，nutch，hadoop之nutch與hadoop

Linux - 工作管理（job control），jobs，fg，bg，kill

處理海量數據的模式MapReduce，大規模數據集的並行運算

ORACLE 11G在存儲過程裏面遍歷遊標，調用job任務定時運行

kafka-connect-hdfs連接hadoop hdfs時候，竟然是單點的，太可怕了。。。果斷改成HA

SAP BASIS 基礎教程 SAP BASIS daily Job 查看系統用戶 SM04，SP01，SM50

mapreduce，整合數據字典表

Hadoop，MapReduce，JOB引數

相關推薦