Hadoop基礎（五十六）：其他面試題手寫Hadoop WordCount

阿新 • • 發佈：2020-12-10

環境說明:

jdk1.8
hadoop-2.7.7
windows上配置好的帶有hadoop環境的eclipse

1.自定義Mapper

/*
 * LongWritable對應輸入的key型別，預設是行的偏移量LongWritable
 * Text,對應上輸入的value型別，預設行資料Text
 * Text:對應輸出的key型別，不能使用預設值，需要根據需求更改
 * Text:對應輸出的value型別，根據需求修改
 * @author lesie
 * 要求輸出的格式(key,1)
 * 單詞計數輸出的key型別為Text
 * 輸出的value型別為IntWritable
  
*/
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
    
    /*
     * KEYIN
     * VALUEIN
     * context--環境物件，輸出結果
     * @see org.apach.hadoop.mapreduce.Mapper#map(KEYIN,VALUEIN,...)
     */
    public void map(LongWritable ikey,Text ivalue,Context context) throws 
 IOException, InterruptedException
    {
        //獲取一行資料
        String line=ivalue.toString();
        
        //按空格切片
        String []arrs=line.split(" ");
        for(String arr:arrs)
        {
            context.write(new Text(arr),new IntWritable(1));
        }
        
    }
}

2.自定義Reducer

/* 

 * reducer的數輸入key用公式mapper輸出的key型別
 * valuein:reducer的輸入value應該是mapper輸出的value型別
 * keyout:根據業務而定
 * valueout:根據業務而定
 * @author lesie 
 * 工作機制:
 * 1.將key相同的value進行合併，形成一個Iterable，交給程式
 * eg:(hello,<1,1,1,1,1,1>)
 * 2.reduce方法執行的次數取決於mapper輸出的key，有多個不同的key執行多少次
 * 3.預設的排序，對key進行排序，先按照數字進行排再按照字典順序
 */

public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    
    public void reduce(Text _key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        // process values
        //定義計數變數
        int sum=0;
        //進行累加操作
        for (IntWritable val : values) {
            //通過get方法取出其中的值
            sum+=val.get();
        }
        //輸出資料,最終結果,key是單詞Text,value是單詞出現的總次數
        context.write(_key, new IntWritable(sum));
    }

}

3.主程式

public class WordCountDriver {

    public static void main(String[] args) throws Exception {
        // TODO Auto-generated method stub
        //獲取當前配置
        Configuration conf=new Configuration();
        
        //獲取一個表示當前Mapreduce作業的Job物件，向ahdoop申請一個job任務執行邏輯
        Job job=Job.getInstance();
        
        //指定程式入口
        job.setJarByClass(WordCountDriver.class);
        
        //設定需要執行的Mapper類
        job.setMapperClass(WordCountMapper.class);
        
        //設定Reducer類
        job.setReducerClass(WordCountReducer.class);
        
        //設定Mapper的輸出型別
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        
        //設定Reducer的輸出結果型別
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        
        //設定輸入路徑
        FileInputFormat.setInputPaths(job, new Path("hdfs://192.168.140.128:9000/wc/words.txt"));
        
        //設定輸出路徑
        FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.140.128:9000/wc/result6"));
        
        //任務的提交
        job.waitForCompletion(true);
    }

}

Hadoop基礎（五十六）：其他面試題手寫Hadoop WordCount

環境說明: jdk1.8 hadoop-2.7.7 windows上配置好的帶有hadoop環境的eclipse 1.自定義Mapper /* * LongWritable對應輸入的key型別，預設是行的偏移量LongWritable

Hadoop基礎（五十七）：其他面試題ES（二）

來源：https://mp.weixin.qq.com/s/MU87hW3W2S1Fi6CqnnXAGA 問題列表和答案來自國外部落格（原文答案不準確，有錯誤），為避免誤導，我對每個問題做了屬於自己的理解和解答。

Hadoop基礎（五十八）：其他面試題ES（三）

26、你可以列出 Elasticsearch 各種型別的分析器嗎？ Elasticsearch Analyzer 的型別為內建分析器和自定義分析器。

Hadoop基礎（三十六）：監聽伺服器節點動態上下線案例

1．需求某分散式系統中，主節點可以有多臺，可以動態上下線，任意一臺客戶端都能實時感知到主節點伺服器的上下線。

Hadoop基礎（四十六）：DML 資料操作

1 資料匯入 1.1 向表中裝載資料（Load） 1．語法 hive> load data [local] inpath \'/opt/module/datas/student.txt\' [overwrite] into table student

Hadoop基礎（五十一）：企業級調優（一）

1 Fetch 抓取 Fetch 抓取是指，Hive 中對某些情況的查詢可以不必使用 MapReduce 計算。例如：

Hadoop基礎（五十二）：企業級調優（二）

4 資料傾斜 4.1 合理設定 Map 數 1）通常情況下，作業會通過 input 的目錄產生一個或者多個 map 任務。

Hadoop基礎（五十四）：基於centos搭建Hadoop3.x完全分散式執行模式

0 簡介分析： 1）準備3臺客戶機（關閉防火牆、靜態ip、主機名稱） 2）安裝JDK 3）配置環境變數

Hadoop基礎（二十一）：Shuffle機制（二）

4WritableComparable排序 1．排序的分類 2．自定義排序WritableComparable （1）原理分析 bean物件做為key傳輸，需要實現WritableComparable介面重寫compareTo方法，就可以實現排序。

Hadoop基礎（二十二）：Shuffle機制（三）

7 Combiner合併（6）自定義Combiner實現步驟（a）自定義一個Combiner繼承Reducer，重寫Reduce方法

Hadoop基礎（二十九）：資料清洗（ETL）（二）複雜解析版

資料清洗案例實操-複雜解析版 1．需求對Web訪問日誌中的各欄位識別切分，去除日誌中不合法的記錄。根據清洗規則，輸出過濾後的資料。

Hadoop基礎（二十八）：資料清洗（ETL）（一）簡單解析版

資料清洗案例實操-簡單解析版在執行核心業務MapReduce程式之前，往往要先對資料進行清洗，清理掉不符合使用者要求的資料。清理的過程往往只需要執行Mapper程式，不需要執行Reduce程式。

Hadoop基礎（三十四）：Zookeeper 客戶端命令列操作

客戶端命令列操作 1．啟動客戶端 [atguigu@hadoop103 zookeeper-3.4.10]$ bin/zkCli.sh 2．顯示所有操作命令

Hadoop基礎（四十四）：Hive 資料型別

1 基本資料型別對於 Hive 的 String 型別相當於資料庫的 varchar 型別，該型別是一個可變的字串，不過它不能宣告其中最多能儲存多少個字元，理論上它可以儲存 2GB 的字元數。

Hadoop基礎（四十七）：查詢

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 查詢語句語法： [WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available

Hadoop基礎（四十八）：函式

1 系統內建函式 1．檢視系統自帶的函式 hive> show functions; 2．顯示自帶的函式的用法

Hadoop基礎（四十九）：壓縮和儲存（一）

1 Hadoop 原始碼編譯支援 Snappy 壓縮 1.1 資源準備 1．CentOS 聯網配置 CentOS 能連線外網。Linux 虛擬機器 ping www.baidu.com 是暢通的

大資料實戰（五十六）：電商數倉（三十九）之系統業務資料倉庫（十二）新付費使用者數

1 DWS層 1.1 建表語句 drop table if exists dws_pay_user_detail; create external table dws_pay_user_detail(

Flink例項（五十六）：自定義時間和視窗的操作符（十一）TimestampAssigner介面（二）生成水印的三個過載方法

https://www.cnblogs.com/Springmoon-venn/p/11403665.html Timestamp 和Watermark 的概念: 1. Timestamp和Watermark都是基於事件的時間欄位生成的

Flink基礎（二十六）：FLINK SQL(二)查詢語句（二）操作符（一）

1 Scan、Projection 與 Filter 操作符描述 Scan / Select / As批處理流處理 SELECT * FROM Orders

Hadoop基礎（五十六）：其他面試題 手寫Hadoop WordCount

1.自定義Mapper

2.自定義Reducer

3.主程式

相關推薦

Hadoop基礎（五十六）：其他面試題手寫Hadoop WordCount