Hadoop基礎（二十八）：資料清洗（ETL）（一）簡單解析版

阿新 • • 發佈：2020-07-19

資料清洗案例實操-簡單解析版

在執行核心業務MapReduce程式之前，往往要先對資料進行清洗，清理掉不符合使用者要求的資料。清理的過程往往只需要執行Mapper程式，不需要執行Reduce程式。

1．需求

去除日誌中欄位長度小於等於11的日誌。

（1）輸入資料

（2）期望輸出資料

每行欄位長度都大於11。

2．需求分析

需要在Map階段對輸入的資料根據規則進行過濾清洗。

3．實現程式碼

（1）編寫LogMapper類

package com.atguigu.mapreduce.weblog;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
 
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class LogMapper extends Mapper<LongWritable, Text, Text, NullWritable>{
    
    Text k = new Text();
    
    @Override
    protected void map(LongWritable key, Text value, Context context) throws 
 IOException, InterruptedException {
        
        // 1 獲取1行資料
        String line = value.toString();
        
        // 2 解析日誌
        boolean result = parseLog(line,context);
        
        // 3 日誌不合法退出
        if (!result) {
            return;
        }
        
        // 4 設定key
        k.set(line);
        
         
// 5 寫出資料
        context.write(k, NullWritable.get());
    }

    // 2 解析日誌
    private boolean parseLog(String line, Context context) {

        // 1 擷取
        String[] fields = line.split(" ");
        
        // 2 日誌長度大於11的為合法
        if (fields.length > 11) {

            // 系統計數器
            context.getCounter("map", "true").increment(1);
            return true;
        }else {
            context.getCounter("map", "false").increment(1);
            return false;
        }
    }
}

View Code

（2）編寫LogDriver類

package com.atguigu.mapreduce.weblog;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class LogDriver {

    public static void main(String[] args) throws Exception {

// 輸入輸出路徑需要根據自己電腦上實際的輸入輸出路徑設定
        args = new String[] { "e:/input/inputlog", "e:/output1" };

        // 1 獲取job資訊
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        // 2 載入jar包
        job.setJarByClass(LogDriver.class);

        // 3 關聯map
        job.setMapperClass(LogMapper.class);

        // 4 設定最終輸出型別
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        // 設定reducetask個數為0
        job.setNumReduceTasks(0);

        // 5 設定輸入和輸出路徑
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 6 提交
        job.waitForCompletion(true);
    }
}

Hadoop基礎（二十八）：資料清洗（ETL）（一）簡單解析版

資料清洗案例實操-簡單解析版在執行核心業務MapReduce程式之前，往往要先對資料進行清洗，清理掉不符合使用者要求的資料。清理的過程往往只需要執行Mapper程式，不需要執行Reduce程式。

Hadoop基礎（二十九）：資料清洗（ETL）（二）複雜解析版

資料清洗案例實操-複雜解析版 1．需求對Web訪問日誌中的各欄位識別切分，去除日誌中不合法的記錄。根據清洗規則，輸出過濾後的資料。

Flink基礎（二十八）：FLINK SQL(四)CREATE 語句

0 簡介 CREATE 語句用於向當前或指定的Catalog中登錄檔、檢視或函式。註冊後的表、檢視和函式可以在 SQL 查詢中使用。

資料視覺化基礎專題（二十八）：Pandas基礎（八）合併（一）concat

一合併 1Concatenating objects Theconcat()function (in the main pandas namespace) does all of the heavy lifting of performing concatenation operations along an axis while performing optional set logic

ES基礎（二十八）跨叢集搜尋

課程demo //啟動3個叢集 bin/elasticsearch -E node.name=cluster0node -E cluster.name=cluster0 -E path.data=cluster0_data -E discovery.type=single-node -E http.port=9200 -E transport.port=93

linux原始碼解讀（二十八）：通過epoll實現協程（二）

　　1、協程只是一種思路，並且沒有作業系統層面的參與，所以全靠3環的應用開發人員自己實現。市面上有各種協程框架，這裡以微信的libco庫為例，看看協程到底是怎麼落地實現的！libco 是微信後臺開發和使用的協程庫

面試連環炮系列（二十八）：資料庫讀寫分離的目的是什麼？

1. 資料庫讀寫分離的目的是什麼？通常業務系統是讀多寫少，讀寫分離是將對資料庫的讀寫操作分散到不同的節點上，能夠小幅提升寫效能，大幅提升讀效能。通常採用資料庫一主多從的方式，主庫可以讀寫，從庫只讀。

Java 從入門到進階之路（二十八）

在之前的文章我們都是通過 Java 在記憶體中應用，本章開始我們來看一下 Java 在系統檔案（硬碟）上的操作。

《第一行程式碼》閱讀筆記（二十八）——網路技術（OkHttp+JSON/GSON）

網路技術在程式設計中也是非常重要的一環，在android底層是通過HttpURLConnection實現的，後來出現了一款優秀的框架OkHttp，實現了對底層的封裝。然後隨著技術的進步，現在更多的是使用OkHttp+Retrofit+Rxjava網路框

python介面自動化（二十八） requests超時重試方法（由於連線方在一段時間後沒有正確答覆或連線的主機沒有反應，連線嘗試失敗）

前言 “由於連線方在一段時間後沒有正確答覆或連線的主機沒有反應，連線嘗試失敗”，這是經常遇到的問題requests.exceptions.ConnectionError: HTTPSConnectionPool(host=\'www.github.com\', port=443):

Selenium3+python3自動化（二十八）--顯式等待(WebDriverWait)

前言在指令碼中加入太多的sleep後會影響指令碼的執行速度，雖然implicitly_wait()這種方式隱式等待方法一定程度上節省了很多時間。

jmeter（二十八）利用beanshell進行多重斷言

在介面測試中，我們對返回結果的正確性判斷一般是基於響應報文的返回內容進行斷言。但有些時候，按照正常的業務邏輯來說，一個請求返回的內容是多種不同的。

走進C++11（二十八）一諾千金 std::promise

技術標籤：C++11c++ promise 物件可以儲存某一型別 T 的值，該值可被 future 物件讀取（可能在另外一個執行緒中），因此 promise 也提供了一種執行緒同步的手段。在 promise 物件構造時可以和一個共享狀態（通

C#學習（二十八）——ManualResetEvent的理解和使用

技術標籤：C#學習c# 1、C#ManualResetEvent和AutoResetEvent使用筆記一、兩者區別 1.ManualResetEvent 呼叫一次Set()後將允許恢復所有被阻塞執行緒。需手動在呼叫WaitOne()之後呼叫Reset()重置訊號量狀態為非終

（二十八）運輸層--主動佇列管理AQM

主動佇列管理AQM 前一篇文章介紹了TCP的擁塞控制方法，但是並沒有和網路層採取的策略聯絡起來。其實，它們之間有著密切的關係。

Spring Boot 入門系列（二十八） JPA 的實體對映關係，一對一，一對多，多對多關係對映！

前面講了Spring Boot 使用 JPA，實現JPA的增、刪、改、查的功能，同時也介紹了JPA的一些查詢，自定義SQL查詢等使用。JPA使用非常簡單，功能非常強大的ORM框架，無需任何資料訪問層和sql語句即可實現完整的資料操作方

《Redis設計與實現》讀書筆記（二十八） ——Redis叢集節點結構與槽分配

《Redis設計與實現》讀書筆記（二十八） ——Redis叢集節點結構與槽分配（原創內容，轉載請註明來源，謝謝）

Mapbox 與 Babylon.js 視覺化 glsl 特效篇（二十八）

我決定不從Babylonjs 基礎來講了直接整合mapbox與babylonjs視覺化來講我整合一個類庫後續不斷更新中

Spark專案實戰從0到1之（20）企業級資料倉庫構建（三）：資料採集模組環境搭建（1）

一、資料採集模組 Linux基本配置【1】Linux環境搭建 1).修改MAC地址方法1：vim /etc/udev/rules.d/70-persistent-net.rules

pandas（13）：資料清洗（重複記錄）

資料來源： df= pd.DataFrame({\'k1\': [ \'s1\']* 3 + [\'s2\']* 5,\'k2\' : [1, 1, 2, 3, 3, 4, 4,4]})

Hadoop基礎（二十八）：資料清洗（ETL）（一）簡單解析版

資料清洗案例實操-簡單解析版

相關推薦