Hadoop MapReduce開發--資料去重

阿新 • • 發佈：2019-01-12

環境

	hadoop-2.9.1
	windows7
	idea15

示例資料

file1.txt和file2.txt檔案儲存在路徑：C:\bigdata\example_data\mr_example\exp_02\

file1.txt

2012-3-1 a
2012-3-2 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-7 c
2012-3-3 c

file2.txt

2012-3-1 b
2012-3-2 a
2012-3-3 b
2012-3-4 d
2012-3-5 a
2012-3-6 c
2012-3-7 d
2012-3-3 c

程式碼部分

DeMapper.java

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * 去重操作
 */
public class DeMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        context.write(new Text(value.toString().trim()), NullWritable.get());
    }
}

DeReducer.java

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class DeReducer extends Reducer<Text, NullWritable, Text, NullWritable> {
    public void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
        context.write(key, NullWritable.get());
    }
}

JobMain.java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.protocol.ClientProtocol;

import java.io.IOException;

public class JobMain {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        job.setJarByClass(JobMain.class);

        job.setMapperClass(DeMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        job.setReducerClass(DeReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));

        Path path = new Path(args[1]);
        FileSystem fs = FileSystem.get(conf);
        if(fs.exists(path)) {
            fs.delete(path, true);
        }
        FileOutputFormat.setOutputPath(job, path);
        job.setNumReduceTasks(1);
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

執行程式碼

在windows7環境下執行前需要設定HADOOP_CLASSPATH
set HADOOP_CLASSPATH=mr_example.jar
注：mr_example.jar是以上程式碼打成jar包的名稱

執行命令
hadoop jar的全類名(包名+類名) 資料路徑輸出路徑

eg:
C:\hadoop-2.9.1\bin\hadoop jar的全類名（包名+類名） file:///C:…\mr_example\exp_02*.txt C:…\mr_example\exp_02\out\

執行結果

2012-3-1 a
2012-3-1 b
2012-3-2 a
2012-3-2 b
2012-3-3 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-6 c
2012-3-7 c
2012-3-7 d

Hadoop MapReduce開發--資料去重

環境 hadoop-2.9.1 windows7 idea15 示例資料 file1.txt和file2.txt檔案儲存在路徑：C:\bigdata\example_data\mr_example\exp_02\ file1.txt 2012-3-1 a 2012

MapReduce處理資料去重與資料排序

一：MapReduce處理資料去重 Map的key具有資料去重的功能 /* * 去除資料中相同資料 * 資料去重問題 * 以整個資料作為key傳送出去, value為null */ public class DelsameMap extends Mapper<

Hadoop MapReduce開發--升序排序資料，且資料不去重

測試資料： file1.txt 2 32 654 32 15 756 65223 file2.txt 5956 22 650 92 file3.txt 26 54 6 Mapper程式碼： import org.apache.

使用Hadoop的MapReduce來實現資料去重

最近在系統學習大資料知識，學了沒有記錄過幾天又忘光了，所以把學習內容記錄下來，方便以後檢視 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.

Hadoop—MapReduce練習（資料去重、資料排序、平均成績、倒排索引）

1. wordcount程式先以簡單的wordcount為例。 Mapper： package cn.nuc.hadoop.mapreduce.wordcount; import java.io.IOException; import org.apache.com

MapReduce案例3——求簡單資料去重

資料去重源資料： 2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-4 d 2012-3-5 a 2012-3-6 b 2012-3-7 c 2012-3-3 c 2012-3-1 b 2012-3-2 a 2012-3-3 b 2012-3-4

【MapReduce例項】資料去重

一、例項描述資料去重是利用並行化思想來對資料進行有意義的篩選。統計大資料集上的資料種類個數、從網站日誌中計算訪問等這些看似龐大的任務都會涉及資料去重。比如，輸入檔案 file1.txt，其內容如下： 2017-12-9 a 2017-12-10 b

Hadoop MapReduce開發--取TopN資料

測試資料： file1.txt 1,9819,100,121 2,8918,2000,111 3,2813,1234,22 4,9100,10,1101 5,3210,490,111 6,1298,28,1211 7,1010,281,90 8,1818,9000,20 f

Hadoop MapReduce開發--兩個輸入資料關聯

測試資料： dept.txt #deptno dname loc 30 sales chicago 20

Hadoop MapReduce開發--對輸入日誌資料進行統計

該案例對輸入日誌資料進行統計：要求：區別統計GET和POST URL訪問量測試資料： 127.0.0.1 - - [03/Jul/2014:23:36:38 +0800] "GET /course/detail/3.htm HTTP/1.0" 200 38435 0.038 18

大資料_Shuffle、MapReduce程式設計案例(資料去重、多表查詢、倒排索引、使用單元測試)

一、什麼是Shuffle（洗牌） ----> MapReduce核心 1、序列化 2、排序 3、分割槽 4、合併二、MapReduce程式設計案例 ------> 掌握方法：如何開發一個程式 1、資料

hadoop mapreduce開發實踐之HDFS文件分發by streaming

submit ast nap direct 如同 lis slots cal ado 1、分發HDFS文件（-cacheFile）需求：wordcount（只統計指定的單詞），但是該文件非常大,可以先將該文件上傳到hdfs，通過-cacheFile的方式進行分發； -ca

hadoop mapreduce開發實踐之HDFS壓縮文件（-cacheArchive）

delete info dset odi .gz .tar.gz package cal 2.6.0 1、分發HDFS壓縮文件（-cacheArchive）需求：wordcount（只統計指定的單詞【the,and,had...】），但是該文件存儲在HDFS上的壓縮文件,

hadoop mapreduce開發實踐之輸出數據壓縮

實踐 shuff file apr 存儲壓縮 ras 最終 item 1、hadoop 輸出數據壓縮 1.1、為什麽要壓縮？輸出數據較大時，使用hadoop提供的壓縮機制對數據進行壓縮，可以指定壓縮的方式。減少網絡傳輸帶寬和存儲的消耗；可以對map的輸出進行壓縮（m

大量資料去重：Bitmap點陣圖演算法和布隆過濾器(Bloom Filter)

Bitmap演算法與其說是演算法，不如說是一種緊湊的資料儲存結構。是用記憶體中連續的二進位制位(bit)，用於對大量整型資料做去重和查詢。其實如果並非如此大量的資料，有很多排重方案可以使用，典型的就是雜湊表。實際上，雜湊表為每一個可能出現的數字提供了一個一一對映的關係，每個元素都相當於有

java實現大批量json檔案資料去重

上週從資料採集部門拿到一批400份的json檔案,每個檔案裡30w+的json物件,物件裡有uid,對重複的uid,需要去重下. 本人電腦4核8G已經不能滿足了,總是記憶體不夠用.所以在伺服器上寫了一下(配置8核128G) ,結果讀取檔案以及去重都沒問題, 在最後的寫入是又是

java程式碼實現MySQL資料庫表千萬條資料去重

準備工作: 1.資料庫表:datatest5 2.欄位: id 主鍵自增,val 重複值欄位併為val建立索引 3.設定innodb緩衝池大小 show variables like "%_buffer%"; SET GLOBAL innod

PHP 強大的字元處理能力之CSV資料去重

/* 對以下資料進行去重【detail_new_urls.csv 檔案中內容】 http://www.cnvd.org.cn/flaw/show/CNVD-2018-01155 http://www.cnvd.org.cn/flaw/show/CNVD-2017-01206 http:

再戰mysql 資料去重

年初時，寫過一篇去重的，在小表中還能用用，在大表中真的是效率低下，現在給了一次優化 https://www.cnblogs.com/jarjune/p/8328013.html 繼上一篇文章方法三： DELIMITER // DROP PROCEDURE IF EXISTS delete_

Python List資料去重和巢狀List資料去重

單個list中資料去重例如：去除a中重複的資料 ‘b’ a = ['a','b','c','b'] b = list(set(a)) print(b) 輸出結果為： ['a', 'c', 'b'] 巢狀list中去除相同list資料

Hadoop MapReduce開發--資料去重

環境

示例資料

file1.txt

file2.txt

程式碼部分

執行程式碼

執行結果

相關推薦