MapReduce之連線操作類應用

阿新 • • 發佈：2019-01-25

用MapReduce實現關係的自然連線

假設有關係R(A，B)和S(B,C)，對二者進行自然連線操作
使用Map過程，把來自R的每個元組<a,b>轉換成一個鍵值對<b, <R,a>>，其中的鍵就是屬性B的值。把關係R包含到值中，這樣做使得我們可以在Reduce階段，只把那些來自R的元組和來自S的元組進行匹配。類似地，使用Map過程，把來自S的每個元組<b,c>，轉換成一個鍵值對<b,<S,c>>
所有具有相同B值的元組被髮送到同一個Reduce程序中，Reduce程序的任務是，把來自關係R和S的、具有相同屬性B值的元組進行合併

Reduce程序的輸出則是連線後的元組

自然連線過程

應用示例

在HDFS中有兩個檔案，一個記錄了學生的基本資訊，包含了姓名和學號資訊，名為student_info.txt,內容為：

Jenny   00001
Hardy   00002
Bradley 00003

還有一個檔案記錄了學生的選課資訊表，包括了學號和課程名，名為student_class_info.txt,內容為：

00001   Chinese
00001   Math
00002   Music
00002   Math
00003   Physic

現在經join操作後，得出的結果為：

Jenny   Chinese
Jenny   Math
Hardy   Music
Hardy   Math 

Bradley Physic

程式程式碼

JoinMapper

package com.test.join;

import java.io.IOException;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public 
 class JoinMapper extends Mapper<LongWritable, Text, Text, Text>{
    private static final String STUDENT_FILENAME = "student_info.txt";
    private static final String STUDENT_CLASS_FILENAME = "student_class_info.txt";
    private static final String STUDENT_FLAG = "student";
    private static final String STUDENT_CLASS_FLAG = "student_class";

    private FileSplit fileSplit;
    private Text outKey = new Text();
    private Text outValue = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        fileSplit = (FileSplit) context.getInputSplit();
        String filePath = fileSplit.getPath().toString();

        String line = value.toString();
        String[] fields = StringUtils.split(line,"\t");

        //判斷記錄來自哪個檔案
        if (filePath.contains(STUDENT_FILENAME)) {
            outKey.set(fields[1]);
            outValue.set(STUDENT_FLAG + "\t" + fields[0]);
        }
        else if (filePath.contains(STUDENT_CLASS_FILENAME)) {
            outKey.set(fields[0]);
            outValue.set(STUDENT_CLASS_FLAG + "\t" + fields[1]);
        }

        context.write(outKey, outValue);
    }
}

JoinReducer

package com.test.join;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class JoinReducer extends Reducer<Text, Text, Text, Text>{
    private static final String STUDENT_FLAG = "student";
    private static final String STUDENT_CLASS_FLAG = "student_class";

    private String fileFlag = null;
    private String stuName = null;
    private List<String> stuClassNames;

    private Text outKey = new Text();
    private Text outValue = new Text();

    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException {
        stuClassNames = new ArrayList<>();

        for (Text val : values) {
            String[] fields = StringUtils.split(val.toString(),"\t");
            fileFlag = fields[0];
            //判斷記錄來自哪個檔案，並根據檔案格式解析記錄。
            if (fileFlag.equals(STUDENT_FLAG)) {
                stuName = fields[1];
                outKey.set(stuName);
            }
            else if (fileFlag.equals(STUDENT_CLASS_FLAG)) {
                stuClassNames.add(fields[1]);
            }
        }

        //求笛卡爾積
        for (String stuClassName : stuClassNames) {
            outValue.set(stuClassName);
            context.write(outKey, outValue);
        }
    }

}

JoinRunner

package com.test.join;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public class JoinRunner extends Configured implements Tool{

    @Override
    public int run(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Join");
        job.setJarByClass(JoinRunner.class);

        job.setMapperClass(JoinMapper.class);
        job.setReducerClass(JoinReducer.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        return job.waitForCompletion(true) ? 0:1;
    }

    public static void main(String[] args) throws Exception {
        int res = ToolRunner.run(new Configuration(), new JoinRunner(), args);
        System.exit(res);
    }
}

執行結果

Jenny   Math
Jenny   Chinese
Hardy   Math
Hardy   Music
Bradley Physic

MapReduce之連線操作類應用

用MapReduce實現關係的自然連線假設有關係R(A，B)和S(B,C)，對二者進行自然連線操作使用Map過程，把來自R的每個元組<a,b>轉換成一個鍵值對<b, <R,a>>，其中的鍵就是屬性B的值。把關係R包

MapReduce表連線操作之Reduce端join

一：背景 Reduce端連線比Map端連線更為普遍，因為輸入的資料不需要特定的結構，但是效率比較低，因為所有資料都必須經過Shuffle過程。二：技術實現基本思路 (1)：Map端讀取所有的檔案，並在輸出的內容里加上標示，代表資料是從哪個檔案裡來的。 (2)：在red

MapReduce之Job工具類開發

大數據 Hadoop MapReduce Java [toc] MapReduce之Job工具類開發在MapReduce程序寫Mapper和Reducer的驅動程序時，有很多代碼都是重復性代碼，因此可以將其提取出來寫成一個工具類，後面再寫MapReduce程序時都會使用這個工具類。 Job

java併發之原子操作類(AtomicLong原始碼分析)和非阻塞演算法

背景近年來，在併發演算法領域的大多數研究都側重於非阻塞演算法，這種演算法用底層的原子機器指令（例如比較併發交換指令）代替鎖來確保資料在併發訪問中的一致性。非阻塞演算法被廣泛的用於在作業系統和JVM中實現執行緒/程序排程機制、垃圾回收機制以及鎖和其他併發資料結構。與基於鎖

Java併發程式設計之原子操作類

原子操作類簡介當更新一個變數的時候，多出現資料爭用的時候可能出現所意想不到的情況。這時的一般策略是使用synchronized解決，因為synchronized能夠保證多個執行緒不會同時更新該變數。然而，從jdk 5之後，提供了粒度更細、量級更輕，並且在多核處理器具有高效

Mapreduce之自定義OutputFormat應用-日誌增強

主要介紹的是自定義OutputFormat的使用，給出的需求很簡單對現有的日誌檔案內容進行增強。 1、從原始日誌檔案中讀取資料 2、根據日誌中的一個URL欄位到外部知識庫中獲取資訊增強到原始日誌 3、如果成功增強，則輸出到增強結果目錄；如果增強失敗，則

Java多執行緒之原子操作類

在併發程式設計中很容易出現併發安全問題，最簡單的例子就是多執行緒更新變數i=1，多個執行緒執行i++操作，就有可能獲取不到正確的值，而這個問題，最常用的方法是通過Synchronized進行控制來達到執行緒安全的目的。但是由於synchronized是採用的是悲觀鎖策略，並不是特別高效的一種解決方案。實際上，

MapReduce編程之Semi Join多種應用場景與使用

得出 mon comm exception strong 相關 path 區別 rep Map Join 實現方式一 ● 使用場景：一個大表（整張表內存放不下，但表中的key內存放得下），一個超大表 ● 實現方式：分布式緩存 ● 用法: SemiJoin就是所謂的半

JaveScript基礎(2)之數據類型轉換和常用字符串的操作方法

obj visit placement 第一個字符表達 indexof 停止提取並不是 1、JaveScript數據類型轉換： A、轉字符串：通過“+”或toString(); 　　PS:如果都是數值類型，‘+’會進行求和運算，否則會做字符串連接； var s=2.

redis之sorted sets類型及操作

redissorted sets類型及操作 sorted set是set的一個升級版本，它在set的基礎上增加了一個順序屬性，這一屬性在添加修改元素的時候可以指定，每次指定後，zset會自動重新按新的值調整順序。可以理解為有兩列的mysql表，一列存value，一列存順序。操作中key理解為zset的名字。

java操作JDBC之Oracle工具類

/** * JDBC之Oracle工具類 * * @author： Rodge * @time： 2018年10月4日下午4:06:15 * @version： V1.0.0 */ public class JDBCUtilForOracle { private static fi

java操作JDBC之MySQL工具類

/** * JDBC之MySQL工具類 * * @author： Rodge * @time： 2018年10月4日下午4:03:42 * @version： V1.0.0 */ public class JDBCUtilForMySQL { private static fin

python基礎之檔案操作和簡單的類

檔案操作 #檔案刪除 import os path=".\\data\\" for s in os.listdir(path): filename=path+s print(filename) # os.remove("test.txt") #檔案開啟 f=open('test.

Stoker的Java學習之封裝資料庫連線工具類與commons-dbutils

Java學習之封裝資料庫連線工具類與commons-dbutils 一.封裝資料庫連結工具類 public class JDBCUitl { // 宣告連結 private static Connection connection; // 註冊驅動 st

Java之路：檔案操作類——File

要把程式所處理的資料在不同的記憶體容器（記憶體或外存）進行傳輸，例如將記憶體的資料寫到外存（某個檔案中），就要用到I/O（輸入/輸出）技術。Java提供的I/O操作可以把資料儲存到多種型別的檔案中。大多數的應用程式都需要與外部的輸入/輸出裝置I/O（Input/Output）進

MFC學習筆記之XML 檔案操作類

可擴充套件標記語言XML(Extend Mark Language)是一種描述資料和資料結構的語言，XML資料可以儲存在任何可以儲存文字的文件中。HTML用來描述外觀，而XML從一開始就被設計為表示原始資訊而完全忽略資料呈現方式。XML之所以功能強大，是因為計算機行業已經把X

我自定義的公共類之連線資料庫（1）

//連結資料庫 public static SqlConnection lianjie() { SqlConnection con = new SqlConne

Java應用程式開發學習之集合ArrayList類的使用方法

在原來文章介紹了有關Java程式開發的詳細步驟： https://blog.csdn.net/morixinguan/article/details/84956938 這節，來介紹下集合ArrayList的使用方法，回到上一篇文章的，我們一樣跟著腳步來學習使用

【asp.net之Web Form】編寫抽象工廠資料庫操作類

理解抽象工廠在ADO.NET對SqlServer，Mysql等的操作步驟類似，不同的是: SqlServer的操作使用的是SqlConnection、SqlCommand，SqlDataAdapter； MySql使用的是MySqlConnection、

黑馬程式設計師——Java IO流（二）之流操作規律總結、File類、Properties類、序列流等

-----------android培訓、java培訓、java學習型技術部落格、期待與您交流！------------ 六、流操作規律總結　1.明確源和目的：　　源：　　　字元流：FileReader（純文字檔案）。　　　位元組流：FileInputStream（

MapReduce之連線操作類應用

用MapReduce實現關係的自然連線

自然連線過程

應用示例

程式程式碼

JoinMapper

JoinReducer

JoinRunner

執行結果

相關推薦