關於MapReduce join操作

阿新 • • 發佈：2019-02-11

使用者表：ID+name+sex
這裡寫圖片描述

使用者行為表:ID+City+action+notes
這裡寫圖片描述

Join完成後的形式：ID+name+sex+city+action+notes
這裡寫圖片描述

package com.qst.DateJoin;

import java.io.IOException;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable 
;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper 
;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache.hadoop.mapred.TextOutputFormat;
import org.apache.hadoop.mapred.FileSplit;

public class Data {
    public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, Text> {
        private Text theKey = new Text(); 

        private Text theValue = new Text();
        /*Map方法：輸入的key是行號，輸入的value是每一行的資料
            輸出的資料key是兩個檔案共有的使用者ID，輸出的value是每個檔案除ID以外的資料*/
        public void map(LongWritable key, Text value, OutputCollector<Text, Text> output, Reporter reporter)
                throws IOException {
            //獲取檔案的路徑
            String filePath = ((FileSplit) reporter.getInputSplit()).getPath().toString();
            //將每次傳過來的Value按照\t分隔
            String[] line = value.toString().split("\\t");
            //判斷Value是否為空
            if (line == null || line.equals(""))
                return;
            //判斷擷取的字串陣列的長度，因為使用者表每一行至少有三個屬性，所以長度至少為3
            if (line.length < 3)
                return;
            //根據檔名，判斷Map中輸入的Value屬於user還是屬於Action
            if (filePath.contains("userfile")) {
                //獲取ID
                String userid = line[0];
                //將除ID以外的值拼接起來傳遞給Reduce
                String userValue = line[1] + "\t" + line[2];
                theKey.set(userid);
                //在傳遞的Value中新增標識，以便在Reduce的時候分辨Value是來自使用者表還是來自使用者行為表
                theValue.set("u:" + userValue);
                output.collect(theKey, theValue);
            } else if (filePath.contains("actionfile")) {
                String userid = line[0];
                String userValue = line[1] + "\t" + line[2] + "\t" + line[3] + "\t";
                theKey.set(userid);
                theValue.set("a:" + userValue);
                output.collect(theKey, theValue);
            }
        }
    }

    public static class Reduce extends MapReduceBase implements Reducer<Text, Text, Text, Text> {
        public void reduce(Text key, Iterator<Text> values, OutputCollector<Text, Text> output, Reporter reporter)
                throws IOException {
            //因為傳遞過來的Value不止一個是Iterator形式的，所以分別建立連結串列來儲存User的Value和Action的Value
            List<String> userlist = new ArrayList<String>();
            List<String> valuelist = new ArrayList<String>();
            while (values.hasNext()) {
                //遍歷Value，因為Value是Text型別的，所以轉換成字串型別
                String value = values.next().toString();
                //通過在Map中新增的識別符號來把Value分開，以便拼接
                if (value.startsWith("u:")) {
                    String user = value.substring(2);
                    userlist.add(user);
                } else if (value.startsWith("a:")) {
                    String val = value.substring(2);
                    valuelist.add(val);
                }
            }
            //最後輸出的形式是一個User和許多User的行為，所以遍歷兩個連結串列將數值拼接
            int i, j;
            for (i = 0; i < userlist.size(); i++) {
                for (j = 0; j < valuelist.size(); j++) {
                    output.collect(key, new Text(userlist.get(i) + "\t" + valuelist.get(j)));
                }
            }
        }
    }

    public static void main(String[] args) throws Exception {
        JobConf conf = new JobConf(DataJoin.class);
        conf.setJobName("Data Join");
        conf.setOutputKeyClass(Text.class);
        conf.setOutputValueClass(Text.class);

        conf.setMapperClass(Map.class);
        conf.setReducerClass(Reduce.class);

        conf.setInputFormat(TextInputFormat.class);
        conf.setOutputFormat(TextOutputFormat.class);

        FileInputFormat.setInputPaths(conf, new Path(args[0]));
        FileOutputFormat.setOutputPath(conf, new Path(args[1]));

        JobClient.runJob(conf);
    }
}

關於MapReduce join操作

使用者表：ID+name+sex 使用者行為表:ID+City+action+notes Join完成後的形式：ID+name+sex+city+action+notes package com.qst.DateJoin; import ja

Hadoop基礎-MapReduce的Join操作

MapReduce實現join操作

import java.io.IOException; import java.util.HashMap; import java.util.Iterator; import java.util.Vector; import org.apache.hadoop.io.LongWritable; import

MapReduce的兩表join操作優化

注：優化前的分析過程詳見本博的上篇博文案例地址(Address)和人員(Person)的一對多關聯原始資料地址(Address)資料 id AddreName 1 beijing 2 shanghai 3 guangzhou 人員(Person)資料 1 zhan

使用MapReduce實現兩個文件的Join操作

ash 鍵值 turn @param nts n) extend cache inter 數據結構 customer表 1 hanmeimei ShangHai 110 2

案例-使用MapReduce實現join操作

哈嘍～各位小夥伴們中秋快樂，好久沒更新新的文章啦，今天分享如何使用mapreduce進行join操作。在離線計算中，我們常常不只是會對單一一個檔案進行操作，進行需要進行兩個或多個檔案關聯出更多資料，類似與sql中的join操作。今天就跟大家分享一下如何在MapReduce中實現join操作需求現有

MySQL left join操作中 on與where放置條件的區別

合成可見找到需要兩張 oca aaa rip 多個優先級兩者放置相同條件，之所以可能會導致結果集不同，就是因為優先級。on的優先級是高於where的。 1 1 首先明確兩個概念： LEFT JOIN 關鍵字會從左表 (table_name1) 那裏返回

Hive---join操作

http gpo bsp body outer blog www com size HIVE中join、semi join、outer join舉例詳解加油舉例子： hive> select * from zz0; 111111 222222 888888 hiv

Spark SQL中Dataframe join操作含null值的列

dataframe util pre table log n-n dram blog between 當在Spark SQL中對兩個Dataframe使用join時，當作為連接的字段的值含有null值。由於null表示的含義是未知，既不知道有沒有，在SQL中null值與任何

MapReduce-join連接

nac key .com auto utf 此外壓縮 mapred java join連接 MapReduce能夠執行大型數據集間的連接（join）操作。連接操作的具體實現技術取決於數據集的規模及分區方式連接操作如果由mapper執行，則稱為“map端連接”；如果由red

Join操作基本：外連線、自然連線、內連線

Join操作基本分為3大類：外連線(細分為：左連線、右連線、全連線)、自然連線、內連線 Join操作的共性：第一步均為將所有參與操作的表進行了一個笛卡兒積，然後才依據各連線條件進行記錄的篩選 SQL> select * from employees;

spark之join操作

import java.util.Arrays; import java.util.Iterator; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.a

spark運算元join操作

一旦分散式資料集（distData）被建立好，它們將可以被並行操作。例如，我們可以呼叫distData.reduce(lambda a, b: a + b)來將陣列的元素相加。我們會在後續的分散式資料集運算中進一步描述。並行集合的一個重要引數是slices，表示資料集切分的份數。Spark將會在叢

RxJava join操作-31

原文：https://github.com/Froussios/Intro-To-RxJava/blob/master/Part 4 - Concurrency/3. Sequences of coincidence.md join允許您將兩個序列中的項組合在一起。我們已經看過zip，它根據index對值進

Join操作集合 INNER JOIN、LEFT/RIGHT JOIN、FULL JOIN、CROSS JOIN

假設兩張表：t1 和 t2。它們的資料如下。 id name id name -- ---- -- ---- 1 Pirate 1 Rutabaga 2 Monkey 2 Pirate 3 Ninja 3

Python sqlalchemy增刪改查，多表查詢join操作

sqlalchemy物件： from sqlalchemy import Column from sqlalchemy import DateTime from sqlalchemy import BIGINT from sqlalchemy import IN

spring boot+mongodb入門隨筆02 join操作$lookup

目的是要實現類似sql的join操作參考$lookup public class OrderQsDemographicSize { @Id private String id; private String demographic; private L

mysql join操作【例項教程】

mysql join操作例項 1.準備資料 1.1建立表 create table test1 ( id TINYINT PRIMARY key, name VARCHAR(225) ); create table test2 ( id TINYIN

2-2、spark的union和join操作演示

spark的union和join操作演示 union簡介：通常如果我們需要將兩個select語句的結果作為一個整體顯示出來，我們就需要用到union或者union all關鍵字。union(或稱為聯合)的作用是將多個結果合併在一起顯示出來。 Union：將兩個RDD進行

Hive中的join操作

在做sql 操作的時候多表join 在所難免，下面主要介紹一下hive 中做join LEFT JOIN，RIGHT JOIN， FULL OUTER JOIN ,inner join, left semi join 準備資料 1,a 2,b 3,c 4,d 7,y 8,u 2,b

關於MapReduce join操作

相關推薦