MapReduce資料處理兩表join連線

現在這裡有兩個text文件,需要把它合併成一個文件,並且裡面的資料不能有冗餘..

info.txt檔案:
1003 kaka
1004 da
1005 jue
1006 zhao

cpdata.txt檔案：
201001 1003 abc
201002 1005 def
201003 1006 ghi
201004 1003 jkl
201005 1004 mno
201006 1005 pqr
201001 1003 abc
201004 1003 jkl
201006 1005 mno
200113 1007 zkl

生成檔案：

1003 201001 abc kaka
1003 201004 jkl kaka
1004 201005 mno da
1005 201002 def jue
1005 201006 pqr jue
1005 201006 mno jue
1006 201003 ghi zhao

這裡先申明下,這個純屬個人想法,如果有跟好的方法可以告訴我

因為info.txt文件的第一個欄位與cpdata.txt的第二個欄位是相同的,所以我把他們做為key值,這樣通過Map他們就會組合了.去冗餘，

主要是用了個List記錄已經讀取過的變數，如果有一樣的就不讀取了.

程式碼如下：

publicclass Advanced extends Configured implements Tool {
publicstaticclass AdMap extends Mapper<LongWritable, Text, Text, TextPair>{
@Override
protectedvoid map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
// TODO Auto-generated method stub
// String filePath = ((FileSplit)context.getInputSplit()).getPath().toString();
Text word = new Text();
String line = value.toString();
String[] childline = line.split(" "); //以空格擷取
//判斷是哪一張表,其實個人覺得這樣判斷還不合理,可以使用上面注視掉的獲取路徑值來判斷
if(childline.length == 3){
TextPair pair = new TextPair();
pair.setFlag("0"); //這是個標識 0.表示 cpdata.txt 1表示info.txt
pair.setKey(childline[1]);
pair.setValue(childline[0]+" "+childline[2]);
pair.setContent(pair.toString());
word.clear();
word.set(pair.getKey());
context.write(word, pair); //傳遞一個物件要實現WritableComparable介面
}else{
TextPair pair = new TextPair();
pair.setFlag("1");
pair.setKey(childline[0]);
pair.setValue(childline[1]);
pair.setContent(pair.toString());
word.clear();
word.set(pair.getKey());
context.write(word, pair);
}
}
}
publicstaticclass AdReduce extends Reducer<Text, TextPair, Text, Text>{
@Override
publicvoid reduce(Text key, Iterable<TextPair> values,
Context context)
throws IOException, InterruptedException {
// TODO Auto-generated method stub
//list0裝載的都是cpdata的資料,list1裝載的是info的資料
List<Text> list0 = new ArrayList<Text>();
List<Text> list1 = new ArrayList<Text>();
Iterator<TextPair> it = values.iterator();
TextPair pair = new TextPair();
while(it.hasNext()){
pair = it.next();
if("1".equals(pair.getFlag()))
list1.add(new Text(pair.getValue()));
else
list0.add(new Text(pair.getValue()));
}
List<Text> sublist = new ArrayList<Text>(); //sublist用來新增已經寫過的資料,然後再判斷，如果存在就不用操作
for(int i = 0 ; i<list1.size(); i++){
for(int j = 0 ;j<list0.size();j++){
if(!sublist.contains(list0.get(j))){
sublist.add(list0.get(j));
context.write(key, new Text(list0.get(j)+" " +list1.get(i)));
}
}
}
}
}
/**
* @param args
*/
publicstaticvoid main(String[] args) {
try {
int res = ToolRunner.run(new Configuration(), new Advanced(), args);
System.exit(res);
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
@Override
publicint run(String[] args) throws Exception {
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
if(fs.exists(new Path(args[2]))){
//如果檔案已近存在就刪除檔案
// System.out.println("error : file is exists");
// System.exit(-1);
fs.delete(new Path(args[2]), true);
}
Job job = new Job(conf , "Advanced");
job.setJarByClass(Advanced.class

相關推薦

MapReduce資料處理兩表join連線

現在這裡有兩個text文件,需要把它合併成一個文件,並且裡面的資料不能有冗餘.. info.txt檔案:</stro

Hadoop中兩表JOIN的處理方法

參考小結 1，reduce side join 在reduce階段join。 map階段標記資料來自哪個檔案，比如來自file1標記tag=1，來自file2標記tag=2。 reduce階段把key相同的file1的資料和file2的資

hadoop 兩表join處理方法

1. 概述在傳統資料庫（如：MYSQL）中，JOIN操作是非常常見且非常耗時的。而在HADOOP中進行JOIN操作，同樣常見且耗時，由於Hadoop的獨特設計思想，當進行JOIN操作時，有一些特殊的技巧。本文首先介紹了Hadoop上通常的JOIN實現方法，然後給出了幾

MapReduce的兩表join一般操作

案例：(部門員工兩表的join查詢) 原始資料員工表(emp): empno ename job mgr hiredate sal comm deptno loc 7499 allen salesman 7698 1981-02-20 1600

MapReduce的兩表join操作優化

注：優化前的分析過程詳見本博的上篇博文案例地址(Address)和人員(Person)的一對多關聯原始資料地址(Address)資料 id AddreName 1 beijing 2 shanghai 3 guangzhou 人員(Person)資料 1 zhan

圖解Hadoop和MongoDB的MapReduce資料處理過程

下圖是Hadoop中一個很經典的例子計算文字中單詞個數。在Hadoop的MapReduce中，其實還有一個Shuffle過程。Map過程和C++ STL中的Map一樣，把每個單詞做成一個對映，單詞作

MySQL 一表中欄位內容是用逗號分隔的另一表含有對應資料的兩表聯合查詢

有時為了資料庫簡潔，存放資料的時候，某一欄位採用逗號隔開的形式進行儲存。一般情況這個欄位都應該具有如下幾個共性。被分割的欄位一定是有限而且數量較少的，我們不可能在一個字串中儲存無限多個字元這個欄位所屬的表與這個欄位關聯的表，一定是一對多的關係下面舉例說明：原表： l

Hadoop MapReduce資料處理過程以及更多示例

上一篇文章介紹了Hadoop的單機配置以及一個簡單的MapReduce示例，今天看看MapReduce處理資料的流程是怎樣的。建議閱讀本文前，最好能看一下上一篇文章的程式碼。上圖以上一篇文章的MapReduce示例為例，展示了單機配置下MapReduce的處理流程，由於

MySQL 兩表join時加鎖情況

tab 記錄 val 其他 into 得到 date maria 順序 MariaDB [test]> desc leouser_inno; +-------+--------------+------+-----+---------+-------+ | Fiel

Hadoop鏈式MapReduce、多維排序、倒排索引、自連線演算法、二次排序、Join效能優化、處理員工資訊Join實戰、URL流量分析、TopN及其排序、求平均值和最大最小值、資料清洗ETL、分析氣

Hadoop Mapreduce 演算法彙總第52課：Hadoop鏈式MapReduce程式設計實戰...1 第51課：Hadoop MapReduce多維排序解析與實戰...2 第50課：HadoopMapReduce倒排索引解析與實戰...3 第49課：Hado

MapReduce實現兩表的Join--原理及python和java程式碼實現

用Hive一句話搞定的，但是有時必須要用mapreduce 方法介紹 1. 概述在傳統資料庫（如：MYSQL）中，JOIN操作是非常常見且非常耗時的。而在HADOOP中進行JOIN操作，同樣常見且耗時，由於Hadoop的獨特設計思想，當進行JOIN操作時，有一

Sql語句優化-查詢兩表不同行NOT IN、NOT EXISTS、連線查詢Left Join

在實際開發中，我們往往需要比較兩個或多個表資料的差別，比較那些資料相同那些資料不相同，這時我們有一下三種方法可以使用：1. IN或NOT IN，2. EXIST或NOTEXIST，3.使用連線查詢（inner join，left join 或者 right join）。

集算器處理兩個序表資料交叉

需求：集算器指令碼能否把兩個序表的值交叉放，存為一個序表？比如 左右分別是查出的兩個序表，想合併成分析與實現：從結果看，要求兩個序表或結果集按照隔行交叉處理，直接的方式就會想到for迴圈。不過集算器有豐富的封裝函式（遍歷），實際可以用一個單元格代替用for

Sql語句優化-查詢兩表不同行NOT IN、NOT EXISTS、連接查詢Left Join

exists join ngs sdn 連接查詢 blog 建議開發 word 在實際開發中，我們往往需要比較兩個或多個表數據的差別，比較那些數據相同那些數據不相同，這時我們有一下三種方法可以使用：1. IN或NOT IN，2. EXIST或NOTEXIST，

資料處理速查表

Python資料科學速查表 - Python 基礎 Python資料科學速查表 - 匯入資料 Python資料科學速查表 - Jupyter Notebook 資料處理系列推出的內容包括：Numpy、Pandas 及 SciPy：

真題2002 兩個帶頭結點單鏈表的連線

真題2002 兩個帶頭結點單鏈表的連線題目：設計一個演算法，將一個帶表頭結點的單鏈表Y，連線到另一個帶表頭結點單鏈表X之後。單鏈表的每個結點有兩個域:data和link。要求寫出型別定義。演算法思想：先找到一個連結串列的尾結點，再與另一個連結串列的頭結點連線 Typedef stru

資料結構-線性表- 01 “兩個有序連結串列序列的合併” 問題

題目要求：本題要求實現一個函式，將兩個連結串列表示的遞增整數序列合併為一個非遞減的整數序列。函式介面定義： List Merge( List L1, List L2 ); 其中List結構定義如下： typedef struct Node *PtrToNode; struc

POI技術處理Excel表 .xls ..xlsx兩種格式的匯入操作

一、說明 1、文章轉載自：http://blog.csdn.net/onepersontz/article/details/49891405 原文標題====SpringMvc+POI 處理Excel的匯入操作功能==== 提到了ImportExcelUtil.java（Excel解析工具類）、Up

formset批量處理form表單資料

Formset(表單集)是多個表單的集合。Formset在Web開發中應用很普遍，它可以讓使用者在同一個頁面上提交多張表單，一鍵新增多個數據 class StudentStudyRecordModel(forms.ModelForm): class Meta: model=St

資料庫思想——兩表連線迴圈查出產品個數

這是啟用記錄表：這是啟用型別表：啟用記錄表裡面有啟用人的id，我想查啟用人光頭強激活了多少合夥人，多少一星酵王，多少二星酵王…… 在不寫死的情況下怎麼迴圈查出當前使用者每個產品型別都激活了多少人呢？控制器寫法(tp3)： public fun

MapReduce資料處理兩表join連線

相關推薦