hadoop入門6：hadoop查詢兩兩之間有共同好友，及他倆的共同好友都是誰

阿新 • • 發佈：2018-12-13

A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,I,J

該資料可以看作好友，例如：A有B,C,D,F,E,O好友；B有A,C,E,K好友，以此類推；

求兩兩之間有共同好友，及他倆的共同好友都是誰，例如：A和B之間共同好友是：C、E

編碼思路：

第一步是可以把好友當作key，value是擁有key好友的使用者，例如:擁有好友B的是：A,F,J,E使用者

第二步在第一步結果後，雙重for迴圈進行兩兩之間進行拼接，這樣就可以得出正確結果

具體程式碼實現：

第一步：

package com.zsy.mr.commonfriend;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class commonFriendStepOne {
	static class commonFriendStepOneMapper extends Mapper<LongWritable, Text, Text, Text>{
		Text k = new Text();
		Text v = new Text();
		@Override
		protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context)
				throws IOException, InterruptedException {
			//通過過冒號分割
			String[] splits = value.toString().split(":");
			//獲取擁有好友的使用者名稱
			String name = splits[0];
			//獲取該使用者下的好友列表
			String[] friends = StringUtils.isNotBlank(splits[1])?  splits[1].split(","):null;
			if(friends != null) {
				//迴圈好友，好友當作key，擁有好友的使用者名稱當作value
				for (String friend : friends) {
					k.set(friend);
					v.set(name);
					context.write(k, v);
				}
			}
		}
	}
	
	static class commonFriendStepOneReducer extends Reducer<Text, Text, Text, Text>{
		Text v = new Text();
		@Override
		protected void reduce(Text key, Iterable<Text> values, Reducer<Text, Text, Text, Text>.Context context)
				throws IOException, InterruptedException {
			List<String> resultList = new ArrayList<String>();//實際生產程式碼不建議用list接收，應該是直接處理掉
			//處理資料，該資料是擁有key好友的所有使用者
			for (Text value : values) {
				resultList.add(value.toString());
			}
			v.set(StringUtils.join(resultList, ","));
			context.write(key, v);
		}
	}
	
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		/*conf.set("mapreduce.framework.name", "yarn");
        conf.set("yarn.resoucemanger.hostname", "hadoop01");*/
		Job job = Job.getInstance(conf);
		
		job.setJarByClass(commonFriendStepOne.class);
		
		//指定本業務job要使用的業務類
		job.setMapperClass(commonFriendStepOneMapper.class);
		job.setReducerClass(commonFriendStepOneReducer.class);
		
		//指定mapper輸出的k v型別  如果map的輸出和reduce的輸出一樣，只需要設定輸出即可
		//job.setMapOutputKeyClass(Text.class);
		//job.setMapOutputValueClass(IntWritable.class);
		
		//指定最終輸出kv型別（reduce輸出型別）
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(Text.class);
		
		//指定job的輸入檔案所在目錄
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		//指定job的輸出結果目錄
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		//將job中配置的相關引數，以及job所有的java類所在 的jar包，提交給yarn去執行
		//job.submit();無結果返回，建議不使用它
		boolean res = job.waitForCompletion(true);
		
		System.exit(res?0:1);
	}
}

結果：

第二步：

程式碼實現

package com.zsy.mr.commonfriend;

import java.io.IOException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class commonFriendStepTwo {

	static class commonFriendStepTwoMapper extends Mapper<LongWritable, Text, Text, Text>{
		Text k = new Text();
		Text v = new Text();
		@Override
		protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context)
				throws IOException, InterruptedException {
			String[] splits = value.toString().split("\t");
			//獲取好友
			String friend = splits[0];
			//獲取擁有該好友所有的使用者資訊
			String[] names = splits[1].split(",");
			//進行排序，防止計算資料重複，例如：A-B和B-A其實一個對
			Arrays.sort(names);
			//進行雙重for迴圈
			for (int i = 0; i < names.length-1; i++) {
				String string = names[i];
				for (int j = i+1; j < names.length; j++) {
					String string2 = names[j];
					k.set(string+"-"+string2);
					v.set(friend);
					context.write(k, v);
				}
			}
		}
	}
	
	static class commonFriendStepTwoReducer extends Reducer<Text, Text, Text, NullWritable>{
		Text k = new Text();
		@Override
		protected void reduce(Text key, Iterable<Text> value, Reducer<Text, Text, Text, NullWritable>.Context context)
				throws IOException, InterruptedException {
			List<String> resultList = new ArrayList<String>();//實際生產程式碼不建議用list接收，應該是直接處理掉
			for (Text text : value) {
				resultList.add(text.toString());
			}
			k.set(key.toString()+":"+ StringUtils.join(resultList,","));
			context.write(k, NullWritable.get());
		}
	}
	
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		/*conf.set("mapreduce.framework.name", "yarn");
        conf.set("yarn.resoucemanger.hostname", "hadoop01");*/
		Job job = Job.getInstance(conf);
		
		job.setJarByClass(commonFriendStepTwo.class);
		
		//指定本業務job要使用的業務類
		job.setMapperClass(commonFriendStepTwoMapper.class);
		job.setReducerClass(commonFriendStepTwoReducer.class);
		
		//指定mapper輸出的k v型別  如果map的輸出和reduce的輸出一樣，只需要設定輸出即可
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(Text.class);
		
		//指定最終輸出kv型別（reduce輸出型別）
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(NullWritable.class);
		
		//指定job的輸入檔案所在目錄
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		//指定job的輸出結果目錄
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		//將job中配置的相關引數，以及job所有的java類所在 的jar包，提交給yarn去執行
		//job.submit();無結果返回，建議不使用它
		boolean res = job.waitForCompletion(true);
		
		System.exit(res?0:1);
	}
}

結果：

這樣就可以找到正確結果

hadoop入門6：hadoop查詢兩兩之間有共同好友，及他倆的共同好友都是誰

A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,

一篇很好的Hadoop入門文章：Hadoop是什麼、核心HDFS與MapReduce的原理

Hadoop一直是我想學習的技術，正巧最近專案組要做電子商城，我就開始研究Hadoop，雖然最後鑑定Hadoop不適用我們的專案，但是我會繼續研究下去，技多不壓身。《Hadoop基礎教程》是我讀的第一本Hadoop書籍，當然在線只能試讀第一章，不過對Hadoop歷史、

Hadoop 2.6.5 FileSystem和Configuration兩個對象的探究

hadoop快速入門教程：hadoop安裝包下載與監控參數說明

分布式 height tex region 集群 RoCE 發行版 store serve 前階段用了差不多兩周的時間把DKhadoop的運行環境搭建以及安裝的各個操作都介紹了一遍。關於DKhadoop安裝包下載也只是順帶說了一下，但好像大快搜索的服務器在更新，新的下載頁面

Hadoop新手篇：hadoop入門基礎教程

Hadoop新手篇：hadoop入門基礎教程關於hadoop的分享此前一直都是零零散散的想到什麼就寫什麼，整體寫的比較亂吧。最近可能還算好的吧，畢竟花了兩週的時間詳細的寫完的了hadoop從規劃到環境安裝配置等全部內容。寫過程不是很難，最煩的可能還是要給每一步配圖，工程量確實比較大。原計

hadoop入門7：自定義GroupingComparator進行分組

摘要： GroupingComparator是在reduce階段分組來使用的，由於reduce階段，如果key相同的一組，只取第一個key作為key，迭代所有的values。如果reduce的key是自定義的bean，我們只需要bean裡面的某個屬性相同就認為這樣的key

hadoop入門經典：wordcount程式碼詳解

package cn.yzx.bigdata.mr.wcemo; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.ap

Shiro入門6：自定義realm查詢資料庫進行認證

在學習自定義Realm的時候很多人都會有這個問題：為什麼要用Realm？自定義Realm有什麼作用？將來實際開發需要realm從資料庫查詢資訊 Realm是什麼？關於Realm的作用及解釋，

hadoop入門之使用hadoop

dfs mat format 啟動初始化格式 bin 變量 ado 首先啟動：第一個啟動初始化先hdfs格式化 bin 目錄下的 hadoop指令使用(上篇的最後已經添加到環境變量中去了,修改完一定接的source一下！！！！)

caioj.cn 網路流入門6：牛選牛圈

1120: [視訊]網路流入門6：牛選牛圈時間限制: 1 Sec 記憶體限制: 128 MB 提交: 72 解決: 26 [ 提交][ 狀態][ 討論版] 題目

演算法入門6：回溯法

一. 回溯法 – 深度優先搜素 1. 簡單概述回溯法思路的簡單描述是：把問題的解空間轉化成了圖或者樹的結構表示，然後使用深度優先搜尋策略進行遍歷，遍歷的過程中記錄和尋找所有可行解或者最優解。基本思想類同於：

Hadoop生態系統：Hadoop學習框架

關鍵技術 HDFS 完全整合，高大容量、容錯性、可儲存非常大的資料集的廉價儲存 MapReduce 完全整合，高一種處理大資料的程式設計正規化 YARN 完全整合，中資料處理

Hibernate基礎：快速入門(6)：修改資料

資料庫的操作增刪改查，或者CRUD是最常見的操作。這篇文章中介紹修改資料的方法 hibernate.cfg.xml 建立如下所示的hibernate的設定檔案 <?xml version="1.0" encoding="utf

【Hadoop】6、Hadoop安裝之報錯處理

錯誤報錯 1、時間不能同步 2014.12.18 做同步時間的時候，執行命令操作： [[email protected] ~]# /usr/sbin/ntpdate pool.ntp.org 會報錯： Name server

Django入門-6：檢視-狀態保持

狀態保持 http協議是無狀態的：每次請求都是一次新的請求，不會記得之前通訊的狀態客戶端與伺服器端的一次通訊，就是一次會話實現狀態保持的方式：在客戶端或伺服器端儲存與會話有關的資料儲存方式包括coo

個人hadoop學習總結：Hadoop叢集+HBase叢集+Zookeeper叢集+chukwa監控（包括單機、偽分佈、完全分佈安裝操作）

環境介紹：虛擬機器四個： hadoop-marster hadoop-salve1 hadoop-salve2 hadoop-salve3 ===========================1.Hadoop==============================

DbForge Studio for SQL Server入門教程：在查詢生成器中建立查詢

我們將使用視覺化查詢設計器建立一個示例查詢。我們將使用AdventureWorks2012資料庫。假設我們需要顯示上一年度總銷售額超過2 000 000的所有員工。以可視方式建立查詢： 1.建立伺服器連線。有關如何建立伺服器連線的詳細資訊，請參閱：如何連線到資料庫。

Django入門-6：檢視-HttpResponse物件

HttpResponse物件在django.http模組中定義了HttpResponse物件的APIHttpRequest物件由Django自動建立，HttpResponse物件由程式設計師建立

Django入門-6：檢視定義和錯誤檢視

定義檢視本質就是一個函式檢視的引數一個HttpRequest例項通過正則表示式組獲取的位置引數通過正則表示式組獲得的關鍵字引數在應用目錄下預設有views.py檔案，一般檢視都定義在這個檔案中如果

Hadoop和Spark之間有什麼區別，現工業界都在使用何種技術?

談到大資料，相信大家對hadoop和Apache Spark這兩個名字並不陌生。然而，最近業界有一些人正在大張旗鼓的宣揚Hadoop將死，Spark將立。談到大資料，相信大家對hadoop和Apache Spark這兩個名字並不陌生。然而，最近業界有一些人正在大張旗鼓

hadoop入門6：hadoop查詢兩兩之間有共同好友，及他倆的共同好友都是誰

相關推薦