hadoop計算二度人脈關系推薦好友

阿新 • • 發佈：2018-04-22

轉載 xtend java class .class text 去重 QQ -m

https://www.jianshu.com/p/8707cd015ba1

問題描述：

以下是qq好友關系，進行好友推薦，比如：老王和二狗是好友，二狗和春子以及花朵是好友，那麽老王和花朵或者老王和春子就有可能也認識，可以對老王推薦春子和或花朵作為好友。

註意以下是制表符：tab建，所以程序中用 /t進行分割

老王二狗
老王二毛
二狗春子
二狗花朵
老王花朵
花朵老王
春子菊花

問題分析

問題分析：
主 ---> 從
從 --->主
分別列出每一個關系，然後都列出從-->主
這樣去重後每個人可以有一個關系集合，然後對這個集合中的每個元素求笛卡爾積，記得到可能的關系
比如：
老王 -->二狗
二狗--->老王
這是一對主從從主
然後：可以對二狗求出一個集合
如下進行全面列出：
老王二狗
二狗老王
二狗春子
二狗花朵
這樣二狗進行合並後就是老王春子和花朵組成一個集合，然後對集合中的每個元素求笛卡爾積即可

編程實現：

mapper實現分離主從從主


package com.topwqp.mr;

import java.io.IOException;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;

public class QQMapper extends Mapper<LongWritable,Text,Text,Text>{
           @Override
        protected void map(LongWritable key, Text value,
          Mapper<LongWritable, Text, Text, Text>.Context context)
          throws IOException, InterruptedException {
         // TODO Auto-generated method stub
           String line = value.toString();
           //通過制表符進行分割
           String[]  lineDatas = line.split("\t");
           context.write(new Text(lineDatas[0]), new Text(lineDatas[1]));
           context.write(new Text(lineDatas[1]), new Text(lineDatas[0]));
        }    
}

reduce實現去重和笛卡爾積


package com.topwqp.mr;

import java.io.IOException;

import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.io.Text;

import java.util.*;

public class QQReduce extends Reducer<Text,Text,Text,Text>{
   @Override
protected void reduce(Text key, Iterable<Text> i,
  Reducer<Text, Text, Text, Text>.Context context) throws IOException,
  InterruptedException {
 // TODO Auto-generated method stub
 //首先進行去重
 Set<String>  set = new HashSet<String>(); 
 for(Text t:i){
  set.add(t.toString());
 }
 //每個元素都拿出來，計算笛卡爾積 如果只有一個元素，就不用求笛卡爾積，直接列出即可
 if(set.size()>1){
  for(Iterator j = set.iterator();j.hasNext();){
   String name =(String)j.next();
   for (Iterator k = set.iterator(); k.hasNext();) {
    String other = (String) k.next();
    //排除自己
    if(!name.equals(other)){
     context.write(new Text(name), new Text(other));
    }
   }
  }
 }
}
}

JobRun編寫


package com.topwqp.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class QQJobRun {
  public static void main(String[] args) {
   //configuration中配置的key value和  配置文件下的conf/mapred-site.xml保持一致
   Configuration conf = new Configuration();
   conf.set("mapred.job.tracker", "localhost:9001");
   conf.addResource(new Path("/Users/wangqiupeng/Documents/xplan/bigdata/hadoop-1.2.1/conf/core-site.xml"));
   conf.addResource(new Path("/Users/wangqiupeng/Documents/xplan/bigdata/hadoop-1.2.1/conf/hdfs-site.xml"));
      conf.set("mapred.jar", "/Users/wangqiupeng/Downloads/qq.jar");
   try{
    Job job = new Job(conf);
    job.setJobName("qq");
    //當前類是運行入口
    job.setJarByClass(QQJobRun.class);
    //mapper類
    job.setMapperClass(QQMapper.class);
    //reducer類
    job.setReducerClass(QQReduce.class);
    //最終統計結果輸出類型
    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(Text.class);
    
    job.setNumReduceTasks(1);//設置reduce任務的個數，默認是一個
    //mapreduce 輸入數據所在的目錄或者文件
    FileInputFormat.addInputPath(job, new Path("/Users/wangqiupeng/Documents/xplan/bigdata/data/hadoop-1.2.1/input/qq/"));
    //mapreduce執行之後的輸出數據的目錄 這個輸出路徑的部分目錄可以沒有，如果沒有會自動創建
    FileOutputFormat.setOutputPath(job, new Path("/Users/wangqiupeng/Documents/xplan/bigdata/data/hadoop-1.2.1/output/qq/"));
    
    //等待job完成退出
    System.exit(job.waitForCompletion(true) ? 0 :1);
    
   }catch(Exception e){
    e.printStackTrace();
   }
  }
}

執行結果：

作者：topwqp
鏈接：https://www.jianshu.com/p/8707cd015ba1
來源：簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請註明出處。

hadoop計算二度人脈關系推薦好友

轉載 xtend java class .class text 去重 QQ -m https://www.jianshu.com/p/8707cd015ba1 問題描述：以下是qq好友關系，進行好友推薦，比如：老王和二狗是好友，二狗和春子以及花朵是好友，那麽

【Mapreduce】利用job巢狀，多重Mapreduce，求解二度人脈

與《【Mapreduce】利用單表關聯在父子關係中求解爺孫關係》（點選開啟連結）一樣的鍵值對。 Tom Lucy Tom Jack Jone Lucy Jone Jack Lucy Mary Lucy Ben Jack Alice Jack Jesse Terry Alic

大數據與批量調度的緊密關系

而且餐廳又是服務員領域而已 enter 四面展示大數據與批量調度的緊密關系當大數據在手機端花枝招展地跳躍時，你很自豪地說，我知道它是怎麽來的，它是從網絡另一端來的。可當碰到一個刨根問底的家夥，他又問，那網絡另一端的數據又是怎麽來的，你是否一臉蒙逼？不，你可

Hibernate框架之路（二）一對多關系

true pre conn 關系編寫 none isp exce dia 在下列案例中：　　客戶是一；聯系人是多；客戶可以擁有多個聯系人；一個聯系人只有一個客戶　　1、編寫實體類 package com.pojo; import java.util

二叉排序樹和平衡二叉樹的關系

fill 樹的高度 == eight font 關系 avl樹 avi 等於　　二叉排序樹：二叉排序樹又稱二叉查找樹，亦稱二叉搜索樹。二叉排序樹或者是一顆空樹，或者是具有下列性質的二叉樹：（1）若左子樹不空，則左子樹上所有結點的值均小於它的根節點的值；（2）若右子

大數據、雲計算到底是什麽關系？

內容增長可能大學飛機在一起變化計算機分布式數據庫大數據就是大量的信息存儲,通俗的講，就是超強記憶。比如現在要一個大學生把他小學學過的語文全部背出來，可能誰都做不到，大數據就能做到。而且你生活、工作的細節習慣；你家人、朋友的信息；還有動植物的生長信息；汽車、

nltp APP-分析買家評論的評分-高頻詞：二維關系

dir yellow imp font direct let swe nco lec w # -*- coding: utf-8 -*- from nltk import * # TO FIX : No such file or directory os.ch

Python2.7 學習體會 @classmethod @staticmethod @property 之間的關系二

普通 ear self static bject 代碼片段 split 本質 valid 先到百度找了一下資料，引用個重點，對比昨天實例來理解：引用：http://blog.csdn.net/carolzhang8406/article/details/6856817在Py

GreenPlum 與hadoop什麽關系？(轉)

批量 zookeep pre 什麽 hbase mapreduce 它的生成 ans 沒關系. gp 可以處理大量數據, hadoop 可以處理海量. gp 只能處理湖量,或者河量. 無法處理海量. 作者：SallyLeo鏈接：https://www.zhihu.co

Hadoop大家庭有哪些？Hadoop家族主要成員關系

hadoop hadoop家族 Common一組由分布式文件系統和通用I/O的組件與接口(序列化, Java RPC, 持久化數據結構)。Avro一種支持高效、跨語言的RPC以及永久化存儲數據的序列化系統。MapReduce分布式數據處理模型和執行環境，運行於大型的商用機集群。HDFS分布式文件系統，

雲計算，SDN，虛擬化三者關系

雲計算、虛擬化、sdn　　雲計算是一種按需分配、按使用量收費的使用模式，提供了一個可配置的資源共享池，用戶可以通過網絡訪問，獲取存儲空間、網絡帶寬、服務器、應用軟件等等服務。　　 NFV，即網絡功能虛擬化，Network Function Virtualization。通過使用x86等通用性硬件以及虛擬化技術

GraphX實現N度關系

att targe else 傳播 ndt 準備合成 -a dsm 背景本文給出了一個簡單的計算圖中每一個點的N度關系點集合的算法，也就是N跳關系。之前通過官方文檔學習和理解了一下GraphX的計算接口。 N度關系目標：在N輪裏。

《Java從入門到放棄》入門篇：hibernate中的多表對應關系（二）

文件中 nas join upx proxy n2n pla sta int 前一篇講完了一對多的關系，通過與JDBC對比應該能發現，是不是比JDBC簡單了很多？我們只需要把對象只間的包含或對應關系理清楚，完全不用我們自己來寫SQL語句。所以使用hibernate框架後，

Hibernate框架之路（二）多對多多關系

-m let ble ssi gin rop assert on() odi 1、配置實體類 package cn.pojo; import java.util.HashSet; import java.util.Set; public class

二維數組和二級指針關系淺析

地址我想組成 char 關系指針 %d 寫到和數　　昨天寫了關於一級指針的見解，即二級數組的用法和二級指針差不多，關於數組指針和指針數組這兩個是不同的概念，這一點我們一定要清楚；　　數組指針我們可以理解為指向數組的指針，就是一個指針；　　指針數組則可以理解為數

二維數組和數組指針的關系

for 二維本質今天我們一維數組話題和數二維數組　　昨天既然寫了一些關於數組指針的話題，那麽今天就寫一些關於數組指針的話題吧！　　數組指針：這樣讀數組的指針，即指向數組的指針，就是數組指針，其本質就是一個指針　　比如：int (*a)[3];就是一

謝煙客---------二進制安裝MariaDB,管理關系型數據庫的基本組件

struggle strive endeavo特性、二進制安裝方法、安裝生成的程序、MariaDB程序的組成、SQL接口、關系型數據庫的組件、管理數據庫組件、數據類型、修飾MariaDB,開源RDBMS的實現特性、安裝MariaDB方法、 CentOS 6: 通用二進制格式安裝MariaDB

sqoop實現關系型數據庫與hadoop之間的數據傳遞-import篇

har 重要性 ise es2017 date 數據遷移導致 n-k 字符由於業務數據量日益增長，計算量非常龐大，傳統的數倉已經無法滿足計算需求了，所以現在基本上都是將數據放到hadoop平臺去實現邏輯計算，那麽就涉及到如何將oracle數倉的數據遷移到hadoop平臺

Git（二）Git幾個區的關系與Git和GitHub的關聯

備份 gpo 技術分享 tin 2.3 div 自動泄露 blog 前言　　前面只是大概的介紹了一點基礎的東西，接下來會更加深入的去了解一下Git。一、Git的工作區、暫存區和版本庫之間的區別和聯系　　1）工作區　　　　在PC中能看得到的創建的一個管理倉庫

實現:判斷日期之間關系(相交,相離,重合),得到相交重合的天數以及計算兩個日期相差的天數

數值以及 c++ 日期類 OS 錯誤表達單位有一個 package com.xiawei.repeatdays; import java.util.Date; /** * 判斷日期之間關系(相交,相離,重合),得到相交重合的天數 * */public class R

hadoop計算二度人脈關系推薦好友

問題描述：

註意以下是制表符：tab建，所以程序中用 /t進行分割

問題分析

編程實現：

mapper實現 分離主 從 從 主

reduce實現去重和笛卡爾積

JobRun編寫

執行結果：

相關推薦

mapper實現分離主從從主