MapReduce案例二：好友推薦

阿新 • • 發佈：2019-01-01

1.需求

推薦好友的好友

圖1：

2.解決思路

3.程式碼

3.1MyFoF類程式碼

說明：

該類定義了所載入的配置，以及執行的map，reduce程式所需要載入執行的類

package com.hadoop.mr.fof;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
 
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class MyFoF {
    
    
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
         
//conf
        Configuration conf = new Configuration(true);
        
        Job job=Job.getInstance(conf);
        
        job.setJarByClass(MyFoF.class);
        
        //map
        job.setMapperClass(FMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable. 
class);
        
        //map階段的分割槽排序都使用預設的不用額外設定
        
        job.setReducerClass(FReducer.class);
        
        //input ... output
        Path input=new Path("/data/fof/input");
        FileInputFormat.addInputPath(job, input);
        
        Path output=new Path("/data/fof/output");
        if(output.getFileSystem(conf).exists(output)){
            output.getFileSystem(conf).delete(output);
        }
        FileOutputFormat.setOutputPath(job, output);
        
        //submit
        job.waitForCompletion(true);
    }
}

3.2FMapper類程式碼

說明：

該類的作用是編寫map階段的程式碼，對文字資料做一個預處理，按照規劃比較每組的kv 做比較，這裡面的k是偏移量longwritable型別，v是文字的字串行 text型別。

程式碼邏輯：

1.雙重for迴圈，外層迴圈比較直接關係，內層迴圈比較間接關係，最終map生成一箇中間資料集，會有直接關係和間接關係。
2.將相同key的內容放在一起，交由reduce處理，如果是0代表為直接關係不作推薦，如果為1代表是間接關係，需要被推薦。

package com.hadoop.mr.fof;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.util.StringUtils;

public class FMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
    
    Text mkey=new Text();
    IntWritable mval=new IntWritable();
    
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
            throws IOException, InterruptedException {
        //tom hello hadoop cat
        
        String[] strs = StringUtils.split(value.toString(),' ');
        
        //雙重for迴圈，外層迴圈比較直接關係，內層迴圈比較間接關係，最終map生成一箇中間資料集，會有直接關係和間接關係，
        //將相同key的內容放在一起，交由reduce處理，如果是0代表為直接關係不作推薦，如果為1代表是間接關係，需要被推薦。
        for (int i = 0; i < strs.length; i++) {
            mkey.set(getFoF(strs[0],strs[i]));
            mval.set(0);
            context.write(mkey, mval);
            for (int j = i+1; j < strs.length; j++) {
                mkey.set(getFoF(strs[i],strs[j]));
                mval.set(1);
                context.write(mkey, mval);
            }
        }
    
    }
    
    //定義一個比較方法如果前一個數s1小於後面一個數s2，就拼接為s1+s2，否則s2+s1
    public static String getFoF(String s1,String s2){
        if(s1.compareTo(s2)<0){
            return s1+":"+s2;
        }
        return s2+":"+s1;
    }
}

3.3FReducer類程式碼

說明：

該類的作用是對map的輸出做進一步處理，兩兩出現的value不為0的相同key的value累加起來，將累加的結果賦給key

package com.hadoop.mr.fof;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;



public class FReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    
    IntWritable rval=new IntWritable();
        @Override
        protected void reduce(Text key, Iterable<IntWritable> values,
                Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            int flag=0;
            int sum=0;
            
            //增加for迴圈迭代values
            // hello:hadoop 0
            // hello:hadoop 1
            // hello:hadoop 0
            for (IntWritable v : values) {
                //如果獲取到的values是0則將flag置為1，如果不為0則將所有的values疊加
                if(v.get()==0){
                    flag=1;
                }
                sum+=v.get();
            }
            
            //如果獲取到的values不為0，就將相同key且values不為0的values疊加賦值給reduce中key中對應的值
            if(flag==0){
                rval.set(sum);
                context.write(key, rval);
            }
        }
}

4.服務端執行

4.1建立檔案輸入目錄

[[email protected] test]# hdfs dfs -mkdir -p /data/fof/input

4.2上傳檔案到hdfs

[[email protected] test]# cat fof.txt 
tom hello hadoop cat
world hadoop hello hive
cat tom hive
mr hive hello
hive cat hadoop world hello mr
hadoop tom hive world
hello tom world hive mr


[[email protected] test]#hdfs dfs -put ./fof.txt /data/fof/input

4.3執行jar包

[[email protected] test]# hadoop jar ../jar_package/MyFOF.jar com.hadoop.mr.fof.MyFoF

4.4檢視生成的輸出檔案

[[email protected] test]# hdfs dfs -ls /data/fof/output/
Found 2 items
-rw-r--r--   2 root supergroup          0 2019-01-01 06:11 /data/fof/output/_SUCCESS
-rw-r--r--   2 root supergroup        116 2019-01-01 06:11 /data/fof/output/part-r-00000

[[email protected] test]# hdfs dfs -cat /data/fof/output/part-r-00000
cat:hadoop    2
cat:hello    2
cat:mr    1
cat:world    1
hadoop:hello    3
hadoop:mr    1
hive:tom    3
mr:tom    1
mr:world    2
tom:world    2

說明：通過圖1可以發現

cat 和hadoop、hello都有2個共同的朋友tom、hive

cat和mr、world有1個共同的朋友hive

hadoop和hello有3個共同的朋友 tom、world、hive

hadoop和hive有1個共同的朋友world

hive和tom有3個共同的朋友cat、hadoop、hello

mr和tom有1個共同的朋友hello

mr和world有2個共同的朋友hello、hive

tom和world有2個共同的朋友hello、hadoop

5.報錯解決

org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /data/fof/output. Name)

這個異常表示hadoop處於安全狀態,而你又對它進行了上傳,修改,刪除檔案的操作。

剛啟動完hadoop的時候,hadoop會進入安全模式,此時不能對hdfs進行上傳,修改,刪除檔案的操作。

命令是用來檢視當前hadoop安全模式的開關狀態

hdfs dfsadmin -safemode get

命令是開啟安全模式

hdfs dfsadmin -safemode enter

命令是離開安全模式

hdfs dfsadmin -safemode leave

離開安全模式再次執行即可。

MapReduce案例二：好友推薦

1.需求推薦好友的好友圖1： 2.解決思路 3.程式碼 3.1MyFoF類程式碼說明：該類定義了所載入的配置，以及執行的map，reduce程式所需要載入執行的類 package com.hadoop.mr.fof; impo

爬蟲——Scrapy框架案例二：陽光問政平臺

web url地址 blog rem idt xpath disable ora ole 陽光熱線問政平臺 URL地址：http://wz.sun0769.com/index.php/question/questionType?type=4&page= 爬取字段：帖

網站爬取-案例二：天貓爬取( 第一卷：首頁數據抓取)

img .com 我想提供商網站 col class scoller bubuko 說到網站數據的爬取，目前為止我見過最復雜的就是天貓了，現在我想對它進行整站的爬取我們先來看下天貓主頁的界面天貓頁面很明顯是動態頁面所以我們需要用selenium模塊首先

JQuery案例二：實現全選、全不選和反選

lap lsp enter scrip ttr on() class cells span <!DOCTYPE html> <html> <head> <meta charset="UTF-8">

MapReduce案例一：比較天氣溫度

1.需求 2.思路 3.程式碼實現 3.1MyWeather 類程式碼：這個類主要是用來定義hadoop的配置，在執行計算程式時所需載入的一些類。 package com.hadoop.mr.weather; import java.io.

.會話管理之Cookie案例二：顯示已瀏覽商品

專案開發步驟：資料庫——>創鍵實體物件entity——>建立資料訪問dao——>建立servlet 第一步：建立資料庫：這裡使用的xml檔案建立資料庫，內容如下： <?xml version="1.0" encoding="utf-8"?> &

《利用python進行資料分析》讀書筆記之案例二：全美嬰兒姓名

這份資料包含了從1880到2010年間的嬰兒名字頻率資料，其資料形式是多個txt檔案，且用逗號分隔，可以用pandas.read_csv將其載入到DataFrame中，並且用pandas.concat將所有資料都組裝到一個DataFrame。 years=range

python第十四課--排序及自定義函數之案例二：冒泡排序

實現 int python 一個 str -- 排序冒泡排序 pri 案例二：冒泡排序 lt1=[45,12,56,-32,-3,44,75,-22,100] print(‘排序前：‘+str(lt1)) 自定義函數：實現冒泡排序（升序）原則：1).有沒有形參？有，接

【Hadoop學習之十】MapReduce案例分析二-好友推薦

nds ioe 間接 ava inux turn cep new () 環境　　虛擬機：VMware 10 　　Linux版本：CentOS-6.5-x86_64 　　客戶端：Xshell4　　FTP：Xftp4　　jdk8　　hadoop-3.1.1 最應該推薦的好友

案例3-使用hadoop-mapreduce來統計並進行好友推薦

常見的需求如QQ中的推薦好友，例如下圖：我們想給如花推薦好友，途中相鄰連線的人之間是彼此直接好友的關係，那麼我們推薦的規則是同一對”好友的好友”(簡稱FOF)出現的次數,比如：如花的好友的好友有“小明”“李剛”“鳳姐”，而FOF關係如下：

MapReduce案例-好友推薦

用過各種社交平臺(如QQ、微博、朋友網等等)的小夥伴應該都知道有一個叫 "可能認識" 或者 "好友推薦" 的功能(如下圖)。它的演算法主要是根據你們之間的共同好友數進行推薦，當然也有其他如愛好、特長等等。共同好友的數量越多，表明你們可能認識，系統便會自動推薦。今天我將向大家介紹如何使用MapReduce計算

【大數據系列】MapReduce示例好友推薦

trac [0 ont protect run task main orm pat package org.slp; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text;

CMake系列之二：入門案例-單個源文件

bubuko 源文件註釋 http 編寫 AD 源碼 power 比較編寫一個源碼文件如下 1 #include<stdio.h> 2 #include<stdlib.h> 3 4 double power(double

mapreduce學習筆記二：去重實驗

bound pac except 計算 throws 問題多少 tasks tostring 實驗原理 “數據去重”主要是為了掌握和利用並行化思想來對數據進行有意義的篩選。統計大數據集上的數據種類個數、從網站日誌中計算訪問地等這些看似龐雜的任務都

MapReduce部分API程式設計練習（好友推薦）

1、主方法 package com.bjsxt.FOF; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path;

Hadoop-MapReduce計算案例1：WordCount

案例描述：計算一個檔案中每個單詞出現的數量程式碼： package com.jeff.mr.wordCount; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem;

react-charts實現折線圖等等各種圖形（推薦使用案例二，比較容易操作）

(一)react-charts案例一一.案例學習網址： https://react-charts.js.org/examples/line 二.原始碼下載網址： https://github.com/react-tools/react-charts 三.具體詳情使用 1.比

Unity Editor 基礎篇（三）：自定義視窗案例二

本文為本人學習上鍊接的筆記微有改動，請點選以上鍊接檢視原文，尊重樓主智慧財產權。 ----------------------------------------------------------------------------------------------

一個MapReduce 程式示例細節決定成敗(二) ：觀察日誌及 Counter

下面是一個計算輸入檔案中a~z每個單字元的數量的一個map reduce 程式。 package wordcount; import java.io.IOException; import org.apache.commons.lang.StringUtils; imp

MapReduce簡單實踐：兩步實現查詢共同好友

問題需求：現在有某社交網路中的記錄每個使用者的好友的資料集，資料的具體格式如下所示，冒號前為使用者的代號，冒號後面為該使用者的好友的代號，好友之間以逗號分隔。現在需求是根據此資料集，求出任意兩個人之間的共同好友都有誰（好友關係是單向的，也就是說A的好友裡面有E，

MapReduce案例二：好友推薦

1.需求

2.解決思路

3.程式碼

3.1MyFoF類程式碼

3.2FMapper類程式碼

3.3FReducer類程式碼

4.服務端執行

4.1建立檔案輸入目錄

4.2上傳檔案到hdfs

4.3執行jar包

4.4檢視生成的輸出檔案

5.報錯解決

相關推薦