大數據技術之找博客共同好友案例

阿新 • • 發佈：2018-07-03

image mapred top 代碼 jar split set 代碼實現 port

7.9 找博客共同好友案例

1）需求：

以下是博客的好友列表數據，冒號前是一個用戶，冒號後是該用戶的所有好友（數據中的好友關系是單向的）

A:B,C,D,F,E,O
B:A,C,E,K
C:F,A,D,I
D:A,E,F,L
E:B,C,D,M,L
F:A,B,C,D,E,O,M
G:A,C,D,E,F
H:A,C,D,E,O
I:A,O
J:B,O
K:A,C,D
L:D,E,F
M:E,F,G
O:A,H,I,J



多對多的關系
數據庫：學生       課程        成績表    
學生表和課程表的自然連接

A 1  100 
  
A 2  90

A : B
A : C
B : C



A    I,K,C,B,G,F,H,O,D,
B    A,F,J,E,
C    A,B
D    A,B


A-B  C,D

friends.txt

求出哪些人兩兩之間有共同好友，及他倆的共同好友都有誰？

2）需求分析：

先求出A、B、C、….等是誰的好友

第一次輸出結果

A    I,K,C,B,G,F,H,O,D,
B    A,F,J,E,
C    A,E,B,H,F,G,K,
D    G,C,K,A,L,F,E,H,
E    G,M,L,H,A,F,B,D,
F    L,M,D,C,G,A,
G    M,
H    O,
I    O,C,
J    O,
K    B,
L    D,E,
M    E,F,
O    A,H,I,J,F,

第二次輸出結果

A-B    E C 
A-C    D F 
A-D    E F 
A-E    D B C 
A-F    O B C D E 
A-G    F E C D 
A-H    E C D O 
A-I    O 
A-J    O B 
A-K    D C 
A-L    F E D 
A-M    E F 
B-C    A 
B-D    A E 
B-E    C 
B-F    E A C 
B-G    C E A 
B-H    A E C 
B-I    A 
B-K    C A 
B-L    E 
B 
-M    E 
B-O    A 
C-D    A F 
C-E    D 
C-F    D A 
C-G    D F A 
C-H    D A 
C-I    A 
C-K    A D 
C-L    D F 
C-M    F 
C-O    I A 
D-E    L 
D-F    A E 
D-G    E A F 
D-H    A E 
D-I    A 
D-K    A 
D-L    E F 
D-M    F E 
D-O    A 
E-F    D M C B 
E-G    C D 
E-H    C D 
E-J    B 
E-K    C D 
E-L    D 
F-G    D C A E 
F-H    A D O E C 
F-I    O A 
F-J    B O 
F-K    D C A 
F-L    E D 
F-M    E 
F-O    A 
G-H    D C E A 
G-I    A 
G-K    D A C 
G-L    D F E 
G-M    E F 
G-O    A 
H-I    O A 
H-J    O 
H-K    A C D 
H-L    D E 
H-M    E 
H-O    A 
I-J    O 
I-K    A 
I-O    A 
K-L    D 
K-O    A 
L-M    E F

View Code

3）代碼實現：

（1）第一次Mapper

package com.xyg.mapreduce.friends;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class OneShareFriendsMapper extends Mapper<LongWritable, Text, Text, Text>{
    
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context)
            throws IOException, InterruptedException {
        // 1 獲取一行 A:B,C,D,F,E,O
        String line = value.toString();
        
        // 2 切割
        String[] fileds = line.split(":");
        
        // 3 獲取person和好友
        String person = fileds[0];
        String[] friends = fileds[1].split(",");
        
        // 4寫出去
        for(String friend: friends){
            // 輸出 <好友，人>
            context.write(new Text(friend), new Text(person));
        }
    }
}

（2）第一次Reducer

package com.xyg.mapreduce.friends;
import java.io.IOException;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class OneShareFriendsReducer extends Reducer<Text, Text, Text, Text>{
    
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException {
        
        StringBuffer sb = new StringBuffer();
        //1 拼接
        for(Text person: values){
            sb.append(person).append(",");
        }
        
        //2 寫出
        context.write(key, new Text(sb.toString()));
    }
}

（3）第一次Driver

package com.xyg.mapreduce.friends;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class OneShareFriendsDriver {

    public static void main(String[] args) throws Exception {
        // 1 獲取job對象
        Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration);
        
        // 2 指定jar包運行的路徑
        job.setJarByClass(OneShareFriendsDriver.class);

        // 3 指定map/reduce使用的類
        job.setMapperClass(OneShareFriendsMapper.class);
        job.setReducerClass(OneShareFriendsReducer.class);
        
        // 4 指定map輸出的數據類型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        
        // 5 指定最終輸出的數據類型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        
        // 6 指定job的輸入原始所在目錄
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        
        // 7 提交
        boolean result = job.waitForCompletion(true);
        
        System.exit(result?1:0);
    }
}

（4）第二次Mapper

package com.xyg.mapreduce.friends;
import java.io.IOException;
import java.util.Arrays;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class TwoShareFriendsMapper extends Mapper<LongWritable, Text, Text, Text>{
    
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        // A I,K,C,B,G,F,H,O,D,
        // 友 人，人，人
        String line = value.toString();
        String[] friend_persons = line.split("\t");

        String friend = friend_persons[0];
        String[] persons = friend_persons[1].split(",");

        Arrays.sort(persons);

        for (int i = 0; i < persons.length - 1; i++) {
            
            for (int j = i + 1; j < persons.length; j++) {
                // 發出 <人-人，好友> ，這樣，相同的“人-人”對的所有好友就會到同1個reduce中去
                context.write(new Text(persons[i] + "-" + persons[j]), new Text(friend));
            }
        }
    }
}

（5）第二次Reducer

package com.xyg.mapreduce.friends;
import java.io.IOException;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class TwoShareFriendsReducer extends Reducer<Text, Text, Text, Text>{
    
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException {
        
        StringBuffer sb = new StringBuffer();

        for (Text friend : values) {
            sb.append(friend).append(" ");
        }
        
        context.write(key, new Text(sb.toString()));
    }
}

（6）第二次Driver

package com.xyg.mapreduce.friends;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class TwoShareFriendsDriver {

    public static void main(String[] args) throws Exception {
        // 1 獲取job對象
        Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration);
        
        // 2 指定jar包運行的路徑
        job.setJarByClass(TwoShareFriendsDriver.class);

        // 3 指定map/reduce使用的類
        job.setMapperClass(TwoShareFriendsMapper.class);
        job.setReducerClass(TwoShareFriendsReducer.class);
        
        // 4 指定map輸出的數據類型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        
        // 5 指定最終輸出的數據類型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        
        // 6 指定job的輸入原始所在目錄
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        
        // 7 提交
        boolean result = job.waitForCompletion(true);
        
        System.exit(result?1:0);
    }
}

大數據技術之找博客共同好友案例

image mapred top 代碼 jar split set 代碼實現 port 7.9 找博客共同好友案例 1）需求：以下是博客的好友列表數據，冒號前是一個用戶，冒號後是該用戶的所有好友（數據中的好友關系是單向的） A:B,C,D,F,E,O B

基於大數據技術之電視收視率企業項目實戰（hadoop+Spark）

spark基於大數據技術之電視收視率企業項目實戰（hadoop+Spark）網盤地址：https://pan.baidu.com/s/1bEeSB1Y9nmjzctnbJMcBkg 密碼：dohg備用地址（騰訊微雲）：https://share.weiyun.com/5Fb45Bq 密碼：efccwn 本課程

大數據技術之壓縮解壓縮案例

except 通過 eth rom tde ado 方式函數 lib 7.10 壓縮/解壓縮案例 7.10.1 對數據流的壓縮和解壓縮 CompressionCodec有兩個方法可以用於輕松地壓縮或解壓縮數據。要想對正在被寫入一個輸出流的數據進行壓縮，我們可以使用cr

大數據技術之流量匯總案例

result span 自己的類型 dmi cte pub user instance 7.2 流量匯總程序案例 7.2.1 需求1：統計手機號耗費的總上行流量、下行流量、總流量（序列化） 1）需求：統計每一個手機號耗費的總上行流量、下行流量、總流量 2）數據準備

大數據技術之輔助排序和二次排序案例（GroupingComparator）

group http pac ppr instance div lec tex boolean 大數據技術之輔助排序和二次排序案例（GroupingComparator） 1）需求有如下訂單數據訂單id 商品id 成交金額

尚矽谷大數據技術之Linux第5章網絡配置和系統管理操作5.7克隆虛擬機

tro 分享數據 time 克隆 sys font pic get 5.7 克隆虛擬機 1）關閉要被克隆的虛擬機 2）找到克隆選項 3）歡迎頁面 4）克隆虛擬機 5）設置創建完整克隆 6）設置克隆的虛擬機名稱和存儲位置 7）等待正在克隆 8）點擊關閉，完成克

尚矽谷大數據技術之Linux第5章網絡配置和系統管理操作5.6找回root密碼

url 模式不用 show 分享圖片管理操作 strong 配置 linux 5.6 找回root密碼重新安裝系統嗎？當然不用！進入單用戶模式更改一下root密碼即可。 1）重啟Linux，見到下圖，在3秒鐘之內按下回車 2）三秒之內要按一下回車，出現如下界面

【雲+社區極客說】新一代大數據技術：構建PB級雲端數倉實踐

方式以及攝像頭 raft 問題產業簡單的主題影視本文來自騰訊雲技術沙龍，本次沙龍主題為構建PB級雲端數倉實踐在現代社會中，隨著4G和光纖網絡的普及、智能終端更清晰的攝像頭和更靈敏的傳感器、物聯網設備入網等等而產生的數據，導致了PB級儲存的需求加大。但數據

大數據江湖之即席查詢與分析（下篇）--手把手教你搭建即席查詢與分析Demo

dmi 安裝centos 用戶 author sla repo 相關中文 plugin 上篇小弟分享了幾個“即席查詢與分析”的典型案例，引起了不少共鳴，好多小夥伴迫不及待地追問我們：說好的“手把手教你搭建即席查詢與分析Demo”啥時候能出？說到就得做到，差啥不能差

下載基於大數據技術推薦系統實戰教程(Spark ML Spark Streaming Kafka Hadoop Mahout Flume Sqoop Redis)

大數據技術推薦系統推薦系統實戰地址:http://pan.baidu.com/s/1c2tOtwc 密碼:yn2r82課高清完整版，轉一播放碼。互聯網行業是大數據應用最前沿的陣地，目前主流的大數據技術，包括 hadoop，spark等，全部來自於一線互聯網公司。從應用角度講，大數據在互聯網領域主

x264學習資料之——雷神博客系列

nag 視頻編碼器 category 雷神 -1 article nco spa gin 第一部分： http://blog.csdn.net/leixiaohua1020/article/category/2619503 FFmpeg與libx264接口源代碼簡單

大數據系列之Hadoop框架

apr png 關系型 big sqoop ted 服務器定制操作 Hadoop框架中，有很多優秀的工具，幫助我們解決工作中的問題。 Hadoop的位置從上圖可以看出，越往右，實時性越高，越往上，涉及到算法等越多。越往上，越往右就越火…… Hadoop框架中一

大數據學習之Scala中main函數的分析以及基本規則（2）

語言 python rgs 數字 popu 結束圖片區別返回一、main函數的分析首先來看我們在上一節最後看到的這個程序，我們先來簡單的分析一下。有助於後面的學習 object HelloScala { def main(args:

九眼智能：用大數據技術為網絡信息加層“濾網”

技術智能公開噪音爭奪新聞群組同時新聞媒體　　隨著信息傳播技術的快速發展和各類互聯網平臺的興起，個人、機構均可通過註冊公眾賬號借助平臺公開發布信息，成為新聞媒體等專業內容生產機構之外的重要內容生產者，互聯網平臺成為用戶獲取信息的重要渠道。互聯網平臺的興起及公

Spark快速大數據分析之RDD基礎

數學 ref 內存相關應用級別要求分數 png Spark 中的RDD 就是一個不可變的分布式對象集合。每個RDD 都被分為多個分區，這些分區運行在集群中的不同節點上。RDD 可以包含Python、Java、Scala中任意類型的對象，甚至可以包含用

大數據學習之Linux環境搭建（導航）

vmw href 。。人的 com linu 過程 htm next 環境搭建過程網上有挺多，我只是站在巨人的肩膀上。更多是對自己的搭建環境過程中的一個記錄。首先是VMware軟件的安裝，沒什麽說的，一直“下一步”就好了，虛擬機下安裝Linux系統也比較簡單，不贅述。

團隊作業8——測試與發布（Beta階段）之展示博客

項目管理技術 uid 項目自己的圖片 col left 參與團隊成員的簡介和個人博客地址，團隊的源碼倉庫地址。團隊源碼git鏈接：https://gitee.com/xumz/BoKeZuoYeShuJuCaiJi.git 201421122105 許錳棕：

小白學習大數據測試之揭秘大數據的背景與發展

掌握數據倉庫金融行業後端 highlight 就是 sof ack 職業大數據是個神馬鬼根據麥肯錫全球研究所給出的定義是：一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合，具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值

小白學習大數據測試之hadoop初探

itl atan 運行 -o dfs 應用一起 ext testing Hadoop的歷史這裏就不多說了，網上很多資料，總而言之對於hadoop谷歌和雅虎對於ta的貢獻功不可沒。更多介紹請自行查看這裏：https://baike.baidu.com/item/Hadoop

小白學習大數據測試之hadoop再次探索

pan red 系統 ini 多說自動 hdfs ide style 引子雖然通過《小白學習大數據測試之hadoop初探》以及把hadoop的基本核心說明白了，但是似乎對於小白來說還是會有點懵逼。。。。那麽這次我們就在來看看大數據粗暴理解大數據甭管什麽，簡單粗暴的理解為大

大數據技術之找博客共同好友案例

7.9 找博客共同好友案例

相關推薦