【大創_社區劃分】——PageRank演算法MapReduce實現

阿新 • • 發佈：2018-12-31

舉例來講：

假設每個網頁都有一個自己的預設PR值，相當於人為新增給它是一種屬性，用來標識網頁的等級或者重要性，從而依據此標識達到排名目的。假設有ID號是1的一個網頁，PR值是10，假如它產生了到ID=3，ID=6，ID=8 ，ID=9這4個網頁的連結。那麼可以理解為ID=1的網頁向ID=3，6，8，9的4個網頁各貢獻了2.5的PR值。如果想求任意一個網頁假設其ID=3的PR值，需要得到所有的其他網頁對ID=3這個網頁的貢獻的總和，再按照函式“所求PR”=“總和”*0.85+0.15得到。經過迴圈多次上述過程求得的網頁PR值，可以作為網頁排名的標識。

1：準備資料

理論資料是通過網頁爬蟲得到了某個特定封閉系統的所有網頁的資訊，為了測試程式，可以自己模擬生成自己定義特定格式的資料。下面是我用來測試的資料，儲存方式如圖

（注：對於自定義模擬資料，在PR初始值的選取時，所有的網頁是“平等”的，不會說自己寫的網頁和Google的熱門網頁有多少差別，但是按照某種法則經過一定運算後PR是不一樣的，比如很多其他的網頁可能會連結到google，它的PR自然會比你的高。所以初始值的選取按照這種邏輯來講符合現實些，即所有網頁預設PR值相等。但是即使初始值定的不一樣，整個系統的PR總和可能會變化，最後的每個網頁PR也會發生變化，但是這種量之間的變化，不會影響到網頁自身的通過比較大小方式上的邏輯排名。

2：MapReduce過程

map接受的資料格式預設是<偏移量，文字行>這樣的<key,value>對，形如<0,1 5 2 3 4 5><20,2 10 3 5 8 9>.

目標：將預設資料格式，轉換成自定義格式<key,value>對。

已知：hadoop框架在Map階段的時候會自動實現sort過程，就是將相同的key的所有value儲存到list，形如<key,list(1,1,1,2)>這種形式，例如上述對ID=2的網頁有ID=1，6，7，8.這4個網頁貢獻（1.25，1，5/3，5），那麼如果你採用的key是網頁ID，那麼hadoop框架會以此種形式<2,list(1.25，1，5/3，5)>輸出，傳遞給reduce。

Reduce階段：

分析：這個階段操作就相對簡單很多，讀取map的輸出<key,value>，並解析出來。

具體操作：把values中的數字相加即為對應id的PageRank值。

結果如下圖：

程式碼如下

package pageRank;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class pageRank {

	public static class Map extends Mapper<Object,Text,IntWritable,FloatWritable>{
		private final IntWritable word = new IntWritable();
		private String pr;
		public void map(Object key,Text value,Context context) throws IOException, InterruptedException{
			StringTokenizer itr = new StringTokenizer(value.toString());
			if(itr.hasMoreTokens())   {String id = itr.nextToken();}
			else return;
			pr = itr.nextToken();          //網頁的pr值
			int count = itr.countTokens();     //連結ID的數目
			float average_pr = Float.parseFloat(pr)/count;
			while(itr.hasMoreTokens()){
				word.set(Integer.parseInt(itr.nextToken()));
				context.write(word, new FloatWritable(average_pr));
			}
		}
	}
	
	public static class Reduce extends Reducer<IntWritable,FloatWritable,IntWritable,FloatWritable>{
		float sum;
		public void reduce(IntWritable key,Iterable<FloatWritable>values,Context context) throws IOException, InterruptedException{
			for(FloatWritable val:values){
				sum += val.get();
			}
			context.write(key,new FloatWritable(sum));
		}
	}
	
	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		// TODO Auto-generated method stub

		Job job = new Job();
		job.setJarByClass(pageRank.class);
		job.setNumReduceTasks(1);
		
		job.setMapperClass(Map.class);
		job.setReducerClass(Reduce.class);
		
		job.setOutputKeyClass(IntWritable.class);
		job.setOutputValueClass(FloatWritable.class);
		
		FileInputFormat.addInputPath(job, new Path("/thinkgamer/input"));
		FileOutputFormat.setOutputPath(job, new Path("/thinkgamer/output"));
		
		System.exit(job.waitForCompletion(true)? 0 : 1);
	}

}

【大創_社區劃分】——PageRank演算法MapReduce實現

【大創_社區劃分】——PageRank演算法MapReduce實現

【大創_社區劃分】——PageRank演算法的解析與Python實現

網路社區劃分演算法

【c語言_取值範圍】int long longlong

複雜網路社區劃分方法綜述

【Algorithms公開課學習筆記5】排序演算法part2——歸併排序

【Algorithms公開課學習筆記6】排序演算法part4——堆排序

高仿各大商城首頁---使用分型別的RecyclerView來實現

【安卓自定義控制元件】自定義ViewGroup實現透明背景的ViewPager效果

【Vivado使用誤區與進階】在Vivado中實現ECO功能

【機器學習】【PageRank演算法-1】PageRank演算法原理介紹

【Android View事件（四）】View滑動與實現滑動的幾種方法

基於Tire樹和最大概率法的中文分詞功能的Java實現

中文分詞的演算法與實現（結巴分詞）

分形幾何演算法和實現

【bzoj5089】最大連續子段和分塊+單調棧

【原創】總結大創項目-基於深度學習的智能紅綠燈調控系統

【OKaimi_萬勝_點金勝】足球|AutoBetSoft_VIP頂級版_走地分析軟體|滾球大球分析系統

【圖文教程】五分鐘內搞一個雙十一資料大屏_實時看到自己的業務訪問情況

Java JVM虛擬機器7塊記憶體區劃分【入門】

【大創_社區劃分】——PageRank演算法MapReduce實現

相關推薦