0011.MapReduce程式設計案例2

阿新 • • 發佈：2020-10-23

05-26-實現自連線的MapReduce程式
05-27-分析倒排索引的過程
- 倒排索引資料處理的過程.png
05-28-使用MapReduce實現倒排索引1
05-29-使用MapReduce實現倒排索引2
- 使用MapReduce實現倒排索引
05-30-使用MRUnit
05-31-第一個階段小結

05-26-實現自連線的MapReduce程式

05-27-分析倒排索引的過程

倒排索引資料處理的過程.png

05-28-使用MapReduce實現倒排索引1

05-29-使用MapReduce實現倒排索引2

使用MapReduce實現倒排索引


import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public class RevertedIndexMapper extends Mapper<LongWritable, Text, Text, Text> {

	@Override
	protected void map(LongWritable key1, Text value1, Context context)
			throws IOException, InterruptedException {
		//資料：/indexdata/data01.txt
		//得到對應檔名
		String path = ((FileSplit)context.getInputSplit()).getPath().toString();
		
		//解析出檔名
		//得到最後一個斜線的位置
		int index = path.lastIndexOf("/");
		String fileName = path.substring(index+1);
		
		//資料：I love Beijing and love Shanghai
		String data = value1.toString();
		String[] words = data.split(" ");
		
		//輸出
		for(String word:words){
			context.write(new Text(word+":"+fileName), new Text("1"));
		}
	}
}


import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class RevertedIndexReducer extends Reducer<Text, Text, Text, Text> {

	@Override
	protected void reduce(Text k3, Iterable<Text> v3, Context context)
			throws IOException, InterruptedException {
		String str = "";
		
		for(Text t:v3){
			str = "("+t.toString()+")"+str;
		}
		
		context.write(k3, new Text(str));
	}

}


import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class RevertedIndexCombiner extends Reducer<Text, Text, Text, Text> {

	@Override
	protected void reduce(Text k21, Iterable<Text> v21, Context context)
			throws IOException, InterruptedException {
		// 求和：對同一個檔案中的單詞進行求和
		int total = 0;
		for(Text v:v21){
			total = total + Integer.parseInt(v.toString());
		}
		
		//k21是：love:data01.txt
		String data = k21.toString();
		//找到：冒號的位置
		int index = data.indexOf(":");
		
		String word = data.substring(0, index);        //單詞
		String fileName = data.substring(index + 1);   //檔名
		
		//輸出：
		context.write(new Text(word), new Text(fileName+":"+total));
	}
}


import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class RevertedIndexMain {

	public static void main(String[] args) throws Exception {
		//1、建立一個任務
		Job job = Job.getInstance(new Configuration());
		job.setJarByClass(RevertedIndexMain.class); //任務的入口		
		
		//2、指定任務的map和map輸出的資料型別
		job.setMapperClass(RevertedIndexMapper.class);
		job.setMapOutputKeyClass(Text.class);  //k2的資料型別
		job.setMapOutputValueClass(Text.class);  //v2的型別
	
		//指定任務的Combiner
		job.setCombinerClass(RevertedIndexCombiner.class);
		
		//3、指定任務的reduce和reduce的輸出資料的型別
		job.setReducerClass(RevertedIndexReducer.class);
		job.setOutputKeyClass(Text.class); //k4的型別
		job.setOutputValueClass(Text.class); //v4的型別
		
		//4、指定任務的輸入路徑、任務的輸出路徑
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		//5、執行任務
		job.waitForCompletion(true);
	}

}

05-30-使用MRUnit

05-31-第一個階段小結

0011.MapReduce程式設計案例2

目錄05-26-實現自連線的MapReduce程式05-27-分析倒排索引的過程倒排索引資料處理的過程.png05-28-使用MapReduce實現倒排索引105-29-使用MapReduce實現倒排索引2使用MapReduce實現倒排索引05-30-使用MRUnit05-31-第一

MapReduce程式設計筆記（2）-WordCount程式

一、Hadoop自帶的WordCount程式 1，位置：$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar

分散式系統系列學習筆記:MapReduce程式設計模型（附程式碼實現）

作者：小羊編輯：韓數大家好，我是韓數，本文的作者是我的好朋友小羊，本次呢，特地邀請小羊大神來撰寫大資料系列的高階教程，隨著大資料的發展，越來越多優秀的開源框架逐漸進入到我們開發者的生活中，包括hadoop，

Scala併發程式設計實戰 - 2：Lock 鎖

synchronized作為內建鎖，使用簡單，不易出錯，然鵝確有相當的侷限性，例如，無法從等待獲取鎖的阻塞中中斷，無法設定獲取鎖的超時。所以JUC提供了另一種更靈活的加鎖方式，即Lock。

高併發程式設計學習(2)——執行緒通訊詳解

為獲得良好的閱讀體驗，請訪問原文: 傳送門前序文章 - 高併發程式設計學習(1)——併發基礎 - www.wmyskxz.com/2019/11/26/…

18 Python 程式設計案例實踐

本小節實現一個通訊錄管理程式，通過這個案例來融會貫通之前所學習的知識，該程式使用到如下知識點：

MapReduce簡單案例

MapReduce簡單案例目錄MapReduce簡單案例案例一檔案合併和去重操作案例二實現對輸入檔案的排序案例三對給定的表格進行資訊挖掘

MapReduce程式設計例項（轉）

備註（轉自）https://www.jianshu.com/p/1e4c976f5ecc 動手實戰學習MapReduce程式設計例項

面向物件程式設計(第2天):多型性和繼承(繼承)

下載PDF article - 847 KB 介紹在本文的第一部分中，我們瞭解了方法過載的不同場景，並做了很多有趣的操作。在本系列的第2部分，我的文章將只關注OOP中的繼承概念。讓我們用一些要點來定義繼承: 路線圖我們仍然堅

併發程式設計筆記(2)——訊號量、事件、佇列(程序間的通訊)

內容目錄訊號量事件佇列內容詳細訊號量（重點）可以規定有多少程序使用關鍵程式碼，其餘程序阻塞，直到有子程序釋放

Proxy實現AOP切面程式設計案例

通過JDK的Proxy代理實現對業務類做簡單的AOP實現介面：UserService 包含的方法為切入點，會被代理攔截

Java 多執行緒程式設計（2-非同步中包含同步）

一、執行緒同步機制前面的文章有介紹到，多執行緒安全問題概括來說表現為三個方面：原子性、可見性、有序性。多執行緒安全問題的產生前提是存在多個執行緒併發訪問（不全是讀）同一份共享資料，而會產生多執行緒安

第二章-線上程式設計題2-求解幸運數問題

問題描述：小明同學在學習了不同的進位制之後用一些數字做起了遊戲。小明同學知道，在日常生活中最常用的是十進位制數，而在計算機中二進位制數也很常用。現在對於一個數字x，小明同學定義出兩個函式f(x)和g(x)，f(x

Python基礎程式設計案例：簡單的井字棋遊戲設計與製作

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

前端05-CSS-案例2：新聞頁面

<!DOCTYPE html> <html lang=\"en\"> <head> <meta charset=\"UTF-8\"> <meta name=\"viewport\" content=\"width=device-width, initial-scale=1.0\">

紅寶書4-第八章物件、類與面向物件程式設計（2）

@目錄1.物件標識及相等判定問題引入：1.這些是===符合預期的情況2.這些情況在不同 JavaScript 引擎中表現不同，但仍被認為相等3.要確定 NaN 的相等性，必須使用極為討厭的 isNaN()利用 Object.is()進行判定2.增強的物

大資料快速入門（05）：MapReduce 程式設計模型賞析

一、Hadoop 誕生的**故事（上圖是 Doug Cutting，hadoop 之父） 1985年，Cutting 畢業於美國斯坦福大學。

關於＜script＞標籤(來自《JavaScript高階程式設計》2.1[思維導圖])

2.1[思維導圖]) 補充：源自HTML<script>標籤 HTML 4.01 與 HTML5之間的差異在 HTML 4 中，“type” 屬性是必需的，但在 HTML5 中是可選的。 “async” 屬性是 HTML5 中的新屬性。 HTML5 中不再支

每日一道js程式設計（2）

技術標籤：❤️❤️--每日js程式設計js判斷出現次數最多的字元js程式設計js每日程式設計js程式設計題

變數名稱裡可以有空格_Bash程式設計入門-2：Bash變數

技術標籤：變數名稱裡可以有空格 4. bash程式設計 Bash提供了某些類似於C語言那樣的程式設計語法，從而允許你用程式設計的方式，來組合使用Linux系統。

0011.MapReduce程式設計案例2

05-26-實現自連線的MapReduce程式

05-27-分析倒排索引的過程

倒排索引資料處理的過程.png

05-28-使用MapReduce實現倒排索引1

05-29-使用MapReduce實現倒排索引2

使用MapReduce實現倒排索引

05-30-使用MRUnit

05-31-第一個階段小結

相關推薦