MapReduce之求平均值

阿新 • • 發佈：2018-12-18

給定檔案資訊求檔案內容的平均值演算法

<1>Map端讀取檔案資訊內容

在讀取檔案資訊內容時，首先對檔案資訊進行切分，將檔案切分為key和value，便於檔案資訊的計算

public class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

	@Override
	protected void map(LongWritable key, Text value,Context context)
			throws IOException, InterruptedException {
		//對檔案進行拆分
		String[] str = value.toString().split(" ");
		//獲取檔案key值
		String name = str[0];
		//獲取檔案value值
		long a =Long.parseLong(str[str.length-1]);
		//將key和value寫進文字中
		context.write(new Text(name),new LongWritable(a));
	}
	
}

在設定Map類時繼承Mapper類，並使用泛型，通常泛型的第一個型別是LongWritable，之後的泛型可以根據自己需求進行設定

<2>Reduce端進行接收Map端傳進來的key，value並進行函式處理

PS：key值相同的value進行運算，不同的key值value不進行運算

public class MyReduce extends Reducer<Text, LongWritable, Text, LongWritable>{

	@Override
	protected void reduce(Text key, Iterable<LongWritable> value,
			Reducer<Text, LongWritable, Text, LongWritable>.Context arg2) throws IOException, InterruptedException {
		int i = 0;
		for (LongWritable values : value) {
			i += values.get();
		}
		arg2.write(key, new LongWritable(i/3));
	}
	
}

<3>載入驅動

public class SumDriver {
	public static void main(String[] args) throws Exception {
		//載入配置檔案
		Configuration conf = new Configuration();
		//建立mr任務
		Job job = Job.getInstance(conf, "mt");
		//設定主類
		//job.setJar("mt.jar");
		//設定map
		job.setMapperClass(MyMapper.class);
		//設定reduce
		job.setReducerClass(MyReduce.class);
		//設定輸出格式
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);
		//設定輸入路徑
		FileInputFormat.addInputPath(job, new Path(args[0]));
		//設定輸出路徑
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		System.exit(job.waitForCompletion(true) ? 0 : 1);
	}
}

如果要進行精確運算，可以將泛型型別設定為DoubleWritable型別

簡單的改變方式是在Reduce端的輸出value泛型設定為DoubleWritable型別，然後在計算value值 i 設定為double型別，同時在驅動上設定job.setOutputValueClass(DoubleWritable.class);

MapReduce之求平均值

給定檔案資訊求檔案內容的平均值演算法 <1>Map端讀取檔案資訊內容在讀取檔案資訊內容時，首先對檔案資訊進行切分，將檔案切分為key和value，便於檔案資訊的計算 public class MyMapper extends Mapper<LongW

MapReduce程序之求一年中的最高溫度和最低溫度

大數據 Hadoop MapReduce Java [TOC] MapReduce程序之求一年中的最高溫度和最低溫度前言看過《Hadoop權威指南》的同學都知道，關於MapReduce的第一個入門的例子就是統計全球氣溫，書上的例子是使用了全部的數據來作為統計，但實際上只需要拿某一年的數據

shell指令碼使用之awk按列求平均值（含最大，最小值）

使用Linux命令的awk工具 delay_avg.sh指令碼內容如下所示： #!/bin/sh RESPONSEFILE=$1 if [ $# -ne 1 ] then echo "usage: ./delay_avg.sh na

用Hadoop的MapReduce求平均值

最近在系統學習大資料知識，學了沒有記錄過幾天又忘光了，所以把學習內容記錄下來，方便以後檢視 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org

mapreduce程式設計：求平均值

求平均值的程式： package my.hadoopstudy; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apa

大資料入門之Spark快速入門及匯入資料，求平均值

執行環境本文的具體執行環境如下： CentOS 7.6 Spark 2.4 Hadoop 2.6.0 Java JDK 1.8 Scala 2.10.5 一、下載安裝首先在官網 https://spark.apache.org/downloads.html 下載對應版

Hadoop鏈式MapReduce、多維排序、倒排索引、自連線演算法、二次排序、Join效能優化、處理員工資訊Join實戰、URL流量分析、TopN及其排序、求平均值和最大最小值、資料清洗ETL、分析氣

Hadoop Mapreduce 演算法彙總第52課：Hadoop鏈式MapReduce程式設計實戰...1 第51課：Hadoop MapReduce多維排序解析與實戰...2 第50課：HadoopMapReduce倒排索引解析與實戰...3 第49課：Hado

C語言之基本演算法08—去掉最高分去掉最低分求平均值

// /* ================================================================== 題目：選拔賽中通常用這樣的辦法求選手分數，去掉一個最高分，去掉一個最低分，求平均成績！請程式設計實現這個計算方法。 =====

Hadoop實戰-MapReduce之max、min、avg統計(六)

next combine output fileinput private pub eof pri use 1、數據準備： Mike,35 Steven,40 Ken,28 Cindy,32 2、預期結果 Max　　40 Min　　 28 Avg 33 3、M

Hadoop Mapreduce之WordCount實現

註意 com split gin 繼承 [] leo ring exce 1.新建一個WCMapper繼承Mapper public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritab

1054. 求平均值 (20)

lag += 均值分隔 2.3 blog define stdio.h 區間本題的基本要求非常簡單：給定N個實數，計算它們的平均值。但復雜的是有些輸入數據可能是非法的。一個“合法”的輸入是[-1000，1000]區間內的實數，並且最多精確到小數點

Tarjan之求LCA

算法 get ios nbsp read 而在 hid 統一 turn Tarjan之求LCA 不要問我為什麽寫完Tarjan還要再補一句“求LCA的那個” 因為只說Tarjan的話完全不知道你指的是哪個算法…… 勞模Tarjan同誌證明了好多算法，而且全都叫Tarjan算

js面試題之求數組最值

pre 面試可能 cti clas return n) ole arr 今天繼續分享js常見的面試題，求數組最大值，最小值，這裏列舉4種常見解法，還有其他方法也可以實現，讀者知道可以私信我，我將把意見列舉到博客中，歡迎提出意見。第一種，利用數組排序 1 var arr

MapReduce之Job工具類開發

大數據 Hadoop MapReduce Java [toc] MapReduce之Job工具類開發在MapReduce程序寫Mapper和Reducer的驅動程序時，有很多代碼都是重復性代碼，因此可以將其提取出來寫成一個工具類，後面再寫MapReduce程序時都會使用這個工具類。 Job

pat1054 求平均值 (20)

沒有輸入並且除了 std 給定其中 set 格式本題的基本要求非常簡單：給定N個實數，計算它們的平均值。但復雜的是有些輸入數據可能是非法的。一個“合法”的輸入是[-1000，1000]區間內的實數，並且最多精確到小數點後2位。當你計算平均值的時候，不能把那些非法的

數據結構算法之求中位數

app num pen 數組元素組元整形轉換 end 整形 div 給定兩個有序數組，求其中位數的算法中位數定義：如果元素個數為奇數，則中位數為數組中間的那個數;如果數組元素個數為偶數，則中位數為中間兩個數的平均數求解方法一（歸並求解）： def findmids

PAT 1054 求平均值

esp tps spa main ref defined href 輸出格式精確 https://pintia.cn/problem-sets/994805260223102976/problems/994805272659214336 本題的基本要求非常簡單：給定N

23.零起點學算法21——求平均值

() != nbsp span eof std printf 均值平均值 #include<stdio.h> int main() { double a,b,c; while(scanf("%lf %lf %lf",&a,&b

Python提取Excel表格資料並用DataFrame處理求平均值輸出

Python讀取Excel檔案取平均數 1.檔案讀取下面我們將對這個excel檔案進行讀取 import xlrd #xlrd是excel檔案讀取庫只讀寫 data = xlrd.open_workbook('a.xlsx

python3 ks檢驗求平均值方差標準差中位數 dataframe使用engine寫入資料庫 pandas使用

需求是這樣的：將兩個資料集進行ks檢驗，算中位數方差標準差等資料，最後輸出到資料庫中 import psycopg2 import os import pandas as pd from scipy.stats import ks_2samp import numpy as np from

MapReduce之求平均值

給定檔案資訊求檔案內容的平均值演算法

相關推薦