Spark RDD操作之ReduceByKey

阿新 • • 發佈：2019-03-04

一、reduceByKey作用

reduceByKey將RDD中所有K,V對中，K值相同的V進行合併，而這個合併，僅僅根據使用者傳入的函式來進行，下面是wordcount的例子。

import java.util.Arrays;
import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

public class WordCount {

	public static void main(String[] args) {
		SparkConf conf = new SparkConf().setAppName("spark WordCount!").setMaster("local[*]");
		JavaSparkContext javaSparkContext = new JavaSparkContext(conf);
		List<Tuple2<String, Integer>> list = Arrays.asList(new Tuple2<String, Integer>("hello", 1),
				new Tuple2<String, Integer>("word", 1), new Tuple2<String, Integer>("hello", 1),
				new Tuple2<String, Integer>("simple", 1));
		JavaPairRDD<String, Integer> listRDD = javaSparkContext.parallelizePairs(list);
		
		/**
		 * spark的shuffle是hash-based的，也就是reduceByKey運算元的兩個入參一個是來源於hashmap，一個來源於從map端拉取的資料，對於wordcount例子而言，進行如下執行
		 * hashMap.get(Key)＋ Value，計算結果重新put回hashmap，迴圈往復，就迭代出了最後結果
		 */
		JavaPairRDD<String, Integer> wordCountPair = listRDD.reduceByKey(new Function2<Integer, Integer, Integer>() {
			@Override
			public Integer call(Integer v1, Integer v2) throws Exception {
				return v1 + v2;
			}
		});
		wordCountPair.foreach(new VoidFunction<Tuple2<String, Integer>>() {
			@Override
			public void call(Tuple2<String, Integer> tuple) throws Exception {
				System.out.println(tuple._1 + ":" + tuple._2);
			}
		});
	}

}

計算結果：

二、reduceByKey的原理如下圖

Spark RDD操作之ReduceByKey

浪費了“黃金五年”的Java程式設計師，還有救嗎？ >>>

Spark RDD操作之Map系運算元

開發十年，就只剩下這套架構體系了！ >>>

Spark RDD 操作實戰之檔案讀取

/1、本地檔案讀取 val local_file_1 = sc.textFile("/home/hadoop/sp.txt") val local_file_2 = sc.textFile("file://home/hadoop/sp.txt") //2、當前目錄下的檔案 val file1 = sc

Spark的RDD操作之Join大全！

/** * Perform a right outer join of `this` and `other`. For each element (k, w) in `other`, the * resulting RDD will either contain all pairs (k, (So

Spark RDD操作記錄(總結)

操作記錄 collect () 求和 bsp 數據排序 red cas 創建ListintRDD = sc.parallelize(List(1,2,3,4,5))過濾包含stringRDD.filter(_.contains("a")).collect()去重strin

spark RDD操作map與flatmap的區別

以前總是分不清楚spark中flatmap和map的區別，現在弄明白了，總結分享給大家，先看看flatmap和map的定義。 map()是將函式用於RDD中的每個元素，將返回值構成新的RDD。 flatmap()是將函式應用於RDD中的每個元素，將返回的迭代器的所有內容構成

Spark:RDD操作和持久化

建立RDD 進行Spark核心程式設計時，首先要做的第一件事，就是建立一個初始的RDD。該RDD中，通常就代表和包含了Spark應用程式的輸入源資料。然後在建立了初始的RDD之後，才可以通過Spark Core提供的transformation運算元，對該RDD進行轉換，來獲取其他的RD

Spark RDD操作：combineByKey函式詳解

當資料集一鍵值對形式組織的時候，聚合具有相同鍵的元素進行一些統計是很常見的操作。對於Pair RDD常見的聚合操作如：reduceByKey，foldByKey，groupByKey，combineByKey。這裡重點要說的是combineByKey。因為combineBy

Spark——RDD操作詳解

一、基本RDD 1、針對各個元素的轉化操作最常用的轉化操作是map()和filter()。轉化操作map()J接收一個函式，把這個函式用於RDD中的每一個元素，將函式的返回結果作為結果RDD中對應元素。而轉化操作filter()則接收一個函式，將RDD滿足

Spark 效能調優 Rdd 之 reduceByKey 本地聚合（也就是map端聚合運算元）

簡單程式碼 val lines = sc.textFile("hdfs://") val words = lines.flatMap(_.split(" ")) val pairs = words.map((_, 1)) val counts = pairs.reduceByKey(_

spark RDD運算元（十一）之RDD Action 儲存操作saveAsTextFile,saveAsSequenceFile,saveAsObjectFile,saveAsHadoopFile 等

關鍵字:Spark運算元、Spark函式、Spark RDD行動Action、Spark RDD儲存操作、saveAsTextFile、saveAsSequenceFile、saveAsObjectFile,saveAsHadoopFile、saveAsHa

[2.2]Spark DataFrame操作（二）之通過反射實現RDD與DataFrame的轉換

參考場景檔案/home/pengyucheng/java/rdd2dfram.txt中有如下4條記錄： 1,hadoop,11 2,spark,7 3,flink,5 4,ivy,27 編碼實現：查詢並在控制檯打印出每行第三個欄位值大於7

[2.3]Spark DataFrame操作（二）之通過程式設計動態完成RDD與DataFrame的轉換

參考場景一、上一篇部落格將待分析資料影射成JavaBean的欄位，然後通過def createDataFrame(data:java.util.List[_],beanClass:Class[_]):DataFrame完成了RDD與DataFra

Spark RDD Actions操作之reduce()

textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b) The argu

spark RDD運算元（十）之PairRDD的Action操作countByKey, collectAsMap

countByKey def countByKey(): Map[K, Long] 以RDD{(1, 2),(2,4),(2,5), (3, 4),(3,5), (3, 6)}為例 rdd.cou

【Spark】RDD操作具體解釋4——Action算子

() sim comment cat zed ret form sdn order 本質上在Actions算子中通過SparkContext運行提交作業的runJob操作，觸發了RDD DAG的運行。依據Action算子的輸出空間將Action算子進

[Spark]-RDD之創建

AD 簡單 spa 訪問重要 ron 例如記錄 table 1.RDD的創建　　1.1 從一個本地的Scala集合創建　　　　//聲明一個本地集合　　val data = Array(1, 2, 3, 4, 5) 　　val distData = sc.para

Spark RDD之Partitioner

概述 Partitioner是shuffle過程中key重分割槽時的策略，即計算key決定k-v屬於哪個分割槽，Transformation是寬依賴的運算元時，父RDD和子RDD之間會進行shuffle操作，shuffle涉及到網路開銷，由於父RDD和子RDD中的partition是

Spark RDD之Dependency

概述 Partition是資料切分的邏輯，而Dependency是在Transformation過程中Partition的演化過程，根據Dependency的型別判斷資料的處理方式，Dependency可以分為NarrowDependency(窄依賴)和ShuffleDependen

Spark RDD基礎操作

標題舉例解釋 Spark的基本資訊 Spark 1個driver(膝上型電腦或者叢集閘道器機器上)和若干個executor(在各個節點上)組成。通

Spark RDD操作之ReduceByKey

相關推薦