Spark中CountByValue運算元Updatestatebykey運算元

阿新 • • 發佈：2019-01-25

一.在spark中，我們用了groupbykey運算元之後，一個key對應很多的運算元。我們想數一數這個key內部value的個數，我們就可以用countbyvalue。

package com.latrobe.spark

import org.apache.spark.{SparkContext,SparkConf}

/**
 * Created by spark on 15-1-18. 統計出集合中每個元素的個數
 */
object CountByValue{def main(args:Array[String]){val conf=new SparkConf().setAppName("spark-demo").setMaster("local")val sc=new SparkContext(conf)

val xx=sc.parallelize(List(1,1,1,1,2,2,3,6,5,9))

// 列印結果：Map(2 -> 2, 5 -> 1, 1 -> 4, 9 -> 1, 3 -> 1, 6 -> 1)
println(xx.countByValue())}}

二.在spark中，我們用了groupbykey運算元之後，一個key對應很多的運算元。我們想將這個key對用的value的值加起來，這時候就可以用updatestatebykey運算元。

package com.bjsxt;

import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaReceiverInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;

import com.google.common.base.Optional;

import scala.Tuple2;
import scala.actors.threadpool.Arrays;

public class UpdateStateByKeyOperator {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("test").setMaster("local[2]");
        JavaStreamingContext jsc = new JavaStreamingContext(conf, Durations.seconds(5));
        /**
         * 去除日誌的重複
         */
        jsc.sparkContext().setLogLevel("ERROR");
        /**
         * 設定checkpoint目錄： 多久會接收記憶體中的資料（每一個key所對應的狀態）寫入到磁碟上呢？
         * 如果你的batchinterval小於10S，那麼10S會將記憶體中的資料寫入到磁碟一份
         * 如果batchinterval大於10S，那麼就以batchinterval為準 這樣做是為了防止頻繁的寫HDFS
         * 設定checkpoint目錄的兩種方式： 1.jsc.checkpoint("./checkpoint"); 2.JavaSparkContext
         * sc=jsc.sparkContxt(); sc.setCheckpointDir("./checkpoint");
         * 
         */
        jsc.checkpoint("./checkpoint");
        /**
         * 從Linux端接收資料
         */
        JavaReceiverInputDStream<String> lines = jsc.socketTextStream("node01", 9999);
        /**
         * 呼叫flatmap運算元進行切分
         */
        JavaDStream<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

            @Override
            public Iterable<String> call(String s) throws Exception {

                return Arrays.asList(s.split(" "));
            }
        });
        /**
         * 呼叫mapToPair 進行分類
         */
        JavaPairDStream<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {

            @Override
            public Tuple2<String, Integer> call(String s) throws Exception {

                return new Tuple2<String, Integer>(s, 1);
            }
        });
        /**
         * 呼叫updateStateByKey運算元
         * 
         */
        JavaPairDStream<String, Integer> counts = ones
                .updateStateByKey(new Function2<List<Integer>, Optional<Integer>, Optional<Integer>>() {

                    @Override
                    public Optional<Integer> call(List<Integer> values, Optional<Integer> state) throws Exception {
                        /**
                         * values:經過分組最後 這個key所對應的value [1,1,1,1,1] state:這個key在本次之前之前的狀態
                         */
                        Integer updateValue = 0;
                        if (state.isPresent()) {
                            updateValue = state.get();
                        }
                        for (Integer value : values) {
                            updateValue += value;
                        }
                        return Optional.of(updateValue);
                    }
                });
        // output operator
        counts.print();
        jsc.start();
        jsc.awaitTermination();
        jsc.close();
    }
}

Spark中CountByValue運算元Updatestatebykey運算元

一.在spark中，我們用了groupbykey運算元之後，一個key對應很多的運算元。我們想數一數這個key內部value的個數，我們就可以用countbyvalue。 package com.latrobe.spark import org.apache.spark

Spark中的各種action運算元操作（scala版）

這裡直接貼程式碼了，action的介紹都在java那裡。 package cn.spark.study.core import org.apache.spark.SparkConf import org.apache.spark.SparkContext

零基礎入門大資料之spark中rdd部分運算元詳解

先前文章介紹過一些spark相關知識，本文繼續補充一些細節。我們知道，spark中一個重要的資料結構是rdd，這是一種並行集合的資料格式，大多數操作都是圍繞著rdd來的，rdd裡面擁有眾多的方法可以呼叫從而實現各種各樣的功能，那麼通常情況下我們讀入的資料來源並非rdd格式的，如何轉

spark中的各種運算元分類

1、Trasformtion運算元 union、reduceByKey、groupBy、join、map、mapPartition 、cogroup、parallelize、textFile、leftoutJoin、flatMap、coalesce、Repartition 2、Actio

java-spark中各種常用運算元的寫法示例

Spark的運算元的分類從大方向來說，Spark 運算元大致可以分為以下兩類: 1）Transformation 變換/轉換運算元：這種變換並不觸發提交作業，完成作業中間過程處理。 Transformation 操作是延遲計算的，也就是說從一個RDD 轉換生成另一個

java 版spark 中的map運算元的使用

import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spar

spark中常用運算元含義及區別

Transform: 1. map:rdd中的每項資料進行map裡的操作後，會形成一個個新的元素的新rdd flatMap:在map的基礎上進行扁平化，形成一個新的rdd 2. distinct:轉換操作，去重 filter:對rdd中的元素進行過濾 filt

spark中各種transformation運算元操作（scala版）

package cn.spark.study.core import org.apache.spark.SparkConf import org.apache.spark.SparkContext

Spark中Actionn運算元操作（三）

Spark運算元大致上可分為三大類運算元： Value資料型別的Transformation運算元，這種變換不觸發提交作業，針對處理的資料項是Value型的資料。 Key-Value資料型別的Transformation運算元，這種變換不觸發提交作業，針對處理的資

【Spark篇】---Spark中Action運算元

一、前述 Action類運算元也是一類運算元（函式）叫做行動運算元，如foreach,collect，count等。Transformations類運算元是延遲執行，Action類運算元是觸發執行。一個application應用程式（就是我們編寫的一個應用程式）中有幾個Action類運算元執行，就有幾個job

Spark中MapValues運算元（可以將value的值加起來，相當於reducebykey；也可以將value的個數加起來，相當於countbykey）

package com.bjsxt; import java.util.Arrays; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.J

Spark 中運算元功能與分類介紹

最近看了一些SPARK資料，還沒有系統性的整理，這裡先歸納一下spark中運算元的總結。如有什麼錯誤或者不妥之處，希望大神們指出，相互交流共同進步！！哈哈哈運算元的定義：RDD中定義的函式，可以對RDD中的資料進行轉換和操作。下面根據運算元型別的

SparkStreaming部分：updateStateByKey運算元（包含從Linux端獲取資料，flatmap切分，maptopair分類，寫入到本地建立的資料夾中）【Java版純程式碼】

package com.bjsxt; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.function.FlatMapFunction;

Spark中map、mapPartitions、foreach、foreachPartitions運算元

map 與 mapPartitions /** * Return a new RDD by applying a fu

Spark之RDD運算元-轉換運算元

RDD-Transformation 轉換（Transformation）運算元就是對RDD進行操作的介面函式，其作用是將一個或多個RDD變換成新的RDD。使用Spark進行資料計算，在利用建立運算元生成RDD後，資料處理的演算法設計和程式編寫的最關鍵部分，就是利用

【演算法】遺傳演算法GA中幾種交叉運算元小結

（圖片例子來自上課時老師的PPT，不過老師說PPT是他從網上組合的，所以沒有出處） 1、Partial-Mapped Crossover (PMX) 過程：第一步，隨機選擇一對染色體（父代）中幾個基因的起止位置（兩染色體被選位置相同）: 第二

SparkStreaming（17）：updateStateByKey運算元，保留上一次計算結果

1.實現功能如果SparkStreaming程式斷掉，重新啟動，可以讀取斷掉之前的結果。通過，使用SparkStreaming的HA：checkpoints。 2.程式碼 package _0809kafka //import com.beifeng.util.

Spark-RDD特點及RDD運算元

目錄 RDD 1.五個特性 RDD運算元 1.transformations類運算元 2.action類運算元 3.控制類運算元 RDD &n

DStream運算元updateStateByKey實現全域性統計計數

public static void main(String[] args) { SparkConf conf = new SparkConf() .setMaster("local[2]") .setAppName("UpdateStateByKeyWordCount"); J

《深入理解Spark》之通過sample運算元找出導致資料傾斜的key

最近在整理原來學過的內容，看到sample運算元就寫一篇在實際開發中sample運算元的具體應用 sample(withReplacement : scala.Boolean, fraction : scala.Double，seed scala.Long) sample

Spark中CountByValue運算元Updatestatebykey運算元

相關推薦