spark 平行計算前n項和

阿新 • • 發佈：2019-02-01

在單執行緒計算中前n項和計算一直沒有障礙，隨著資料量的膨脹，單執行緒計算已經無法滿足資料計算。計算逐漸被遷移到spark或者hadoop叢集上平行計算，但是無論spark還是hadoop平行計算前n項和一直是一個痛點，只能做到每個結點或者容器上的前N項和，卻無法做到計算全域性前N項和。

現提供一種解決方案，希望大家多多指正。計算過程需要兩次便利全部資料。第一次遍歷計算每個容器中資料加和結果，並返回paritition的id和容器中資料家和。第二次遍歷才計算前Nx項和的家和。現有java版本實現，如需要scala版本或者python版本實現請私信本人。

public void sum(){
        SparkConf conf = new SparkConf().setMaster("local").setAppName("temp");
        JavaSparkContext ctx  = new JavaSparkContext(conf);
        List<Integer> list = Arrays.asList(1,2,3,4,5,6,7);
        JavaRDD<Integer> soureceRdd = ctx.parallelize(list,4).cache();
        List<Tuple2<Integer, Integer>> partitionSub = soureceRdd.mapPartitionsWithIndex(new Function2<Integer, Iterator<Integer>, Iterator<Tuple2<Integer, Integer>>>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Iterator<Tuple2<Integer, Integer>> call(Integer partitionId, Iterator<Integer> v2) throws Exception {
                Integer result = 0;
                while(v2.hasNext()){
                    result += v2.next();
                }
                return Arrays.asList(new Tuple2<Integer, Integer>(partitionId,result)).iterator();
            }
        }, true).collect();
        Map<Integer, Integer> paritionSum = this.sumPriPartition(partitionSub);
        JavaRDD<Integer> x = soureceRdd.mapPartitionsWithIndex(new Function2<Integer, Iterator<Integer>, Iterator<Integer>>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Iterator<Integer> call(Integer v1, Iterator<Integer> v2) throws Exception {
                List<Integer> result = new CopyOnWriteArrayList<Integer>();
                Integer proPartitionSum = paritionSum.get(v1); 
                while(v2.hasNext()){
                    proPartitionSum+=v2.next();
                    result.add(proPartitionSum);
                }
                return result.iterator();
            }
        }, true);
    }
    /*結果<partitionId,當前partition之前所有partition資料和>*/
    public Map<Integer, Integer> sumPriPartition(List<Tuple2<Integer, Integer>> list){
        Map<Integer, Integer>  map = new HashMap<Integer, Integer>();
        Integer caluer = 0;
        for(Tuple2<Integer, Integer> tuple: list){
            Integer partitionId = tuple._1;
            map.put(partitionId, caluer);
            caluer+=tuple._2;
        }
        return map;
    }

spark 平行計算前n項和

spark 平行計算前n項和

計算1-1/3+1/5-1/7+···的前n項和

循環-10. 求序列前N項和(15)

51 Nod 1244 莫比烏斯函數前n項和

PTA | 求交錯序列前N項和

演算法之斐波那契數列如何求第n個值與求前n項和？（Java）

CDUTCM OJ 1004: 前n項和

zcmu-1120: 前n項和（思維）

ACMNO.12有一分數序列： 2/1 3/2 5/3 8/5 13/8 21/13...... 求出這個數列的前N項之和，保留兩位小數。輸入 N 輸出數列前N項和樣例輸入 10

數列的前n項和的求法【中級和高階輔導】

7-34 求分數序列前N項和（15 分）

7-32 求交錯序列前N項和（15 分）

求自然數的前n項和，如1+2!+3!+...+n!

斐波那契數列累加求前n項和

中M2018春C入門和進階練習集-程式設計題34 7-34 求分數序列前N項和（15 分）

迴圈-24. 求給定序列前N項和之二

迴圈-21. 求交錯序列前N項和(15)

sum=2+5+8+11+14+…，輸入正整數n，求sum的前n項和。

習題2-6 求階乘序列前N項和（15 分）

等差數列 2，5，8，11，14。。。。輸入:正整數N >0 輸出:求等差數列前N項和

spark 平行計算 前n項和

相關推薦

spark 平行計算前n項和