spark aggregateByKey使用java版
阿新 • • 發佈:2019-02-11
RDDaggregateByKey操作官方api:
aggregateByKey(U zeroValue, Function2<U,V,U> seqFunc, Function2<U,U,U> combFunc)
U zeroValue為定義初始資料;
Function2<U,V,U> seqFunc中第一個U是初始資料的U,v是傳入資料,第二個U是返回資料;
Function2<U,U,U> combFunc,第一個U是累計資料,第二個U是傳入資料,第三個U是返回資料。
(個人理解,不對請指正。)
同時計算sum和count的樣例程式碼如下:JavaPairRDD<String, String> allMsg= 。。。