1. 程式人生 > >數值RDD的統計操作

數值RDD的統計操作

Spark 對包含數值資料的 RDD 提供了一些描述性的統計操作。 Spark 的數值操作是通過流式演算法實現的,允許以每次一個元素的方式構建出模型。這些 統計資料都會在呼叫  stats()  時通過一次遍歷資料計算出來,並以StatsCounter  物件返回。

方法   含義
count()RDD中的元素個數
mean()元素的平均值
sum()總和
max()最大值
min()最小值
variance()元素的方差
sampleVariance()從取樣中計算出方差
stdev()標準差
sampleStdev()取樣的標準差
舉例如下:
scala> var rdd1 = sc.makeRDD(1 to 100)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[42] at
makeRDD at <console>:32
scala> rdd1.sum()
res34: Double = 5050.0
scala> rdd1.max()
res35: Int = 100