2、最高氣溫和wordcount 命令行下
阿新 • • 發佈:2018-10-09
style map class max lec 上傳 span color spa
最高氣溫
1、上傳溫度數據文件到HDFS
hdfs dfs -put temp3.dat /
2、求最高、最低、平均溫度
方式一,無reduceByKey
val rdd1 = sc.textFile("/temp3.dat") val rdd2 = rdd1.map(s=>{val ss = s.split(" ");(ss(0).toInt,ss(1).toInt)}) val rdd3 = rdd2.groupByKey val rdd4 = rdd3.mapValues(i=>(i.max,i.min,i.sum/i.size.toDouble)) val rdd5 = rdd4.sortByKey(true) val lst = rdd5.collect lst.foreach(println)
方式二,有reduceByKey
val rdd1 = sc.textFile("/temp3.dat") val rdd2 = rdd1.map(s=>{val ss = s.split(" ");(ss(0).toInt,(ss(1).toInt,ss(1).toInt,ss(1).toInt,1))}) val rdd3 = rdd2.reduceByKey((a,b)=>(math.max(a._1,b._1),math.min(a._2,b._2),a._3 + b._3,a._4 + b._4)) val rdd4= rdd3.mapValues(t=>(t._1,t._2,t._3/t._4.toDouble)) val rdd5 = rdd4.sortByKey(true) val lst = rdd5.collect lst.foreach(println)
wordcount
1、上傳文本文件到HDFS
hdfs dfs -put www /
2、單詞統計
val rdd1 = sc.textFile("/www") val rdd2 = rdd1.flatMap(_.split("\t")) val rdd3 = rdd2.map((_,1)) val rdd4 = rdd3.reduceByKey(_ + _) val rdd5= rdd4.sortBy(_._2) val lst = rdd5.collect lst.foreach(println)
2、最高氣溫和wordcount 命令行下