培訓系列10--spark rdd groupbykey的使用

阿新 • • 發佈：2018-12-07

//groupbykey

一、準備資料
val flights=sc.textFile("data/Flights/flights.csv")
val sampleFlights=sc.parallelize(flights.take(1000))
val header=sampleFlights.first
val filteredFlights=sampleFlights.filter(line=>{
line!=header&&line.split(",")(22)!=""
})

這裡的準備資料使用的相對路勁

二、使用map函式獲得自己想要計算的幾個欄位
val airLinesMap=filteredFlights.map(line=>{
val tailNum=line.split(",")(6)
val airline=line.split(",")(4)
(airline,tailNum)
})

三、使用groupbykey操作，合併行
val airlinesGroup= airLinesMap.distinct.groupByKey()
airlinesGroup.take(20).foreach(println)

四、計算每個航空公司的航班，當然也可以不用groupbykey直接使用reducebykey實現

//計算每個航空公司的航班
val airplanesCount =airlinesGroup.map(line=>{
(line._1,line._2.size)
})
airplanesCount.take(20).foreach(println)

五。計算飛機延誤的機率

//計算延誤的機率
val flightsMap=filteredFlights.map(flight=>{
var airline= flight.split(",")(4)
var delay = flight.split(",")(22)
(airline,delay)
})

以上獲得需要計算的相關欄位。

val flightDelays=flightsMap.groupByKey()
val delayChance= flightDelays.map(airline=>{
var count=0
var totalCount =airline._2.size
for (delay<-airline._2){
if(delay.toInt>0){
count+=1
}
}
(airline._1,(count+0.0)/totalCount)
})
delayChance.take(20).foreach(println)

這裡使用了scala的for迴圈，直接把value裡面的list值輸入到一個變數delay裡面去。

培訓系列10--spark rdd groupbykey的使用

培訓系列10--spark rdd groupbykey的使用

培訓系列11-spark dataframe 基礎操作

培訓系列12--spark dataframe 註冊成hive 的臨時表

培訓系列12--spark dataframe 註冊成hive 的臨時表

小白學習Spark系列四：rdd踩坑總結

# Apache Spark系列技術直播# 第五講【 Spark RDD程式設計入門】

spark RDD，reduceByKey vs groupByKey

spark mlib 機器學習系列之一：Spark rdd 常見操作

spark RDD系列------2.HadoopRDD分割槽的建立以及計算

【spark 深入學習 03】Spark RDD的蠻荒世界

Leetcode--easy系列10

Spark RDD

Spark入門實戰系列--2.Spark編譯與部署（中）--Hadoop編譯安裝

spark2.x由淺入深深到底系列六之RDD java api詳解二

spark2.x由淺入深深到底系列六之RDD java api調用scala api的原理

spark2.x由淺入深深到底系列六之RDD java api詳解三

spark2.x由淺入深深到底系列六之RDD java api詳解四

spark2.x由淺入深深到底系列六之RDD 支持java8 lambda表達式

spark2.x由淺入深深到底系列六之RDD java api用JdbcRDD讀取關系型數據庫

Spark RDD操作記錄(總結)

培訓系列10--spark rdd groupbykey的使用

相關推薦