scala 並行集合在spark中的應用

阿新 • • 發佈：2019-02-10

一.scala並行集合

現在有一個集合，對它的每個元素進行處理，比如:

val arr = List[String]("a","b","c")
arr.foreach(println(_))
//輸出結果： 
a
b
c

//並行集合
arr.par.foreach(println(_))
//輸出結果: 
a
c
b

觀察執行緒

println((0 to 1000).map{r => Thread.currentThread.getName}.distinct)

Vector(main)

println((0 to 1000).par.map{r => Thread.currentThread. 
getName}.distinct)

ParVector(ForkJoinPool-1-worker-5, ForkJoinPool-1-worker-7, ForkJoinPool-1-worker-3, ForkJoinPool-1-worker-1)

二.在spark中的使用

現在你有n個相互之間沒有關聯的任務需要執行，比如說從100張表中取出資料並進行資料清洗。按照spark的機制，job初使的併發度為資料的partition數(在hdfs中為資料的分塊數，在es和cass中讀取的資料為資料的副本數)。

所有即使你給任務分配了100個core,在資料讀取階段也只會使用到其中幾個。

val table_list = List[String]("table1" 
,"table2","table3","...")
val iter = arr.iterator
while(iter.hasNext){
    val tableName = iter.next
    //根據table從資料來源讀取資料
    val data = ...
    //資料清洗操作
    data.map(...)
}

改成並行集合的模式,程式會以最大的併發度(你設定的core數量)從資料來源拉取資料，大大提高了程式執行效率。

val table_list = List[String]("table1","table2","table3","...")
table_list.par.foreach(r=>{
    val tableName = r
    //根據table從資料來源讀取資料
    val data = ... 

    //資料清洗操作
    data.map(...)
})

當然也可以使用scala.concurrent包中的Future等可以達到相同的作用

import scala.concurrent.ExecutionContext.Implicits.global
import scala.concurrent.{Await, Future}
import scala.concurrent.duration._

val arr = List[String]("a","b","c")

val futures = arr.map(r=>Future{
    val tableName = r
    //根據table從資料來源讀取資料
    val data = ...
    //資料清洗操作
    data.map(...)
})

val future = Future.sequence(futures)
//任務最長執行時間
Await.result(future, 1 hour)

scala 並行集合在spark中的應用

一.scala並行集合現在有一個集合，對它的每個元素進行處理，比如: val arr = List[String]("a","b","c") arr.foreach(println(_)) //輸出結果： a b c //並行集合 arr.par.

Spark 中關於Parquet的應用與性能初步測試

spark 大數據 hadoop hive parquetSpark 中關於Parquet的應用Parquet簡介 Parquet是面向分析型業務的列式存儲格式，由Twitter和Cloudera合作開發，2015年5月從Apache的孵化器裏畢業成為Apache頂級項目http://parquet.apa

idea中使用scala運行spark出現Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class

lib apache brush inf under tle 配置 erro cal idea中使用scala運行spark出現：　　 Exception in thread "main" java.lang.NoClassDefFoundError: scala/co

scala 並行集合在spark中的應用

一.scala並行集合

二.在spark中的使用

scala 並行集合在spark中的應用

Spark 中關於Parquet的應用與性能初步測試

idea中使用scala運行spark出現Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class

【Spark篇】---Spark中資源調度源碼分析與應用

redis集合/有序集合在電商中應用-自動補全

maven環境下使用java、scala混合開發spark應用

Spark中RDD轉換成DataFrame的兩種方式（分別用Java和scala實現）

spark，scala並行求和

Spark 中如何設定executor個數以及task並行度

spark中各種transformation運算元操作（scala版）

scala在spark中使用log4j報不能序列化

IDEAJ中Scala打包提交Spark叢集執行

scala實戰之spark讀取mysql資料表並存放到mysql庫中程式設計例項

scala從集合中提取不重複的元素

Scala學習進擊Spark(五): Scala集合

Spark中的各種action運算元操作（scala版）

spark小應用一：wordcount，按詞頻降序（SCALA）

Spark中ip對映資料應用庫，二分查詢省份，將結果寫入mysql

scala 在 spark 中操作 hdfs

Spark中利用Scala進行數據清洗（代碼）

scala 並行集合在spark中的應用

一.scala並行集合

二.在spark中的使用

相關推薦