Spark函式講解：coalesce

阿新 • • 發佈：2019-02-09

對RDD中的分割槽重新進行合併。

函式原型

def coalesce(numPartitions: Int, shuffle: Boolean = false)
　　　　(implicit ord: Ordering[T] = null): RDD[T]

返回一個新的RDD，且該RDD的分割槽個數等於numPartitions個數。如果shuffle設定為true，則會進行shuffle。

例項

scala> var data = sc.parallelize(List(1,2,3,4))
data: org.apache.spark.rdd.RDD[Int] = 
　　　　ParallelCollectionRDD[45] at parallelize at <console>:12

scala> data.partitions.length
res68: Int = 30

scala> val result = data.coalesce(2, false)
result: org.apache.spark.rdd.RDD[Int] = CoalescedRDD[57] at coalesce at <console>:14

scala> result.partitions.length
res77: Int = 2

scala> result.toDebugString
res75: String = 
(2) CoalescedRDD[57] at coalesce at <console>:14 []
 |  ParallelCollectionRDD[45] at parallelize at <console>:12 []

scala> val result1 = data.coalesce(2, true)
result1: org.apache.spark.rdd.RDD[Int] = MappedRDD[61] at coalesce at <console>:14

scala> result1.toDebugString
res76: String = 
(2) MappedRDD[61] at coalesce at <console>:14 []
 |  CoalescedRDD[60] at coalesce at <console>:14 []
 |  ShuffledRDD[59] at coalesce at <console>:14 []
 +-(30) MapPartitionsRDD[58] at coalesce at <console>:14 []
    |   ParallelCollectionRDD[45] at parallelize at <console>:12 []

從上面可以看出shuffle為false的時候並不進行shuffle操作；而為true的時候會進行shuffle操作。RDD.partitions.length可以獲取相關RDD的分割槽數。

Spark函式講解：coalesce

對RDD中的分割槽重新進行合併。函式原型 def coalesce(numPartitions: Int, shuffle: Boolean = false) 　　　　(implicit ord: O

Spark函式講解：collectAsMap

/** * User: 過往記憶 * Date: 15-03-16 * Time: 上午09:24 * bolg: http://www.iteblog.com * 本文地址：http://www.iteblog.com/archives/1289 * 過往記憶

第二集：Solidity函式講解

函式基礎 1.Solidity本身也是一門函式程式語言，也就是說函式可以做引數、變數、返回值。函式屬於值型別，支援多返回值。 2.呼叫方式內部呼叫內部呼叫採用EVM跳轉呼叫，所以能夠直接使用上下文中的資料，因為不用拷貝資料，所以在資料傳遞的時候非常高

Spark常用函式講解之Action操作+例項

RDD：彈性分散式資料集，是一種特殊集合 ‚ 支援多種來源 ‚ 有容錯機制 ‚ 可以被快取 ‚ 支援並行操作，一個RDD代表一個分割槽裡的資料集RDD有兩種操作運算元： Transformatio

三 Spark RDD函式講解

一運維hadoop spark http://192.168.229.133:50070/dfshealth.html#tab-overview http://192.168.229.133:8080 停掉hadoop cd /usr/local/hadoop-2.6.5/sbin 停掉dfs

Spark RDD操作：combineByKey函式詳解

當資料集一鍵值對形式組織的時候，聚合具有相同鍵的元素進行一些統計是很常見的操作。對於Pair RDD常見的聚合操作如：reduceByKey，foldByKey，groupByKey，combineByKey。這裡重點要說的是combineByKey。因為combineBy

Spark核心RDD：foldByKey函式詳解

foldByKey(zeroValue: V, numPartitions: Int)(func: (V, V) => V): RDD[(K, V)]foldByKey(zeroValue: V

Spark學習1：基礎函式功能解讀

Spark已經定義好了一些基本的transformation 和 action的操作，下面我們一探究竟。例項開發： val rdd = sc.parallelize(List(1,2,3,4,5,6)) val mapRdd = rdd.map(_*2)

（HEVC）幀內預測：fillReferenceSamples函式講解

將自己看到的對我幫助很大的文章轉載於此，方便下次查閱。今天開始進入實質性內容的討論，主要是從程式碼實現的角度比較深入地研究幀內預測演算法。由於幀內預測涉及到的函式的數量相對於編解碼器複雜部分來說少，但事實上大大小小也牽涉到了十幾二十個函式（沒具體統計過，只是大概估

Spark常用函式講解之鍵值RDD轉換

本節所講函式 1.mapValus(fun):對[K,V]型資料中的V值map操作 (例1)：對每個的的年齡加2 1 2 3 4 5 6 7 8 9

深入淺出講解：php的socket通信

刪除不一定電話鈴例子通過另一個一次函數返回 ima 對TCP/IP、UDP、Socket編程這些詞你不會很陌生吧？隨著網絡技術的發展，這些詞充斥著我們的耳朵。那麽我想問：1. 什麽是TCP/IP、UDP？2. Socke

<spark> error：啟動spark後查看進程，進程中master和worker進程沖突

告訴若有 master 沖突存在查看進程 spark 但是文件啟動hadoop再啟動spark後jps，發現master進程和worker進程同時存在，調試了半天配置文件。測試發現，當我關閉hadoop後 worker進程還是存在，但是，當我再關閉spar

使用doctest單元測試方式培訓講解：Python函數基礎

動態獲得直接 return 全部 Coding 位置順序收集顯式 # coding = utf-8 ‘‘‘ 函數聲明: def name([arg,... arg = value,... *arg, **kwarg]): suite 1. 當編譯器遇到

Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct

ive 註意 pre spl cti result log bsp blog Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct 關鍵字：Spark算子、Spark RDD基本轉換、map、flatMap、distinct map 將

Spark的介紹：前世今生

spark hadoop 流計算 spark的前世今生

Spark核心RDD：combineByKey函數詳解

sta 3.0 vbscript map ner 初始化 partition 得到 new https://blog.csdn.net/jiangpeng59/article/details/52538254 為什麽單獨講解combineByKey？因為comb

技術講解：MT7668AUN_MT7668AEN_MT7668ASN_Datasheet

單元 shadow 任務 shee ESS .html 地方 images 分享技術講解：MT7668AUN_MT7668AEN_MT7668ASN_Datasheet 在網上沒有找到MT7668AUN_MT7668AEN_MT7668ASN_Datasheet這麽齊全的

小白學習Spark系列四：rdd踩坑總結

build .text 大數據分析遇到 ESS bstr 分隔符讀取配置關註　　初次嘗試用 Spark+scala 完成項目的重構，由於兩者之前都沒接觸過，所以邊學邊用的過程大多艱難。首先面臨的是如何快速上手，然後是代碼調優、性能調優。本章主要記錄自己在項目中遇到的

[Bug]使用ST_Intersection函式報：ORA-06530: Reference to uninitialized composite

導語今天測試一個ST_Geometry的試驗，使用了ST_Intersection函式，獲得兩個圖層的相交部分，在執行過程中報：ORA-06530: Reference to uninitialized composite 分析查找了Esri的官方技術文章，竟然是一個bug。 &nb

Spark:DataFrame repartition、coalesce 對比

在Spark開發中，有時為了更好的效率，特別是涉及到關聯操作的時候，對資料進行重新分割槽操作可以提高程式執行效率（很多時候效率的提升遠遠高於重新分割槽的消耗，所以進行重新分割槽還是很有價值的）。在SparkSQL中，對資料重新分割槽主要有兩個方法 repartition 和 coalesce ，下面將對兩個方

Spark函式講解：coalesce

函式原型

例項

相關推薦