spark中makerdd和parallelize的區別

阿新 • • 發佈：2018-12-23

我們知道，在Spark中建立RDD的建立方式大概可以分為三種：（1）、從集合中建立RDD；（2）、從外部儲存建立RDD；（3）、從其他RDD建立。

　　而從集合中建立RDD，Spark主要提供了兩中函式：parallelize和makeRDD。我們可以先看看這兩個函式的宣告：

Spark提供了兩種建立RDD的方式：讀取外部資料集，以及在驅動器程式中對一個集合進行並行化。

在驅動器程式中對一個集合進行並行化的方式有兩種：parallelize()和makeRDD()。

1、parallelize()

def parallelize[T: ClassTag](
      seq: Seq[T],
      numSlices: Int = defaultParallelism): RDD[T] = withScope {
    assertNotStopped()
    new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]]())
  }

2、makeRDD()，有兩種重構方法，如下：

2.1、方法一：

/** Distribute a local Scala collection to form an RDD.
   *
   * This method is identical to `parallelize`.
   */
  def makeRDD[T: ClassTag](
      seq: Seq[T],
      numSlices: Int = defaultParallelism): RDD[T] = withScope {
    parallelize(seq, numSlices)
  }

可以發現，該重構方法的實現就是呼叫parallelize()方法。

2.2、方法二：

/**
   * Distribute a local Scala collection to form an RDD, with one or more
   * location preferences (hostnames of Spark nodes) for each object.
   * Create a new partition for each collection item.
   */
  def makeRDD[T: ClassTag](seq: Seq[(T, Seq[String])]): RDD[T] = withScope {
    assertNotStopped()
    val indexToPrefs = seq.zipWithIndex.map(t => (t._2, t._1._2)).toMap
    new ParallelCollectionRDD[T](this, seq.map(_._1), math.max(seq.size, 1), indexToPrefs)
  }

註釋的意思為：分配一個本地Scala集合形成一個RDD，為每個集合物件建立一個最佳分割槽。

給出如下例子，可以更清晰的看到它們之間的區別：

首先定義集合物件：

val seq = List(("American Person", List("Tom", "Jim")), ("China Person", List("LiLei", "HanMeiMei")), ("Color Type", List("Red", "Blue")))

使用parallelize()建立RDD：

val rdd1 = sc.parallelize(seq)

查詢rdd1的分割槽數：

rdd1.partitions.size  // 2

使用makeRDD()建立RDD

val rdd2 = sc.makeRDD(seq)

檢視rdd2的分割槽數

rdd2.partitions.size  // 3

總之：

第一種makerdd與parallerize兩者完全一致，傳遞的都是集合的形式；其實第一種makerdd實現是依賴了parallelize函式

第二種makerdd還提供了計算位置。

spark中makerdd和parallelize的區別

我們知道，在Spark中建立RDD的建立方式大概可以分為三種：（1）、從集合中建立RDD；（2）、從外部儲存建立RDD；（3）、從其他RDD建立。　　而從集合中建立RDD，Spark主要提供了兩中函式：parallelize和makeRDD。我們可以先看看這兩個函式的宣告

Spark中repartition和partitionBy的區別

是我 item its alt ive 同時 tint nts exe repartition 和 partitionBy 都是對數據進行重新分區，默認都是使用 HashPartitioner，區別在於partitionBy 只能用於 PairRDD，但是當它們同時都用於

Spark中map和flatMap的區別

Map和flatMap的區別 Transformation 含義 map(func) 返回一個新的RDD,該RDD由每一個輸入元素經過func函式轉換後組成 flatMap(func) 類似於map,但是每一個輸入元素可以被對映為0或多個輸出

【Big Data 每日一題20180821】Spark中ml和mllib的區別

Spark中ml和mllib的主要區別和聯絡如下： ml和mllib都是Spark中的機器學習庫，目前常用的機器學習功能2個庫都能滿足需求。 spark官方推薦使用ml, 因為ml功能更全面更靈活，未來會主要支援ml，mllib很有可能會被廢棄(據說可能是在spark3.

每次進步一點點——spark中cache和persist的區別

昨天面試被問到了cache和persist區別，當時只記得是其中一個呼叫了另一個，但沒有回答出二者的不同，所以回來後重新看了原始碼，算是弄清楚它們的區別了。 cache和persist都是用於將一個RDD進行快取的，這樣在之後使用的過程中就不需要重新計算了，可

spark中map和flatmap之間的區別

map()是將函式用於RDD中的每個元素，將返回值構成新的RDD。 flatmap()是將函式應用於RDD中的每個元素，將返回的迭代器的所有內容構成新的RDD,這樣就得到了一個由各列表中的元素組成的RDD,而不是一個列表組成的RDD。有些拗口，看看例子就明白了。 val

Spark學習筆記 --- Spark中Map和FlatMap轉換的區別

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

spark 中map 和flatmap 的區別

需求背景：統計相鄰兩個單詞出現的次數。 val s="A;B;C;D;B;D;C;B;D;A;E;D;C;A;B" s: String = A;B;C;D;B;D;C;B;D;A;E;D;C;A;B val data=sc.parallelize(Seq(s)

mybatis中的#和$的區別

背景插入 trac sql註入 -m .com article 參數 -s 1. #將傳入的數據都當成一個字符串，會對自動傳入的數據加一個雙引號。如：order by #user_id#，如果傳入的值是111,那麽解析成sql時的值為order by "111", 如果傳

hibernate中hql語句中list和iterate區別

每次 hibernate 寫入所有讀取條件 iter 查詢 hql 1.使用list()方法獲取查詢結果，每次發出一條語句，獲取全部數據。2.使用iterate()方法獲取查詢結果，先發出一條SQL語句用來查詢滿足條件數據的id，然後依次按照這些id查詢記錄，也就是要

java中ArrayList和LinkedList區別

插入 list 新的查找 arr tro 基於列表時間復雜度 ArrayList和LinkedList最主要的區別是基於不同數據結構 ArrayList是基於動態數組的數據結構，LinkedList基於鏈表的數據結構，針對這點，從時間復雜度和空間復雜度來看主要區別：

mysql中replicate_wild_do_table和replicate_do_db區別

lan rep cati mil 多人 pan think lte 避免使用replicate_do_db和replicate_ignore_db時有一個隱患，跨庫更新時會出錯。如在Master（主）服務器上設置 replicate_do_db=test（my.conf

linux中 ll 和ls 區別

彩色顯示文件時間排序 linux 常用所有數字名稱 sub ll 列出來的結果詳細，有時間，是否可讀寫等信息，象windows裏的詳細信息ls 只列出文件名或目錄名就象windows裏的列表ll －t 是降序， ll －t ｜ tac 是升序 ll不是

js中decodeURI()和encodeURI()區別，decodeURIComponent和encodeURIComponent區別

nbsp sch www 問題 encode 替換副本字符替換序列 decodeURI()定義和用法:decodeURI()函數可對encodeURI()函數編碼過的URI進行解碼.語法:decodeURI(URIstring)參數描述:URIstring必需,一個字

HTP協議中URI和URL區別

int 名稱 net form 打開文件路徑指定支持地址 URL（uniform resource location ）：統一資源定位符 URI（uniform resource identifier）：統一資源標誌符 URI：可以表示一個域，也可以表示一個

mysql中varchar和char區別（思維導圖整理）

var 但是系統 mysql 由於 varchar .html nbsp 了解　　由於mysql一直是我的弱項（其實各方面我都是很弱的），所以最近在看msyql，正好看到varchar和char區別，所以整理一下，便於以後遺忘。　　　　0.0圖片已經說明一切，但是系

JavaScript中Null和undefind區別

cdc 如何 undefine 只有一個 som pre cnblogs 定義報錯公眾號原文 Javascript有5種基本類型：Boolean，Number，Null，Undefined，String；和一種復雜類型：Object（對象）； undef

淺談 Mybatis中的 ${ } 和 #{ }的區別

mybatis sql註入語句 nbsp 之前 com pre 預編譯 sql 語句一、舉例說明 1 select * from user where name = "dato"; 2 3 select * from user where name = #

mysql 中delete和trncate區別

重新 sql delet use 它的刪除掃描進行 from mysql中刪除表記錄delete from和truncate table的用法區別: MySQL中有兩種刪除表中記錄的方法:(1)delete from語句，(2)truncate table語句。 d

VBA中字符串連接/字符串拼接中“&”和“+”的區別

運算符強制 clear arch tle .com 字符串連接 ive 數字 VBA中字符串連接/字符串拼接中“&”和“+”的區別在VBA中用於字符串連接的只有“&”和“+”兩種運算符。 1、“&”是強制性連接，就是不管什麽都連接。 2、

spark中makerdd和parallelize的區別

1、parallelize()

2、makeRDD()，有兩種重構方法，如下：

相關推薦