Spark RDD建立操作

阿新 • • 發佈：2018-12-24

從集合建立RDD

parallelize

def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T]

從一個Seq集合建立RDD。

引數1：Seq集合，必須。

引數2：分割槽數，預設為該Application分配到的資源的CPU核數

scala> var rdd = sc.parallelize(1 to 10)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at :21

scala> rdd.collect
res3: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
scala> rdd.partitions.size
res4: Int = 15
//設定RDD為3個分割槽
scala> var rdd2 = sc.parallelize(1 to 10,3)
rdd2: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[3] at parallelize at :21

scala> rdd2.collect
res5: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
scala> rdd2.partitions.size
res6: Int = 3

makeRDD

def makeRDD[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T]

這種用法和parallelize完全相同

def makeRDD[T](seq: Seq[(T, Seq[String])])(implicit arg0: ClassTag[T]): RDD[T]

該用法可以指定每一個分割槽的preferredLocations。

scala> var collect = Seq((1 to 10,Seq("slave007.lxw1234.com","slave002.lxw1234.com")),
(11 to 15,Seq("slave013.lxw1234.com","slave015.lxw1234.com")))
collect: Seq[(scala.collection.immutable.Range.Inclusive, Seq[String])] = List((Range(1, 2, 3, 4, 5, 6, 7, 8, 9, 10),
List(slave007.lxw1234.com, slave002.lxw1234.com)), (Range(11, 12, 13, 14, 15),List(slave013.lxw1234.com, slave015.lxw1234.com)))
scala> var rdd = sc.makeRDD(collect)
rdd: org.apache.spark.rdd.RDD[scala.collection.immutable.Range.Inclusive] = ParallelCollectionRDD[6] at makeRDD at :23
scala> rdd.partitions.size
res33: Int = 2
scala> rdd.preferredLocations(rdd.partitions(0))
res34: Seq[String] = List(slave007.lxw1234.com, slave002.lxw1234.com)
scala> rdd.preferredLocations(rdd.partitions(1))
res35: Seq[String] = List(slave013.lxw1234.com, slave015.lxw1234.com)

指定分割槽的優先位置，對後續的排程優化有幫助。

從外部儲存建立RDD

textFile

//從hdfs檔案建立.

//從hdfs檔案建立
scala> var rdd = sc.textFile("hdfs:///tmp/lxw1234/1.txt")
rdd: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[26] at textFile at :21
scala> rdd.count
res48: Long = 4
//從本地檔案建立
scala> var rdd = sc.textFile("file:///etc/hadoop/conf/core-site.xml")
rdd: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[28] at textFile at :21
scala> rdd.count
res49: Long = 97

注意這裡的本地檔案路徑需要在Driver和Executor端存在。

從其他HDFS檔案格式建立

hadoopFile

sequenceFile

objectFile

newAPIHadoopFile

從Hadoop介面API建立

hadoopRDD

newAPIHadoopRDD

比如：從HBase建立RDD

scala> import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor, TableName}
import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor, TableName}
scala> import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
scala> import org.apache.hadoop.hbase.client.HBaseAdmin
import org.apache.hadoop.hbase.client.HBaseAdmin
scala> val conf = HBaseConfiguration.create()
scala> conf.set(TableInputFormat.INPUT_TABLE,"lxw1234")
scala> var hbaseRDD = sc.newAPIHadoopRDD(
conf,classOf[org.apache.hadoop.hbase.mapreduce.TableInputFormat],classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoop.hbase.client.Result])
scala> hbaseRDD.count
res52: Long = 1

Spark RDD建立操作

從集合建立RDD parallelize def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T] 從一個Seq集合建立RDD

Spark核心程式設計-RDD建立操作

目前有兩種型別的基礎RDD：一種是並行集合（Parallelized Collections），接收一個已經存在的scala集合，然後進行各種平行計算；另外一種是從外部儲存建立的RDD，外部儲存可以是文字檔案或者HDFS，也可以是Hadoop的介面API。一、並行化集合建

Spark RDD基礎操作

標題舉例解釋 Spark的基本資訊 Spark 1個driver(膝上型電腦或者叢集閘道器機器上)和若干個executor(在各個節點上)組成。通

Spark -- RDD簡單操作【統計文字中單行最大單詞數】

一、什麼是RDD ？ RDD在Spark【Scala語言】中，是一種資料結構【基於記憶體，可持久化】，就好比Java的ArrayList一樣，可以進行各種的Action操作，比如Java中的List集合，可以進行get【獲取元素】、add【增加元

Learning Spark——RDD常用操作

RDD支援兩種操作：轉換（Transformation）操作和行動（Action）操作。為什麼會分為兩種操作，這兩種操作又有什麼區別呢？我們先考慮一下平常我們使用的一些函式，舉個例子Long.toString()，這個轉換是把Long型別的轉換為Stri

Spark RDD基本操作

Spark RDD Scala語言程式設計 RDD（Resilient Distributed Dataset）是一個不可變的分散式物件集合，每個rdd被分為多個分割槽，這些分割槽執行在叢集的不同節點上。rdd支援兩種型別的操作：轉化(trainsfo

Spark dataframe建立&操作總結

DataFrame 的函式 Action 操作 1、 collect() ,返回值是一個數組，返回dataframe集合所有的行 2、 collectAsList() 返回值是一個Java型別的陣列，返回dataframe集合所有的行 3、 count() 返回一個num

spark mlib 機器學習系列之一：Spark rdd 常見操作

package mlib import org.apache.spark.SparkContext import org.apache.spark.sql.SparkSession object UsefulRddOpts { def main(ar

Spark RDD Actions操作之reduce()

textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b) The argu

3.4 Spark RDD Action操作6-saveAsHadoopFile、saveAsHadoopDataset

1 saveAsHadoopFile def saveAsHadoopFile(path: String, keyClass: Class[], valueClass: Class[], outputFormatClass: Class[_ <: Ou

spark RDD 基本操作

1. map: 對當前元素做一個對映 val array = Array(1,2,3) val rdd = sc.parallelize(array).map(r => 2*r) 2. filter: 過濾出符合條件的元組 va

3.4 Spark RDD Action操作7-saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset

1 saveAsNewAPIHadoopFile def saveAsNewAPIHadoopFile[F <: OutputFormat[K, V]](path: String)(implicit fm: ClassTag[F]): Unit de

spark RDD建立方式：parallelize，makeRDD，textFile

parallelize 呼叫SparkContext 的 parallelize()，將一個存在的集合，變成一個RDD，這種方式試用於學習spark和做一些spark的測試 scala版本 ? 1 def parallelize[T](s

3.4 Spark RDD Action操作4-countByKey、foreach、foreachPartition、sortBy

1 countByKey def countByKey(): Map[K, Long] countByKey用於統計RDD[K,V]中每個K的數量。例子： scala> var rdd1 = sc.makeRDD(Array((“A”,0),(“

Java Spark之建立RDD的兩種方式和操作RDD

首先看看思維導圖，我的spark是1.6.1版本，jdk是1.7版本 spark是什麼？ Spark是基於記憶體計算的大資料平行計算框架。Spark基於記憶體計算，提高了在大資料環境下資料處理的實時性，同時保證了高容錯性和高可伸縮性，允許使用者將Spark 部署在大量廉

Java接入Spark之建立RDD的兩種方式和操作RDD

首先看看思維導圖，我的spark是1.6.1版本，jdk是1.7版本 spark是什麼？ Spark是基於記憶體計算的大資料平行計算框架。Spark基於記憶體計算，提高了在大資料環境下資料處理的實時性，同時保證了高容錯性和高可伸縮性，允許使用者將Spar

[Spark][Python]RDD flatMap 操作例子

line var 元素 bsp ini atd 執行函數 clas park RDD flatMap 操作例子： flatMap，對原RDD的每個元素(行)執行函數操作，然後把每行都“拍扁” [[email protected] ~]$

Spark RDD操作記錄(總結)

操作記錄 collect () 求和 bsp 數據排序 red cas 創建ListintRDD = sc.parallelize(List(1,2,3,4,5))過濾包含stringRDD.filter(_.contains("a")).collect()去重strin

spark怎麼建立RDD，一個建立RDD的方式有哪些它們的區別是什麼！！（Unit2）

spark的程式設計介面包括 1.分割槽資訊，資料集的最小分片（1）Patitions（）用法： scala> val part=sc.textFile("/user/README.md",6) part: org.apache

Spark RDD 操作實戰之檔案讀取

/1、本地檔案讀取 val local_file_1 = sc.textFile("/home/hadoop/sp.txt") val local_file_2 = sc.textFile("file://home/hadoop/sp.txt") //2、當前目錄下的檔案 val file1 = sc

Spark RDD建立操作

從集合建立RDD

從外部儲存建立RDD

相關推薦