rdd 基本操作

阿新 • • 發佈：2019-02-27

val col == runt get flat partition lte top

package com.jason.example

import org.apache.spark.rdd.RDD

class RddTest extends SparkInstance {
  val sc = spark.sparkContext
  val rdd = sc.parallelize(1 to 10)
  val rdd2 = sc.parallelize(9 to 15)
  val pairRdd = rdd2.map(x => (x, x * 2))

  def trans(): Unit = {
    printRdd(rdd.filter(x  
=> x % 2 == 0)) //2,4,6,8,10,12,14,16,18,20
    printRdd(rdd.map(x => 1 to x)) //Range(1),Range(1, 2),Range(1, 2, 3),Range(1, 2, 3, 4),Range(1, 2, 3, 4, 5),Range(1, 2, 3, 4, 5, 6),Range(1, 2, 3, 4, 5, 6, 7),Range(1, 2, 3, 4, 5, 6, 7, 8),Range(1, 2, 3, 4, 5, 6, 7, 8, 9),Range(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 

    printRdd(rdd.flatMap(x => 1 to x)) //1,1,2,1,2,3,1,2,3,4
    printRdd(rdd.mapPartitions { it => it.map(_ + 0.5) }) //1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5,10.5
    printRdd(rdd.mapPartitionsWithIndex((x, i) => i.map(_ + 0.5))) //1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5,10.5
    printRdd(rdd.sample(true 
, 0.2)) //7
    printRdd(rdd2.union(rdd)) //9,10,11,12,13,14,15,1,2,3
    printRdd(rdd.intersection(rdd2)) //9,10
    printRdd(rdd.distinct()) //4,8,1,9,5,6,10,2,3,7
    rdd.coalesce(1)
    rdd.repartition(2)
    rdd.groupBy(x => x)
    //pairRdd
    printRdd(pairRdd.groupBy(x => x._2)) //(28,CompactBuffer((14,28))),(24,CompactBuffer((12,24))),(20,CompactBuffer((10,20))),(22,CompactBuffer((11,22))),(30,CompactBuffer((15,30))),(18,CompactBuffer((9,18))),(26,CompactBuffer((13,26)))
    printRdd(pairRdd.groupByKey()) //(12,CompactBuffer(24)),(13,CompactBuffer(26)),(9,CompactBuffer(18)),(14,CompactBuffer(28)),(10,CompactBuffer(20)),(15,CompactBuffer(30)),(11,CompactBuffer(22))
    printRdd(pairRdd.reduceByKey(_ + _)) //(12,24),(13,26),(9,18),(14,28),(10,20),(15,30),(11,22)
    printRdd(pairRdd.aggregateByKey(0)((u, x) => u + x, (u1, u2) => u1 + u2)) //(12,24),(13,26),(9,18),(14,28),(10,20),(15,30),(11,22)
    printRdd(pairRdd.sortByKey(false)) //(15,30),(14,28),(13,26),(12,24),(11,22),(10,20),(9,18)
    printRdd(pairRdd.join(pairRdd)) //(12,(24,24)),(13,(26,26)),(9,(18,18)),(14,(28,28)),(10,(20,20)),(15,(30,30)),(11,(22,22))
    pairRdd.leftOuterJoin(pairRdd)
    pairRdd.rightOuterJoin(pairRdd)
    pairRdd.fullOuterJoin(pairRdd)

    printRdd(pairRdd.cogroup(pairRdd)) //(12,(CompactBuffer(24),CompactBuffer(24))),(13,(CompactBuffer(26),CompactBuffer(26))),(9,(CompactBuffer(18),CompactBuffer(18))),(14,(CompactBuffer(28),CompactBuffer(28))),(10,(CompactBuffer(20),CompactBuffer(20))),(15,(CompactBuffer(30),CompactBuffer(30))),(11,(CompactBuffer(22),CompactBuffer(22)))
    pairRdd.groupWith(pairRdd)
    printRdd(rdd.cartesian(rdd2)) //笛卡爾積 (1,9),(2,9),(1,10),(1,11),(2,10),(2,11),(1,12),(1,13),(2,12),(2,13)
    rdd.setName("haha")



    stop()
  }

  def actionTest(): Unit = {
    rdd.aggregate(0)((u, x) => x + u, (u1, u2) => u1 + u2)
    rdd.reduce(_ + _)
    rdd.count()
    rdd.first()
    rdd.take(10)
    rdd.takeOrdered(10)
    rdd.takeSample(true, 10)
    println(pairRdd.countByKey()) //Map(10 -> 1, 14 -> 1, 9 -> 1, 13 -> 1, 12 -> 1, 11 -> 1, 15 -> 1)
    println(pairRdd.countByValue()) //Map((10,20) -> 1, (9,18) -> 1, (11,22) -> 1, (14,28) -> 1, (13,26) -> 1, (12,24) -> 1, (15,30) -> 1)
    rdd.countByValue()
    println(rdd.countApprox(90))
    stop()
  }

  def printRdd[U](rdd: RDD[U]): Unit = {
    println(rdd.take(10).mkString(","))
  }
}

object RddTest {
  def main(args: Array[String]): Unit = {
    val rt = new RddTest
    rt.trans()
    rt.actionTest()

    //Runtime.getRuntime.exec(s"""C:\notos\code\jason-ml\jason""")
  }
}

rdd 基本操作

RDD基本操作之Action

介紹比較 text inf count program 圖片訪問器） Action介紹在RDD上計算出來一個結果把結果返回給driver program或保存在文件系統，count(),save 常用的Action reduce() 接收一個函數，作用在RDD

Spark程式設計指南之一：transformation和action等RDD基本操作

文章目錄基本概念開發環境程式設計實戰初始化SparkContext RDD的生成 RDD基本操作 Key-Value Pairs Transformations f

Spark入門（四）：RDD基本操作

1.RDD轉換 RDD的所有轉換操作都不會進行真正的計算 1.1單個RDD轉換操作 # 建立測試RDD val rdd = sc.parallelize(Array("hello world","java","scala easy")) # 1.

Spark RDD基本操作

Spark RDD Scala語言程式設計 RDD（Resilient Distributed Dataset）是一個不可變的分散式物件集合，每個rdd被分為多個分割槽，這些分割槽執行在叢集的不同節點上。rdd支援兩種型別的操作：轉化(trainsfo

Spark學習——RDD基本操作

Spark操作分為transformation和action，現將常用的記錄在此： //transformation //將元素一個一個轉換 JavaRDD<String> map = raw.map(new Fu

spark RDD 基本操作

1. map: 對當前元素做一個對映 val array = Array(1,2,3) val rdd = sc.parallelize(array).map(r => 2*r) 2. filter: 過濾出符合條件的元組 va

rdd 基本操作

val col == runt get flat partition lte top package com.jason.example import org.apache.spark.rdd.RDD class RddTest extends SparkI

Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct

ive 註意 pre spl cti result log bsp blog Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct 關鍵字：Spark算子、Spark RDD基本轉換、map、flatMap、distinct map 將

Spark-RDD-02基本操作詳解

Spark中RDD是一個不可變的分散式物件集合，每個RDD都被分為多個分割槽，這些分割槽被分發到叢集的不同的節點中進行計算。 SparkContext是Spark的程式設計主入口點，可以被用於在叢集中建立RDDs，在spark-shell中被系統預設建立為sc。兩種建立

【spark】Spark運算元：RDD基本轉換操作–map、flagMap、distinct

map將一個RDD中的每個資料項，通過map中的函式對映變為一個新的元素。輸入分割槽與輸出分割槽一對一，即：有多少個輸入分割槽，就有多少個輸出分割槽。 hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello

Spark RDD API 基本操作

object RddTest { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]").setAppName("rdd test")

Spark運算元:RDD基本轉換操作(5)–mapPartitions/mapPartitionsWithIndex

mapPartitions def mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]

RDD彈性分布式數據集的基本操作

map() contex replace array lec sam 一行 carte key RDD的中文解釋是彈性分布式數據集。構造的數據集的時候用的是List(鏈表）或者Array數組類型/* 使用makeRDD創建RDD */ /* List */ val

Spark RDD基本概念、寬窄依賴、轉換行為操作

目錄 RDD概述 RDD的內部程式碼案例小總結轉換、行動運算元寬、窄依賴 Reference 本文介紹

Pycharm 的基本操作

har span .com 分享 setting 9.png 單擊安裝大小下載：https://www.jetbrains.com/pycharm/ 安裝：隨意安裝在那個目錄都可以註冊：可以采用激活碼或者激活服務器，並對應在選項下面填入激活碼或者激活服務器URL

目錄基本操作之mkdir命令

用戶信息 version 上下文 mkdirmkdir命令主要用來創建目錄。語法 mkdir (選項) (參數)選項-Z 設置安全上下文，僅開啟SElinux時有效 -m <目標屬性>或--mode<目標屬性>建立目錄的同時設置目錄的權限 -p或--pa

vue.js的基本操作

操作 copy custom events patch erb one lte methods 1.{{message}}輸出data數據中的message。 2.v-for="todo in todos"輸出data數據中的dotos數組 3.v-on:click="aa

1Python全棧之路系列之MySQL數據庫基本操作

大型數據庫數據庫管理數據庫軟件程序員 sql數據庫 Python全棧之路系列之MySQL數據庫基本操作MySQL數據庫介紹MySQL是一種快速易用的關系型數據庫管理系統(RDBMS)，很多企業都在使用它來構建自己的數據庫。MySQL由一家瑞典公司MySQL AB開發、運營並予以支持。

數據表的基本操作

gin rename 數據表 hang des prim 修改字段 alter 字段名一、創建數據表 (1) 創建數據表：CREATE TABLE <表名> ( ...... );(2) 使用主鍵約束：PRIMARY KEY 、FOREIGN KE

Linux基本操作命令

程序詳細位置 tool -1 擁有 Owner ss命令單位一、 ls ls最常用的參數有三個： -a -l -F 1、ls -a Linux上的文件以.開頭的文件被系統視為隱藏文件，僅用ls命令是看不到他們的，而用ls -a除了顯示一般文件名外，連隱藏文

rdd 基本操作

相關推薦