RDD與DataFrame之間的轉換

阿新 • • 發佈：2019-01-26

RDD轉換為DataFrame

方法1：

1. 需要import spark.implicits._
2. case class + toDF建立DataFrame

//use case class Person
  case class Person(name:String,age:Int)
  def rddToDFCase(sparkSession : SparkSession):DataFrame = {
    //匯入隱飾操作，否則RDD無法呼叫toDF方法
    import sparkSession.implicits._
    val peopleRDD = sparkSession.sparkContext
      .textFile("file:/E:/scala_workspace/z_spark_study/people.txt",2)
      .map( x => x.split(",")).map( x => Person(x(0),x(1).trim().toInt)).toDF()
    peopleRDD
  }

注意：split將字串分類為多個String，這裡age為Int型別，因此需要將分列後的第二個元素toInt，trim()函式用於去除頭尾空格。

這裡，需要知道要轉換的型別，本例中轉換為int型別，如果沒辦法轉換成需要的型別，比如RDD[Array[String]]，那麼就要用第二種方法。

方法2：

1. 從原始RDD中生成RDD的Rows
2. step1中的Rows的structure，生成相應的StructType，表示成schema
3. 將schema對應到Rows上，通過SparkSession提供的createDataFrame函式生成DataFrame
Row代表RDD中的一行資料

//StructType and convert RDD to DataFrame
  def rddToDF(sparkSession : SparkSession):DataFrame = {
    //設定schema結構
    val schema = StructType(
      Seq(
        StructField("name",StringType,true)          
        ,StructField("age",IntegerType,true)
      )
    )
    val rowRDD = sparkSession.sparkContext
      .textFile("file:/E:/scala_workspace/z_spark_study/people.txt",2)
      .map( x => x.split(",")).map( x => Row(x(0),x(1).trim().toInt))  
    sparkSession.createDataFrame(rowRDD,schema)
  }

將DataFrame轉換成RDD

利用.rdd

RDD與DataFrame之間的轉換

RDD轉換為DataFrame 方法1： 1. 需要import spark.implicits._ 2. case class + toDF建立DataFrame//use case class Person case class Person(name:String

[2.2]Spark DataFrame操作（二）之通過反射實現RDD與DataFrame的轉換

參考場景檔案/home/pengyucheng/java/rdd2dfram.txt中有如下4條記錄： 1,hadoop,11 2,spark,7 3,flink,5 4,ivy,27 編碼實現：查詢並在控制檯打印出每行第三個欄位值大於7

[2.3]Spark DataFrame操作（二）之通過程式設計動態完成RDD與DataFrame的轉換

參考場景一、上一篇部落格將待分析資料影射成JavaBean的欄位，然後通過def createDataFrame(data:java.util.List[_],beanClass:Class[_]):DataFrame完成了RDD與DataFra

markdown與html之間轉換引發的問題

引入結果 com markdown 渲染深入 baidu 一個 scrip https://www.hackersb.cn/hacker/235.html 看了這位師傅的文章有感而發前言對於支持markdown語法的網站，一般都是在後端將markdown語法渲染

python3 日期時間與文字之間轉換以及改變時區

第一種方法 strftime() 和 strptime() 的使用函式功能 strftime 日期時間轉文字 strptime 文字轉日

人民幣，大寫中文與數字之間轉換

例：輸入： 8.2 輸出：八元二角 import java.util.Scanner; public class RMBTest { public static void main(String[] args) { Sc

linux 中IP點分十進位制與數值之間轉換函式

#include <arpa/inet.h> int inet_pton(int family,const char * strptr,void * addrptr); 返回：

PySpark中RDD與DataFrame

1. 彈性資料集RDD RDD是一個抽象的分散式資料集合，它提供了一系列轉化操作（例如基本的map()、flatMap()、filter()，類集合操作union()、intersection()、subtract()）和行動操作（例如collect()、co

spark基礎之RDD和DataFrame的轉換方式

一通過定義Case Class,使用反射推斷Schema 定義Case Class，在RDD的轉換過程中使用Case Class可以隱式轉換成SchemaRDD,然後再註冊成表，然後就可以利用sql

基本資料型別的介紹及轉換，基本資料型別與字串之間轉換，字串與字元陣列之間轉換以及字串與位元組陣列之間轉換

目錄一.Java的基本資料型別介紹二.各類基本資料之間的轉換三.基本資料型別和String之間轉換(附：物件包裝類及所對應的基本資料型別) 四.String與字元陣列轉換五.Strin

pyspark.sql.DataFrame與pandas.DataFrame之間的相互轉換

程式碼如下，步驟流程在程式碼註釋中可見： # -*- coding: utf-8 -*- import pandas as pd from pyspark.sql import SparkSession from pyspark.sql import SQLContext

RGB與HSV之間的轉換公式及顏色表

bsp 公式 blog log b- size 分享 ont idt RGB & HSV 英文全稱　RGB - Red, Green, Blue 　HSV - Hue, Saturation, Value HSV --> RGB 轉換公式 HSV --&g

js timestamp與datetime之間的相互轉換

times content data 轉換成 span etime post settime ont 1. datetime轉換成timestamp strdate = "2015-08-09 08:01:36:789"; var

[轉]python str與bytes之間的轉換

color eth bsp nat alter .com http log com 原文:http://www.cnblogs.com/zqifa/p/python-7.html # bytes object b = b"example" # str object

【PowerShell】ASCII與Char之間的轉換

clas cnblogs class pan bsp 之間 power code log 1 [char[]][int[]]$char=65..90 2 $char -join ‘,‘ 3 [int[]][char[]]$ascii=$char 4 $ascii -joi

編碼和解碼(字符串與byte[]之間的轉換)

sys 美國程序是我 col urn 密碼 url 簡單的資源來自互聯網http://www.cnblogs.com/dabaopku/archive/2012/02/27/2370446.html 非常蛋疼的事情, google 和 baidu 在編碼是分別采用

C#實現Stream與byte[]之間的轉換實例教程

inpu more family get this splay 登錄 line mem 本文以實例形式詳細介紹了C#實現Stream與byte[]之間的轉換的方法，分享給大家供大家參考之用。具體方法如下：一、二進制轉換成圖片 MemoryStream ms = new

python str與bytes之間的轉換

enc nco odin bsp python body encoding gpo bject 1 # bytes object 2 b = b"example" 3 4 # str object 5 s = "example" 6

Python3中字符串的編碼與解碼以及編碼之間轉換(decode、encode)

python3 encode 由於表示 nic code .... 以及 mage 一、編碼二、編碼與解碼 Python3中對py文件的默認編碼是urf-8。但是字符串的編碼是Unicode。由於Unicode采用32位4個字節來表示一個字符，存儲和傳輸太浪費資

js中js數組、對象與json之間的轉換

clas 語法方法使用 blog ejs ava 部門成了 ?數據在名稱/值對中?數據由逗號分隔?花括號保存對象?方括號保存數組 var jsonString = ‘{"bar":"property","baz":3}‘;//JSON字符串 var jsObject

RDD與DataFrame之間的轉換

相關推薦