Spark SQL之RDD轉換DataFrame的方法

阿新 • • 發佈：2021-12-02

RDD轉換DataFrame之Reflection方法

第一種方式是使用反射的方式，用反射去推倒出來RDD裡面的schema。這個方式簡單，但是不建議使用，因為在工作當中，使用這種方式是有限制的。

對於以前的版本來說，case class最多支援22個大資料培訓欄位如果超過了22個欄位，我們就必須要自己開發一個類，實現product接口才行。因此這種方式雖然簡單，但是不通用；因為生產中的欄位是非常非常多的，是不可能只有20來個欄位的。

//Java
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;


import javax.jnlp.PersistenceService;
import javax.xml.crypto.Data;


public class rddtoDFreflectionJava {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("program")
                .master("local").config("spark.sql.warehouse.dir", "file:/Users/zhangjingyu/Desktop/Spark架構/spark-warehouse")
                .getOrCreate();
        String Path = "file:/Users/zhangjingyu/Desktop/spark-2.4.0/examples/src/main/resources/people.txt";


        JavaRDD<PersonJava> personRDD = Spark.read().textFile(Path).javaRDD().map(line -> {
            String name = line.split(",")[0];
            Long age = Long.valueOf(line.split(",")[1].trim());
            PersonJava person = new PersonJava();
            person.setName(name);
            person.setAge(age);
            return person;
        });
/**
 *         JavaRDD<PersonJava> personRdd = Spark.read().textFile(Path).javaRDD().map(new Function<String, PersonJava>() {
 *             @Override
 *             public PersonJava call(String line) throws Exception {
 *                 String name = line.split(",")[0];
 *                 Long age = Long.valueOf(line.split(",")[1].trim());
 *                 PersonJava person = new PersonJava();
 *                 person.setName(name);
 *                 person.setAge(age);
 *                 return person;
 *             }
 *         });
 */
        Dataset<Row> personDF = Spark.createDataFrame(personRDD,PersonJava.class);
        personDF.createOrReplaceTempView("test");
        Dataset<Row> ResultDF = Spark.sql("select * from test a where a.age < 30");
        ResultDF.show();




        JavaRDD<PersonJava> ResultRDD = ResultDF.javaRDD().map(line -> {
            PersonJava person = new PersonJava();
            person.setName(line.getAs("name"));
            person.setAge(line.getAs("age"));
            return person;
        });


        for (PersonJava personJava : ResultRDD.collect()) {
            System.out.println(personJava.getName()+":"+personJava.getAge());
        }


/**
 *         JavaRDD<PersonJava> resultRdd = ResultDF.javaRDD().map(new Function<Row, PersonJava>() {
 *             @Override
 *             public PersonJava call(Row row) throws Exception {
 *                 PersonJava person = new PersonJava();
 *                 String name = row.getAs("name");
 *                 long age = row.getAs("age");
 *                 person.setName(name);
 *                 person.setAge(age);
 *                 return person;
 *             }
 *         });
 *         resultRdd.foreach(new VoidFunction<PersonJava>() {
 *             @Override
 *             public void call(PersonJava personJava) throws Exception {
 *                 System.out.println(personJava.getName()+":"+personJava.getAge());
 *             }
 *         });
 */
    }
}


//Scala
object rddtoDFreflectionScala {
  case class Person(name : String , age : Long)


  def main(args: Array[String]): Unit = {
    val spark = CommSparkSessionScala.getSparkSession()
    val path = "file:/Users/zhangjingyu/Desktop/spark-2.4.0/examples/src/main/resources/people.txt"
    import spark.implicits._;
    val personDF = spark.sparkContext.textFile(path).map(row => row.split(",")).map(line => {
      Person(line(0),line(1).trim.toLong)
    }).toDF
    personDF.createOrReplaceTempView("test")
    val resultDF = spark.sql("select * from test a where a.age > 20")
    val resultrdd = resultDF.rdd.map(x =>{
      val name = x.getAs[String]("name")
      val age = x.getAs[Long]("age")
      Person(name,age)
    })


    for (elem <- resultrdd.collect()) {
      System.out.println(elem.name+" : "+ elem.age)
    }
  }
}

RDD轉換DataFrame之Programm方式

建立一個DataFrame，使用程式設計的方式，這個方式用的非常多。通過程式設計方式指定schema ，對於第一種方式的schema其實定義在了case class裡面了。

//Java
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import scala.Tuple2;




import java.util.ArrayList;
import java.util.List;


public class rddtoDFprogrammJava {
    public static void main(String[] args) {


        SparkSession spark = SparkSession
                .builder()
                .appName("program")
                .master("local").config("spark.sql.warehouse.dir", "file:/Users/zhangjingyu/Desktop/Spark架構/spark-warehouse")
                .getOrCreate();
        String Path = "file:/Users/zhangjingyu/Desktop/spark-2.4.0/examples/src/main/resources/people.txt";


        //建立列屬性
        List<StructField> fields = new ArrayList<>();
        StructField structField_name = DataTypes.createStructField("name", DataTypes.StringType, true);
        StructField structField_age = DataTypes.createStructField("age", DataTypes.LongType, true);
        fields.add(structField_name);
        fields.add(structField_age);
        StructType scheme = DataTypes.createStructType(fields);


        JavaRDD PersonRdd = spark.read().textFile(Path).javaRDD().map(x -> {
            String[] lines = x.split(",");
            return RowFactory.create(lines[0], Long.valueOf(lines[1].trim()));
        });


        Dataset<Row> PersonDF = spark.createDataFrame(PersonRdd, scheme);
        PersonDF.createOrReplaceTempView("program");
        Dataset<Row> ResultDF = spark.sql("select * from program ");
        ResultDF.show();


        for (Row row : ResultDF.javaRDD().collect()) {
            System.out.println(row);
        }
    }
}


//Scala


import org.apache.spark.sql.Row
import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType}


object rddtoDFprogrammScala {
  def main(args: Array[String]): Unit = {
    val spark = CommSparkSessionScala.getSparkSession()
    val path = "file:/Users/zhangjingyu/Desktop/spark-2.4.0/examples/src/main/resources/people.txt"
    val scheme = StructType(Array(
      StructField("name",StringType,true),
      StructField("age",LongType,true)
    ))
    val rdd = spark.sparkContext.textFile(path).map(line => line.split(",")).map(x => {
      Row(x(0),x(1).trim.toLong)
    })
    val PersonDF = spark.createDataFrame(rdd,scheme)
    PersonDF.createOrReplaceTempView("person")
    val resultDF = spark.sql("select * from person a where a.age < 30")
    for (elem <- resultDF.collect()) {
      System.out.println(elem.get(0)+":"+elem.get(1))
    }
  }
}

原創作者：張景宇

Spark SQL之RDD轉換DataFrame的方法

RDD轉換DataFrame之Reflection方法第一種方式是使用反射的方式，用反射去推倒出來RDD裡面的schema。這個方式簡單，但是不建議使用，因為在工作當中，使用這種方式是有限制的。

Spark SQL 之 RDD、DataFrame 和 Dataset 如何選擇

引言 Apache Spark 2.2 以及以上版本提供的三種 API - RDD、DataFrame 和 Dataset，它們都可以實現很多相同的資料處理，它們之間的效能差異如何，在什麼情況下該選用哪一種呢？

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

一、Spark SQL簡介 Spark SQL 是 Spark 中的一個子模組，主要用於操作結構化資料。它具有以下特點：

Spark 系列（九）—— Spark SQL 之 Structured API

一、建立DataFrame和Dataset 1.1 建立DataFrame Spark 中所有功能的入口點是 SparkSession，可以使用 SparkSession.builder() 建立。建立後應用程式就可以從現有 RDD，Hive 表或 Spark 資料來源建立 DataFrame。示例

SQL之行列轉換

技術標籤：資料庫面試必備sql資料庫部門表 Department： ±--------------±--------+ | Column Name | Type | ±--------------±--------+ | id | int | | revenue | int | | month

Spark Sql之pathGlobFilter 和recursiveFileLookup 選項關於分割槽的一點猜想和驗證

起因：學習Spark Sql時，在官方文件看到兩個有意思的選項pathGlobFilter和recursiveFileLookup。

spark sql原理及使用基本使用mysql hive rdd轉為dataframe

技術標籤：sparksqlsparkspark 一、spark SQL概述 1.1 什麼是spark SQL Spark SQL是Spark用來處理結構化資料的一個模組，它提供了一個程式設計抽象叫做DataFrame並且作為分散式SQL查詢引擎的作用。類似於hive

DStream、RDD、DataFrame 的相互轉換、spark 比 MapReduce 快的原因

DStream、RDD、DataFrame 的相互轉換、spark 比 MapReduce 快的原因目錄 DStream、RDD、DataFrame 的相互轉換

spark rdd轉dataframe 寫入mysql的例項講解

dataframe是在spark1.3.0中推出的新的api，這讓spark具備了處理大規模結構化資料的能力，在比原有的RDD轉化方式易用的前提下，據說計算效能更還快了兩倍。spark在離線批處理或者實時計算中都可以將rdd轉成dataframe進

Spark SQL 入門建立DataFrame報錯：org.apache.spark.sql.AnalysisException: Path does not exist: hdfs://local

Spark SQL 入門建立DataFrame 執行以下語句時 val df = spark.read.json(\"../examples/src/main/resources/people.json\")

sql server通過pivot對資料進行行列轉換的方法

指令碼： /* 說明：sql server如何通過pivot對資料進行行列轉換 */ create table #t ( [員工工號] nvarchar(50),[員工姓名] nvarchar(50),[月份] nvarchar(50),[工資] int

DataFrame DataSet Spark SQL學習

RDD加上結構，比如說類名，就可以變成DataFrame,DataFrame，將每一類同這一類的類名繫結在一起就可以稱為DataSet.

Spark SQL : DataFrame repartition、coalesce 對比

repartition repartition 有三個過載的函式： 1) def repartition(numPartitions: Int): DataFrame /**

Spark SQL(5-2) CacheManage之InMemoryRelation

Spark SQL(5-2) CacheManage之InMemoryRelation 本來計劃中是沒有這節的，但是中午在看spark sql 記憶體管理模組的時候，腦子裡面突然問到，spark sql 快取到記憶體的資料是怎麼組織的；上網查了下部落格；然後自己也

spark sql練習之join操作

資料集如下：有兩個json檔案，table1.json和table2.json table1.json {\"A\":\"A1\", \"B\":30, \"C\":1}

大資料學習（26）—— Spark之RDD

做大資料一定要有一個概念，需要處理的資料量非常大，少則幾十T，多則上百P，全部放記憶體是不可能的，會OOM，必須要用迭代器一條一條處理。

SPARK-SQL內建函式之時間日期類

轉載請註明轉自：http://www.cnblogs.com/feiyumo/p/8760846.html 一、獲取當前時間 1.current_date獲取當前日期

大資料開發之Spark SQL/Hive實用函式分享

字串函式1. concat 對字串進行拼接：concat(str1, str2, ..., strN) ，引數：str1、str2...是要進行拼接的字串。

大資料開發之Spark SQL執行效能的提升

Catalyst是Spark SQL核心優化器，早期主要基於規則的優化器RBO，後期又引入基於代價進行優化的CBO。但是在這些版本中，Spark SQL執行計劃一旦確定就不會改變。由於缺乏或者不準確的資料統計資訊（如行數、不同值的數

【Spark】Day03：Spark SQL：DataFrame、DataSet、sql操作、專案實戰（區域熱門商品）

一、概述 1、介紹將Spark SQL轉換成RDD，然後提交到叢集執行，執行效率非常快提供了2個程式設計抽象，類似Spark Core中的RDD：DataFrame&DataSet

Spark SQL之RDD轉換DataFrame的方法

相關推薦