Spark SQL : DataFrame repartition、coalesce 對比

阿新 • • 發佈：2020-07-08

repartition

repartition 有三個過載的函式：

1) def repartition(numPartitions: Int): DataFrame

/**
   * Returns a new [[DataFrame]] that has exactly `numPartitions` partitions.
   * @group dfops
   * @since 1.3.0
   */
  def repartition(numPartitions: Int): DataFrame = withPlan {
    Repartition(numPartitions, shuffle  
= true, logicalPlan)
  }

此方法返回一個新的[[DataFrame]]，該[[DataFrame]]具有確切的 'numpartition' 分割槽

2)defrepartition(partitionExprs: Column*): DataFrame

  @scala.annotation.varargs
  def repartition(partitionExprs: Column*): DataFrame = withPlan {
    RepartitionByExpression(partitionExprs.map(_.expr), logicalPlan, numPartitions  
= None)
  }

此方法返回一個新的[[DataFrame]]分割槽，它由保留現有分割槽數量的給定分割槽表示式劃分,分割槽數量由 spark.sql.shuffle.partition 決定。得到的DataFrame是雜湊分割槽的。

這與SQL (Hive QL)中的“distribution BY”操作相同。

3)def repartition(numPartitions: Int, partitionExprs: Column*): DataFrame

@scala.annotation.varargs
  def repartition(numPartitions: Int, partitionExprs: Column 
*): DataFrame = withPlan {
    RepartitionByExpression(partitionExprs.map(_.expr), logicalPlan, Some(numPartitions))
  }

此方法返回一個新的[[DataFrame]]，由給定的分割槽表示式劃分為 'numpartition' 。得到的DataFrame是雜湊分割槽的。

這與SQL (Hive QL)中的“distribution BY”操作相同。

coalesce

1)coalesce(numPartitions: Int): DataFrame

  def coalesce(numPartitions: Int): DataFrame = withPlan {
    Repartition(numPartitions, shuffle = false, logicalPlan)
  }

返回一個新的[[DataFrame]]，該[[DataFrame]]具有確切的 'numpartition' 分割槽。類似於在[[RDD]]上定義的coalesce，這種操作會導致一個狹窄的依賴關係，例如：

如果從1000個分割槽到100個分割槽，就不會出現shuffle，而是100個新分割槽中的每一個都會宣告10個當前分割槽。

反過來從100個分割槽到1000個分割槽，將會出現shuffle。

Spark SQL : DataFrame repartition、coalesce 對比

repartition repartition 有三個過載的函式： 1) def repartition(numPartitions: Int): DataFrame /**

Spark SQL 之 RDD、DataFrame 和 Dataset 如何選擇

引言 Apache Spark 2.2 以及以上版本提供的三種 API - RDD、DataFrame 和 Dataset，它們都可以實現很多相同的資料處理，它們之間的效能差異如何，在什麼情況下該選用哪一種呢？

檢視 spark-sql 的 SQL語法樹、spark-sql 的優化、整合 hive 之後通過程式碼操作

檢視 spark-sql 的 SQL語法樹、spark-sql 的優化、整合 hive 之後通過程式碼操作目錄

【Spark】Day03：Spark SQL：DataFrame、DataSet、sql操作、專案實戰（區域熱門商品）

一、概述 1、介紹將Spark SQL轉換成RDD，然後提交到叢集執行，執行效率非常快提供了2個程式設計抽象，類似Spark Core中的RDD：DataFrame&DataSet

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

一、Spark SQL簡介 Spark SQL 是 Spark 中的一個子模組，主要用於操作結構化資料。它具有以下特點：

Spark SQL 入門建立DataFrame報錯：org.apache.spark.sql.AnalysisException: Path does not exist: hdfs://local

Spark SQL 入門建立DataFrame 執行以下語句時 val df = spark.read.json(\"../examples/src/main/resources/people.json\")

DataFrame DataSet Spark SQL學習

RDD加上結構，比如說類名，就可以變成DataFrame,DataFrame，將每一類同這一類的類名繫結在一起就可以稱為DataSet.

spark sql原理及使用基本使用mysql hive rdd轉為dataframe

技術標籤：sparksqlsparkspark 一、spark SQL概述 1.1 什麼是spark SQL Spark SQL是Spark用來處理結構化資料的一個模組，它提供了一個程式設計抽象叫做DataFrame並且作為分散式SQL查詢引擎的作用。類似於hive

Spark SQL之RDD轉換DataFrame的方法

RDD轉換DataFrame之Reflection方法第一種方式是使用反射的方式，用反射去推倒出來RDD裡面的schema。這個方式簡單，但是不建議使用，因為在工作當中，使用這種方式是有限制的。

Presto、Spark SQL、Hive的比較

一、Presto Presto是Facebook開源的，完全基於記憶體的並⾏計算，分散式SQL互動式查詢引擎是它被設計用來專門處理高速，實時的資料分析。Presto本身不儲存資料，但是可以接入多種資料來源，並且支援跨資料來源的級

spark dataframe和spark sql

三、掌握對spark dataframe和spark sql的認識和使用（包括建立、各種常用操作，具體到程式碼的編寫使用）；

7、Spark SQL

1.請分析SparkSQL出現的原因，並簡述SparkSQL的起源與發展。 spark產生：為了替代Mapreduce，解決Mapreduce計算短板

MySQL、SQL Server、Oracle對比，你必須瞭解的三大資料庫區別

MySQL、SQL Server、Oracle對比，你必須瞭解的三大資料庫區別文章來源：51ctoIT小菠蘿

位元組跳動在Spark SQL上的核心優化實踐 | 位元組跳動技術沙龍

10月26日，位元組跳動技術沙龍 | 大資料架構專場在上海位元組跳動總部圓滿結束。我們邀請到位元組跳動資料倉庫架構負責人-郭俊，Kyligence 大資料研發工程師-陶加濤，位元組跳動儲存工程師-徐明敏，阿里雲高階技術

Spark 系列（九）—— Spark SQL 之 Structured API

一、建立DataFrame和Dataset 1.1 建立DataFrame Spark 中所有功能的入口點是 SparkSession，可以使用 SparkSession.builder() 建立。建立後應用程式就可以從現有 RDD，Hive 表或 Spark 資料來源建立 DataFrame。示例