Spark SQL如何實現mysql的union操作

阿新 • • 發佈：2018-12-05

簡介

今天聊了聊一個小小的基礎題，union和union all的區別：

union all是直接連線，取到得是所有值，記錄可能有重複
union 是取唯一值，記錄沒有重複
1、UNION 的語法如下：

[SQL 語句 1]
      UNION
[SQL 語句 2]

2、UNION ALL 的語法如下：

[SQL 語句 1]
      UNION ALL
[SQL 語句 2]

對比總結：

UNION和UNION ALL關鍵字都是將兩個結果集合併為一個，但這兩者從使用和效率上來說都有所不同。

1、對重複結果的處理：UNION在進行錶鏈接後會篩選掉重複的記錄，Union All不會去除重複記錄。

2、對排序的處理：Union將會按照欄位的順序進行排序；UNION ALL只是簡單的將兩個結果合併後就返回。

從效率上說，UNION ALL 要比UNION快很多，所以，如果可以確認合併的兩個結果集中不包含重複資料且不需要排序時的話，那麼就使用UNION ALL。

Spark SQL

實際上Spark SQL的DataSet的API是沒有union all操作的，只有union操作，而且其union操作就是union all操作。

此時要實現union操作，需要在union之後加上distinct操作。

sales.union(sales).show()

輸出結果是有重複資料的

640?wx_fmt=png

需要將操作更改為：

sales.union(sales).distinct().show()

推薦閱讀：

Spark SQL的幾個里程碑！

Table API&SQL的基本概念及使用介紹

Spark SQL用UDF實現按列特徵重分割槽

640?wx_fmt=png

二、spark SQL互動scala操作示例

一、安裝spark spark SQL是spark的一個功能模組，所以我們事先要安裝配置spark，參考： https://www.cnblogs.com/lay2017/p/10006935.html 二、資料準備演示操作將從一個類似json檔案裡面讀取資料作為資料來源，並初始化為dat

第68課：Spark SQL通過JDBC操作MySQL

內容： 1.SparkSQL操作關係資料庫意義 2.SparkSQL操作關係資料庫一、通過SparkSQL操作關係資料庫意義 1.SparkSQL可以通過jdbc從傳統關係型資料庫中讀寫資料，讀取資料後直接生成DataFrame，然後在加上藉助

Spark Core 和 Spark SQL 實現分組取Top N(基於scala)

分組取Top N在日常需求中很多見：每個班級分數前三名同學的名字以及分數各省指標數量前三的市的名字等等需求，主要思想就是在某一個分割槽（班級，省）中取出該分割槽Top N的資料測試資料格式：如上圖，欄位含義為，班級，學生姓名，分數下面我們通過一

Spark-SQL之DataFrame操作大全

　　Spark SQL中的DataFrame類似於一張關係型資料表。在關係型資料庫中對單表或進行的查詢操作，在DataFrame中都可以通過呼叫其API介面來實現。可以參考，Scala提供的DataFrame AP

Spark SQL如何實現mysql的union操作

簡介今天聊了聊一個小小的基礎題，union和union all的區別： union all是直接連線，取到得是所有值，記錄可能有重複 union 是取唯一值，記錄沒有重複 1、UNION 的語法如下： [SQL 語句 1] &nb

Spark SQL系列------2. Spark SQL Aggregate操作的實現

在Spark 1.6上，TungstenAggregateIterator實現了一個分割槽的Iterator。在實際執行的時候分2中情況： 1.要Aggregate的分割槽資料並不是特別大，在記憶體中就可以實現Aggregate了 2.要Aggregate的分割槽資料比較

Spark SQL 源代碼分析之Physical Plan 到 RDD的詳細實現

local 過濾右連接操作 images img mem sans 觀察 /** Spark SQL源代碼分析系列文章*/ 接上一篇文章Spark SQL Catalyst源代碼分析之Physical Plan。本文將介紹Physical Plan的toRDD的

Spark SQL 之 Join 實現

結構很多找到過濾 sql查詢優化 ade read 轉換成分析原文地址：Spark SQL 之 Join 實現 Spark SQL 之 Join 實現塗小剛 2017-07-19 217標簽： spark ，數據庫 Join作為SQL中

Spark SQL中Dataframe join操作含null值的列

dataframe util pre table log n-n dram blog between 當在Spark SQL中對兩個Dataframe使用join時，當作為連接的字段的值含有null值。由於null表示的含義是未知，既不知道有沒有，在SQL中null值與任何

Spark SQL筆記整理（二）：DataFrame編程模型與操作案例

代碼最重要的 ssi func nbu 產生 michael array image DataFrame原理與解析 Spark SQL和DataFrame 1、Spark SQL是Spark中的一個模塊，主要用於進行結構化數據的處理。它提供的最核心的編程抽象，就是Data

Spark SQL join的三種實現方式

引言 join是SQL中的常用操作，良好的表結構能夠將資料分散到不同的表中，使其符合某種規範(mysql三大正規化)，可以最大程度的減少資料冗餘，更新容錯等，而建立表和表之間關係的最佳方式就是join操作。對於Spark來說有3種Join的實現，每種Join對應的不同的應用場景(SparkSQL自動決策

Spring Boot學習筆記之使用Spring Boots實現資料庫操作（IntelliJ IDEA+navicat for Sql Server）

這裡使用Spring Boot實現了一個簡單的專案，能夠實現簡單的資料庫操作，工具使用的是IntelliJ IDEA2017.3，資料庫工具使用的是navicat for Sql Server，語言使用的Java。 1.新建一個空的Maven專案 2.匯入需要的jar包 pom.xml:

Spark SQL用UDF實現按列特徵重分割槽

歡迎關注，浪尖公眾號，bigdatatip，建議置頂。這兩天，球友又問了我一個比較有意思的問題: 解決問題之前，要先了解一下Spark 原理，要想進行相同資料歸類到相同分割槽，肯定要有產生shuffle步驟。比如，F到G這個shuffle過程，那麼如何決定資料

Java實現Druid對SQL的格式化操作

/** * 格式化SQL操作 * @param sql * @return */ public String sqlFormat(String sql){ // 查詢的SQL以及對應的SQL型別 String res

如何編寫一條SQL實現根據某個欄位的條件對某個欄位進行不同的update操作

例如：有一個user_notice表，裡面有一個count欄位，是代表當前使用者有多少條需要閱讀的訊息的，閱讀完畢以後，會更新改欄位，統一減去1或者指定的數值（例如全部置為已讀），因此如果count欄位的數值小於閱讀的數量，會出現負數的情況，可以這樣寫SQL語句避免：例如要減去的數量是6：

KNN在MR和Spark下實現的IO操作比較

MapReduce中KNN執行過程I/O操作分析：實現流程： KNN在MapReduce中的實現，認為訓練集大小遠大於測試集大小。所以測試集快取在記憶體中。 Map任務輸入是一個訓練集檔案的分片（子集），測試集中的每一個樣例與訓練集分片中的所有樣例計算距離，輸出<測試樣例，（與

Spark SQL基本操作以及函式的使用

引語：本篇部落格主要介紹了Spark SQL中的filter過濾資料、去重、集合等基本操作，以及一些常用日期函式，隨機函式，字串操作等函式的使用，並列編寫了示例程式碼，同時還給出了程式碼當中用到的一些資料，放在最文章最後。 SparkSQL簡介 Spark SQL是Sp

jdbc_012_使用jdbc操作實現登入操作並且演示SQL注入攻擊

一、建庫及表語句(簡單測試) drop database db_test; create database db_test; use db_test; create table user( userId int(5) primary key comment '使用者id',

######業務儘可能用sql實現(縮短後臺響應時間)：最近都在優化之前的程式碼：發現每個模組的index頁都需要優化(很多都在迴圈裡操作資料庫：菜！初級！)

###最近都在優化之前的程式碼：發現每個模組的index頁都需要優化(很多都再迴圈裡操作資料庫：菜！初級！或者說趕專案沒想優化這回事吧) ===》解耦合前提下，能用一條SQL解決的，多測試寫SQL。可以減少很多程式碼。希望我在疲憊，腦子不好使時候也能堅持吧。（注意休

Spark sql操作Hive

這裡說的是最簡便的方法，通過Spark sql直接操作hive。前提是hive-site.xml等配置檔案已經在Spark叢集配置好。 val logger = LoggerFactory.getLogger(SevsSpark4.getClass) def main(args:

Spark SQL如何實現mysql的union操作

相關推薦