Spark中常見join操作

阿新 • • 發佈：2019-02-15

spark中的連線操作

（1）join

如果熟悉sql的同學應該很熟悉join，這裡的join和sql中的inner join操作很相似，返回結果是前面一個集合和後面一個集合中匹配成功的，過濾掉關聯不上的。

def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))]

Return an RDD containing all pairs of elements with matching keys in this and other. Each pair of elements will be returned as a (k, (v1, v2)) tuple, where (k, v1) is 
 in this and (k, v2) is in other. Performs a hash join across the cluster.

具體實際操作如下：

    val a =sc.parallelize(Array(("1",4.0),("2",8.0),("3",9.0)))
    val b=sc.parallelize(Array(("1",2.0),("2",8.0)))

    val c=a.join(b)
    c.foreach(println)

     //列印結果出來如下：
     //(2,(8.0,8.0))
     //(1,(4.0,2.0))
     //這裡返回的結果很顯然是3匹配不到過濾掉，合併匹配到。

（2）leftOuterJoin

leftOuterJoin類似於SQL中的左外關聯left outer join，返回結果以第一個RDD為主，關聯不上的記錄為空。

def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]
Perform a left outer join of this and other. For each element (k, v) in this, the resulting RDD will either contain all pairs (k, (v, Some(w))) for 
 w in other, or the pair (k, (v, None)) if no elements in other have key k. Hash-partitions the output using the existing partitioner/parallelism level.

具體實際操作如下：

    val a =sc.parallelize(Array(("1",4.0),("2",8.0),("3",9.0)))
    val b=sc.parallelize(Array(("1",2.0),("2",8.0)))

    val c=a.leftOuterJoin(b)
    c.foreach(println)

    //列印結果出來如下：
    //(2,(8.0,Some(8.0)))
    //(3,(9.0,None))
    //(1,(4.0,Some(2.0)))

（3）rightOuterJoin

rightOuterJoin類似於SQL中的有外關聯right outer join，返回結果以引數也就是第二個RDD為主，關聯不上的記錄為空

def rightOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (Option[V], W))]
Perform a right outer join of this and other. For each element (k, w) in other, the resulting RDD will either contain all pairs (k, (Some(v), w)) for v in this, or the pair (k, (None, w)) if no elements in this have key k. Hash-partitions the resulting RDD using the existing partitioner/parallelism level.

具體實際操作如下：

    val a =sc.parallelize(Array(("1",4.0),("2",8.0),("3",9.0)))
    val b=sc.parallelize(Array(("1",2.0),("2",8.0)))

    val c=a.rightOuterJoin(b)

    c.foreach(println)

    //列印結果出來如下：
    //(2,(Some(8.0),8.0))
    //(1,(Some(4.0),2.0))

Spark中常見join操作

spark中的連線操作（1）join 如果熟悉sql的同學應該很熟悉join，這裡的join和sql中的inner join操作很相似，返回結果是前面一個集合和後面一個集合中匹配成功的，過濾掉關聯不上的。 def join[W](other: RDD

Spark SQL中Dataframe join操作含null值的列

dataframe util pre table log n-n dram blog between 當在Spark SQL中對兩個Dataframe使用join時，當作為連接的字段的值含有null值。由於null表示的含義是未知，既不知道有沒有，在SQL中null值與任何

Spark中的Join型別

常規連線：左半連線：左半連線結果集：僅僅保留右邊表中的行，這些行的joinkey出現在右邊表中！！！（類似於leftTable.joinKey in (rightTable.joinKeys)）.這種join是會出重的，當左邊表join到一個之後便返回不在繼續join。

spark中各種連線操作以及實用方法

val a = sc.parallelize(Array(("123",4.0),("456",9.0),("789",9.0)) val b = sc.parallelize(Array(("123",8.0),("789",10))) val c = a.join

Hive中的join操作

在做sql 操作的時候多表join 在所難免，下面主要介紹一下hive 中做join LEFT JOIN，RIGHT JOIN， FULL OUTER JOIN ,inner join, left semi join 準備資料 1,a 2,b 3,c 4,d 7,y 8,u 2,b

Hive 中各種Join 操作及例項

目錄：資料建表操作正文： 1、資料 a: +-------+---------+--+ | a.id | a.name | +-------+---------+--+ | 1 | a &

如何避免spark dataframe的JOIN操作之後產生重複列（Reference '***' is ambiguous問題解決）

spark datafrme提供了強大的JOIN操作。但是在操作的時候，經常發現會碰到重複列的問題。如下：如分別建立兩個DF，其結果如下： val df = sc.parallelize(Array( ("one", "A", 1), ("one", "B

Hadoop 學習研究(五): hadoop中的join操作

Hadoop中的Join操作：考慮如下問題：假設有兩個資料集：一個是城市名稱編號，一個是日期和產出，考慮如何將這兩個不同的資料集合二為一。或者有如下需求：獲取某個城市在指定年份的產出等等問題。需

Spark中Actionn運算元操作（三）

Spark運算元大致上可分為三大類運算元： Value資料型別的Transformation運算元，這種變換不觸發提交作業，針對處理的資料項是Value型的資料。 Key-Value資料型別的Transformation運算元，這種變換不觸發提交作業，針對處理的資

java中常見字串操作函式

java中有很多對字串進行操作的常見方法總結起來方便記憶獲取字串長度 length（）字串查詢

spark中join的簡單操作

（1）RDD之間的join import org.apache.spark.sql.SparkSession object joinDemo { //BroadcastHashJoin def main(args: Array[String]): Unit = { val

MySQL left join操作中 on與where放置條件的區別

合成可見找到需要兩張 oca aaa rip 多個優先級兩者放置相同條件，之所以可能會導致結果集不同，就是因為優先級。on的優先級是高於where的。 1 1 首先明確兩個概念： LEFT JOIN 關鍵字會從左表 (table_name1) 那裏返回

JAVA中關於日期的最常見的操作

before 基於 form edate str ack system mes 格式 //獲取當前系統的時間戳 long times = System.currentTimeMillis(); //創建一個當前日期對象 Da

spark中的scalaAPI之RDDAPI常用操作

appname 轉換成了 size pre esc atm rgs new package com.XXX import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf,

JS中常見原生DOM操作API

幾種物件 Node Node是一個介面，中文叫節點，很多型別的DOM元素都是繼承於它，都共享著相同的基本屬性和方法。常見的Node有 element，text，attribute，comment，document 等（所以要注意節點和元素的區別，元素屬於節點的一種

常見位操作及運算應用舉例:1,C語言中位運算子異或“∧”的作用2,異或運算的作用3,&（與運算）、|（或運算）、^（異或運算）

1 C語言中位運算子異或“∧”的作用: 異或運算子∧也稱XOR運算子。它的規則是若參加運算的兩個二進位同號，則結果為0（假）；異號則為1（真）。即0∧0＝0，0∧1＝1，1∧1＝0。如：　即071∧052，結果為023（八進位制數）。 “異或”的意思是判斷兩個相應的位值是否為“

跟我一起學Spark之——RDD Join中寬依賴與窄依賴的判斷

1.規律　　　如果JoinAPI之前被呼叫的RDD API是寬依賴(存在shuffle), 而且兩個join的RDD的分割槽數量一致，join結果的rdd分割槽數量也一樣，這個時候join api是窄依賴　　除此之外的，rdd 的join api是寬依賴 2.Join的理解　

安卓開發筆記（五）——資料儲存SharedPreference以及Android中常見的檔案操作方法

中山大學資料科學與計算機學院本科生實驗報告（2018年秋季學期）一、實驗題目個人專案3 資料儲存（一）應用開發二、實現內容第九周任務實驗目的學習SharedPreference的基本使用。學習Android中

JS中常見原生DOM操作API【總結整理】

Node Node是一個介面，中文叫節點，很多型別的DOM元素都是繼承於它，都共享著相同的基本屬性和方法。常見的Node有 element，text，attribute，comment，document 等（所以要注意節點和元素的區別，元素屬於節點的一種）。 Node有一個屬性 node

面試中常見的陣列的操作:遍歷,最值,反轉,氣泡排序,二分查詢(附程式碼)

陣列：儲存同一種資料型別的多個元素的容器；陣列中的索引從0開始，最大編號是陣列的長度-1（減1）；下面給大家列出陣列常見的幾種操作： A 遍歷 /** * 遍歷 */ public static void printArray(int

Spark中常見join操作

相關推薦