spark中join的簡單操作

阿新 • • 發佈：2018-11-12

（1）RDD之間的join

import org.apache.spark.sql.SparkSession

object joinDemo {

  //BroadcastHashJoin
  def main(args: Array[String]): Unit = {
    val sparkSession = SparkSession.builder().appName("joinDemo").master("local[*]").getOrCreate()

    import sparkSession.implicits._

    val lines =sparkSession.createDataset(Array("1,hanmeimei,China","2,tom,USA","3,Jerry,apan"))
    //資料整理
    val tupleDS = lines.map(line=>{
      val field=line.split(",")
      val id = field(0).toLong
      val name = field(1)
      val country = field(2)
      (id,name,country)
    })

    val df1=tupleDS.toDF("id","name","country")

    val countrys = sparkSession.createDataset(List("China,中國","USA,美國"))
    val tupleDS2 =countrys.map(line=>{
      val fields = line.split(",")
      val ename = fields(0)
      val cname = fields(1)
      (ename,cname)
    })
    val df2 = tupleDS2.toDF("ename","cname")
    //建立一個檢視
    df1.createTempView("t_user")
    df2.createTempView("t_countrys")
    //join操作
    val res = sparkSession.sql("select u.id,u.name,c.cname from t_user as u join t_countrys as c on country=ename")
     res.show()

    //檢視執行計劃
    res.explain()

    sparkSession.stop()
  }

}

（2）DataFrame之間的join

import org.apache.spark.sql.{DataFrame, SparkSession}
object joinDemo2 {
  def main(args: Array[String]): Unit = {
    val sparkSession = SparkSession.builder().appName("joinDemo").master("local[*]").getOrCreate()

    import sparkSession.implicits._
    //對錶的大小不限制，預設10M
    sparkSession.conf.set("spark.sql.autoBroadcastJoinThreshold",-1)
    sparkSession.conf.set("spark.sql.join.preferSortMergeJoin",true)

    val df1: DataFrame =Seq(
      (0,"tom"),
      (1,"jeryy"),
      (2,"kate")
    ).toDF("id","name")
    
    val df2=Seq(
      (0,18),
      (1,20),
      (3,30)
    ).toDF("aid","age")

    df2.repartition()
    val res = df1.join(df2,$"id"===$"aid")
    res.explain()
    res.show()
  }
}

spark中join的簡單操作

（1）RDD之間的join import org.apache.spark.sql.SparkSession object joinDemo { //BroadcastHashJoin def main(args: Array[String]): Unit = { val

Hbase中 shell簡單操作

由於Hbase是NoSql資料庫，裡面不僅僅是SQL，操作命令會有不同，經常使用Mysql資料庫的同學請注意首先啟動Hbase的程序服務: [[email protected] hbase-2.1.0]$ bin/start-hbase.sh 然後啟動使用s

spark中各種連線操作以及實用方法

val a = sc.parallelize(Array(("123",4.0),("456",9.0),("789",9.0)) val b = sc.parallelize(Array(("123",8.0),("789",10))) val c = a.join

【MongoDB學習-在.NET中的簡單操作】

using MongoDB.Driver; using System; namespace DAL { public class MongoDb { public MongoDb(string host,string timeOut) { this.CONNE

Spark中Actionn運算元操作（三）

Spark運算元大致上可分為三大類運算元： Value資料型別的Transformation運算元，這種變換不觸發提交作業，針對處理的資料項是Value型的資料。 Key-Value資料型別的Transformation運算元，這種變換不觸發提交作業，針對處理的資

Spark -- RDD簡單操作【統計文字中單行最大單詞數】

一、什麼是RDD ？ RDD在Spark【Scala語言】中，是一種資料結構【基於記憶體，可持久化】，就好比Java的ArrayList一樣，可以進行各種的Action操作，比如Java中的List集合，可以進行get【獲取元素】、add【增加元

Spark中常見join操作

spark中的連線操作（1）join 如果熟悉sql的同學應該很熟悉join，這裡的join和sql中的inner join操作很相似，返回結果是前面一個集合和後面一個集合中匹配成功的，過濾掉關聯不上的。 def join[W](other: RDD

spark中的scalaAPI之RDDAPI常用操作

appname 轉換成了 size pre esc atm rgs new package com.XXX import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf,

java中對於redis的簡單操作

java info img png .com 圖片 jar包 9.png com 添加redis的jar包 java中對於redis的簡單操作

Linux中的定時任務簡單操作例項

今天,我懷著一顆感恩的心,寫了一個小小的定時任務,細想還是寫個簡單的例子吧,希望能幫到你! 首先我在/usr/local/資料夾下建立了一個檔案,hah.sh檔案在hah.sh裡面編寫shell指令碼看看,此時我已經再搞事情了然後吶,咱們先學個知識點

【python學習筆記】39：認識SQLAlchemy,簡單操作Pandas中的DataFrame

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。認識SQLAlchemy SQLAlchemy是Python的ORM工具，就像Java有Hibernate一樣，實現關係型資料庫中的記錄與Python自定義Class的物件的轉化，實現操作之間的對映。

spark之join操作

import java.util.Arrays; import java.util.Iterator; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.a

spark運算元join操作

一旦分散式資料集（distData）被建立好，它們將可以被並行操作。例如，我們可以呼叫distData.reduce(lambda a, b: a + b)來將陣列的元素相加。我們會在後續的分散式資料集運算中進一步描述。並行集合的一個重要引數是slices，表示資料集切分的份數。Spark將會在叢

簡單操作sklearn中內建資料

import matplotlib from sklearn.model_selection import train_test_split from sklearn import datasets dig=datasets.load_digits()#讀入sklearn內建資料 print(

Spark中直接操作HDFS

Spark作為一個基於記憶體的大資料計算框架，可以和hadoop生態的資源排程器和分散式檔案儲存系統無縫融合。Spark可以直接操作儲存在HDFS上面的資料：通過Hadoop方式操作已經存在的檔案目錄 val path = new org.apache.hadoop.fs.Path("hdfs

零基礎入門大資料之spark中的幾種key-value操作

今天記錄一下spark裡面的一些key-value對的相關運算元。 key-value對可以簡單理解為是一種認為構造的資料結構方式，比如一個字串"hello"，單看"hello"的話，它是一個字串型別，現在假設我想把它在一個文字中出現的次數n作為一個值和"hello"一起操作，那麼可

spark-2.4.0-hadoop2.7-簡單操作

1. 說明本文基於：spark-2.4.0-hadoop2.7-高可用(HA)安裝部署 2. 啟動Spark Shell 　　在任意一臺有spark的機器上執行 1 # --master spark://mini02:7077 連線spark

mongodb 中的 map reduce 的快速入門例子，簡單操作和理解。

先看下mongodb官方給出的例子的圖。個人理解的解釋：這個圖，有四列資料。第一列：原始資料。通常對應的mongodb裡面的一個表collection。第二列：經過某些條件過濾過的資料，這個圖裡面就是按{"status":"A"}過濾資料。這個過濾的條件對應上面程式

Java中的簡單數字操作

package com.java.exp09; import java.math.BigDecimal; import java.text.DecimalFormat; import com.sun.javafx.geom.Area; import jdk

關於Redis叢集中配置主從複製的簡單操作

一、Redis 提供了Master/Slave架構機制，這樣大大提高了Redis的容災能力，假如某臺Redis伺服器由於網路或者主機的原因導致宕機，Redis就不能正常提供服務了，通過主從複製就可以是先多個從伺服器擁有和主伺服器一樣的資料，這樣就能保證資料的完整性，並且

spark中join的簡單操作

相關推薦