第67課：Spark SQL下采用Java和Scala實現Join的案例綜合實戰（鞏固前面學習的Spark SQL知識）

阿新 • • 發佈：2018-12-20

內容：

1.SparkSQL案例分析 2.SparkSQL下采用Java和Scala實現案例

一、SparkSQL下采用Java和Scala實現案例

學生成績：

{"name":"Michael","score":98}
{"name":"Andy", "score":95}
{"name":"Justin", "score":91}

1.Spark SQL下采用Java實現Join的案例


package SparkSQL;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import scala.Tuple2;

import java.util.ArrayList;
import java.util.List;


/**
 * FileName: SparkSQLWithJoin
 * Author:   hadoop
 * Email:     
[email protected]
 * Date:     18-11-8 上午10:48
 * Description:
 */

public class SparkSQLWithJoin {
    public static void main(String[] args){
        //建立SparkConf用於讀取系統資訊並設定運用程式的名稱
        SparkConf conf = new SparkConf().setAppName("SparkSQLWithJoin").setMaster("local");
        //建立JavaSparkContext物件例項作為整個Driver的核心基石
        JavaSparkContext sc = new JavaSparkContext(conf);
        //設定輸出log的等級
        sc.setLogLevel("ERROR");
        //建立SQLContext上下文物件，用於SqL的分析
        SQLContext sqlContext = new SQLContext(sc);
        //建立dataFrame，可以簡單的認為DataFrame是一張表
        Dataset peopleDS = sqlContext.read().json("file:///home/hadoop/people.json");
        //基於JSON構建的DataFrame來註冊的臨時表
        peopleDS.registerTempTable("peopleScore");
        //查詢出分數大於90的人
        Dataset excellentScore = sqlContext.sql("select name ,score from peopleScore where score >= 90");

        /**
         * 在Dataframe的基礎上轉化為RDD,通過map操作計算出分數大於90的所有姓名
         */
        List<String> excellentScoreNameList = excellentScore.javaRDD().map(new Function<Row ,String>() {

            @Override
            public String call(Row row) throws Exception {
                return row.getAs("name");
            }
        }).collect();
        //動態組拼出JSON
        List<String> peopleInformations = new ArrayList<String>();
        peopleInformations.add("{\"name\":\"Michael\",\"age\":20}");
        peopleInformations.add("{\"name\":\"Andy\", \"age\":30}");
        peopleInformations.add("{\"name\":\"Justin\", \"age\":19}");
        //通過內容為JSON的rdd來構造dataframe
        JavaRDD<String> peopleInformationRDD = sc.parallelize(peopleInformations);
        Dataset peopleInformationDS = sqlContext.read().json(peopleInformationRDD);
        //註冊為臨時表
        peopleInformationDS.registerTempTable("peopleInformations");
        //查詢成績優秀的人的姓名和年齡的sql語句
        String sqlText =  "select name,age from peopleInformations where name in (";
        for(int i = 0;i < excellentScoreNameList.size();i++){
            sqlText+="'"+ excellentScoreNameList.get(i)+"'";
            if (i < excellentScoreNameList.size()-1){
                sqlText+=",";

            }
        }
        sqlText +=")";
        //執行sql語句得到一個Dataset
        Dataset excellentNameAgeDS =  sqlContext.sql(sqlText);
        //將成績優秀的人的成績和年齡進行jion操作
        JavaPairRDD<String,Tuple2<Integer,Integer>> resultRDD = excellentScore.javaRDD().mapToPair(new PairFunction<Row,String,Integer>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Tuple2<String, Integer> call(Row row) throws Exception {
                return new Tuple2<String,Integer>(row.getAs("name"),(int)row.getLong(1));
            }
        }).join(excellentNameAgeDS.javaRDD().mapToPair(new PairFunction<Row,String,Integer>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Tuple2<String, Integer> call(Row row) throws Exception {
                return new Tuple2<String,Integer>(row.getAs("name"),(int)row.getLong(1));
            }
        }));
        //呼叫RowFactory工廠方法生成記錄
        JavaRDD<Row> reusltRowRDD = resultRDD.map(new Function<Tuple2<String, Tuple2<Integer, Integer>>, Row>() {

            @Override
            public Row call(Tuple2<String, Tuple2<Integer, Integer>> tuple) throws Exception {
                return RowFactory.create(tuple._1,tuple._2._2,tuple._2._1);
            }
        });

       /**
         * 動態構造DataFrame的元資料，一般而言，有多少列以及每列的具體型別可能來自於json檔案，也可能來自於資料庫
         */
        List<StructField> structFields = new ArrayList<StructField>();
        structFields.add(DataTypes.createStructField("name", DataTypes.StringType,true));
        structFields.add(DataTypes.createStructField("age", DataTypes.IntegerType,true));
        structFields.add(DataTypes.createStructField("score", DataTypes.IntegerType,true));
        //構建StructType,用於最後DataFrame元資料的描述
        StructType structType = DataTypes.createStructType(structFields);
        //生成Dataset
        Dataset personDS = sqlContext.createDataFrame(reusltRowRDD,structType);
        personDS.show();
        personDS.write().format("json").save("file:///home/hadoop/peopleResult.json");
        sc.close();
    }
}

2.SparkSQL下采用Java和Scala實現案例


package SparkSQL

import org.apache.spark.sql.{RowFactory, SQLContext}
import org.apache.spark.{SparkConf, SparkContext}
;

/**
 * FileName: SparkSQLWithJionScala
 * Author:   hadoop
 * Email:    [email protected]
 * Date:     18-11-8 下午5:06
 * Description:
 */
object SparkSQLWithJionScala {
    def main(args: Array[String]): Unit = {
        //建立SparkConf用於讀取系統資訊並設定運用程式的名稱
        val conf = new SparkConf().setAppName("SparkSQLWithJionScala").setMaster("local")
        //建立JavaSparkContext物件例項作為整個Driver的核心基石
        val sc = new SparkContext(conf)
        //方便檢視輸出的日誌資訊，也可以設定為WARN、ERROR
        sc.setLogLevel("ERROR")
        //建立SQLContext上下文物件，用於SqL的分析
        val sqlContext = new SQLContext(sc)
        //建立dataFrame，可以簡單的認為DataFrame是一張表
        val personScoreDS = sqlContext.read.json("file:///home/hadoop/score.json")
       //將成績表註冊為臨時表
        personScoreDS.registerTempTable("personScores")
        //選擇出成績優秀的成績記錄
        val excellentStudentsDS = sqlContext.sql("select  name ,score from personScores where score >= 90")
       //取出成績優秀的學生姓名
        val  excellentStudentName = excellentStudentsDS.rdd.map(_(0))
       //學生的資訊姓名，年齡
        val peopleInformations = Array(
            "{\"name\":\"Michael\", \"age\":20}",
            "{\"name\":\"Andy\", \"age\":17}",
            "{\"name\":\"Justin\", \"age\":19}"
        )
      //將學生的資訊姓名，年齡註冊為RDD
       val peopleInformationRDD = sc.parallelize(peopleInformations)
      //將學生資訊註冊為JSON格式
        val  peopleInformationDS = sqlContext.read.json(peopleInformationRDD)
      //將學生的資訊註冊為臨時表
        peopleInformationDS.registerTempTable("peopleInformations")
      /**
        * 查詢成績為優秀的學生的資訊
        */
        val sqlText = new StringBuilder()
        sqlText.append("select name,age from peopleInformations where name in (")
        val students:Array[Any] = excellentStudentName.collect()
        for (i <- 0 until students.size){
            sqlText.append("'" + students(i).toString + "'")
            if (i != students.size-1)
                sqlText.append(",")
        }
        sqlText.append(")")
      val sqlString = sqlText.toString()
        val excellentStudentNameAgeDS = sqlContext.sql(sqlString)
      //將學生的成績表和資訊表進行jion操作
        val resultRDD = excellentStudentsDS.rdd.map(row=>(row.getAs("name").toString,row.getLong(1))).join(excellentStudentNameAgeDS.rdd.map(line=>(line.getAs("name").toString,line.getLong(1))))
      /**
        * 將jion後的資訊進行整理
        */
        val resultRowRDD = resultRDD.map(tuple=>{
            val name = tuple._1
            val age:java.lang.Integer=tuple._2._2.toInt
            val score:java.lang.Integer= tuple._2._1.toInt
          RowFactory.create(name, age, score)
        })
      //生成dataFrame
      val personDS = sqlContext.createDataFrame(resultRowRDD.map(row => PersonAgeScore(row.getString(0),row.getInt(1),row.getInt(2))))
      personDS.show()
      personDS.write.json("file:///home/hadoop/json")


    }
}
case class PersonAgeScore(name: String, age: Int, score: Int)

第67課：Spark SQL下采用Java和Scala實現Join的案例綜合實戰（鞏固前面學習的Spark SQL知識）

內容： 1.SparkSQL案例分析 2.SparkSQL下采用Java和Scala實現案例一、SparkSQL下采用Java和Scala實現案例學生成績： {"name":"Michael","score":98} {"name":"Andy"

Spark中RDD轉換成DataFrame的兩種方式（分別用Java和scala實現）

一：準備資料來源在專案下新建一個student.txt檔案，裡面的內容為： print? <code class="language-java">1,zhangsan,20 2,lisi,21 3,wanger,1

Spark視訊王家林第3課：在IDE下開發第一個Scala程式純傻瓜式徹底透徹解析

內容： 1.控制結構 2.Scala的基礎語法 /** * FileName: HelloScala * Author: hadoop * Email: [email protected] * Date: 18-

爬坑：spark專案打包報錯(java和scala混編)

專案打包：mvn clean package -DskipTests java和scala混編打包報錯： /Users/rocky/source/work/sparktrain/src/main/scala/com/zoujc/spark/project/dao/CourseSearchC

最短路徑演算法：克魯斯卡爾演算法和迪傑斯特拉演算法（天勤資料結構高分筆記）

迪傑斯特拉演算法演算法思想：設有兩個頂點集合S和T，集合S存放途中已經找到最短路徑的頂點，集合T存放的是途中剩餘頂點。初始狀態是，集合S只包含源點V0，然後不斷從集合T中選取到頂點V0的路徑長度最短的頂點Vu併入到初始集合中。集合S每併入一個新的頂點Vu，

大資料IMF傳奇行動絕密課程第63課：Spark SQL下Parquet內幕深度解密

Spark SQL下Parquet內幕深度解密 1、Spark SQL下的Parquet意義再思考 2、Spark SQL下的Parquet內幕揭祕一、Spark SQL下的Parquet意義再思考 1、如果說HDFS是大資料時代分散式檔案系統儲存的事

大資料IMF傳奇行動絕密課程第64課：Spark SQL下Parquet的資料切分和壓縮內幕詳解

Spark SQL下Parquet的資料切分和壓縮內幕詳解 1、Spark SQL下的Parquet資料切分 2、Spark SQL下的Parquet資料壓縮 parquetBlocksize總體上講是壓縮後的大小 private static fina

第68課：Spark SQL通過JDBC操作MySQL

內容： 1.SparkSQL操作關係資料庫意義 2.SparkSQL操作關係資料庫一、通過SparkSQL操作關係資料庫意義 1.SparkSQL可以通過jdbc從傳統關係型資料庫中讀寫資料，讀取資料後直接生成DataFrame，然後在加上藉助

第72課：Spark SQL UDF和UDAF解密與實戰

內容： 1.SparkSQL UDF 2.SparkSQL UDAF 一、SparkSQL UDF和SparkSQL UDAF 1.解決SparkSQL內建函式不足問題，自定義內建函式， 2.UDF：User Define Functio

第73課：Spark SQL Thrift Server實戰

內容： 1.SparkSQL Thrift解析與測試 2.SparkSQL Thrift Server JDBC程式設計一、SparkSQL Thrift解析與測試 ThriftServer是一個JDBC/ODBC介面，使用者可以通過JDBC/

第80課：Spark SQL網站搜尋綜合案例實戰

內容： 1.案例分析 2.案例實戰一、案例分析專案：以京東找出搜尋平臺排名的產品，The hottest 元資料：date，u

第79課：Spark SQL基於網站Log的綜合案例綜合程式碼和實際執行測試

內容： 1.熱門論壇板塊排名 2.綜合程式碼實戰和測試一、熱門論壇板塊排版建立表： spark.sql("createtable userlogs(date st

第76課：Spark SQL實戰使用者日誌的輸入匯入Hive及SQL計算PV實戰

內容： 1.Hive資料匯入操作 2.SparkSQL對資料操作實戰一、Hive資料匯入操作 create table userLogs(date String,timestamp bigint,userI

第75課：Spark SQL基於網站Log的綜合案例實戰

內容： 1.案例概述 2.資料來源和分析一、案例概述 PV：頁面訪問數 UV：獨立訪問數二、資料來源和分析 packag

第71課：Spark SQL視窗函式解密與實戰

內容： 1.SparkSQL視窗函式解析 2.SparkSQL視窗函式實戰一、SparkSQL視窗函式解析 1.spark支援兩種方式使用視窗函式： &nb

第70課：Spark SQL內建函式解密與實戰

內容： 1.SparkSQL內建函式解析 2.SparkSQL內建函式實戰一、SparkSQL內建函式解析使用Spark SQL中的內建函式對資料進行分析，Spark

第69課：Spark SQL通過Hive資料來源實戰

內容： 1.Spark SQL操作Hive解析 2.SparkSQL操作Hive實戰一、Spark SQL操作Hive解析 1.在目前企業級大資料Spark開發的時候，

大資料Spark “蘑菇雲”行動補充內容第70課： Spark SQL程式碼實戰和效能調優 4個spark sql調優技巧有用！！！！

大資料Spark “蘑菇雲”行動補充內容第70課： Spark SQL程式碼實戰和效能調優 dataframe: Row是沒有型別的，因為Row中的所有成員都被看著Object型別！！！untype

Scala實戰高手****第4課：零基礎徹底實戰Scala控制結構及Spark原始碼解析

1.環境搭建基礎環境配置 jdk+idea+maven+scala2.11。以上工具安裝配置此處不再贅述。 2.原始碼匯入官網下載spark原始碼後解壓到合適的專案目錄下，開啟idea，File->open 找到原始碼資料夾，選中spark-parent的pom檔案

matlab第八課：影象分析（下）

目標：影象閾值背景評估聯通區域標記一、影象閾值 graythresh()：找出一個影象的最佳閾值是什麼 im2bw()：轉變影象為二值影象 I = imread('rice.png'); level=graythresh(I); % 獲

第67課：Spark SQL下采用Java和Scala實現Join的案例綜合實戰（鞏固前面學習的Spark SQL知識）

內容：

相關推薦