《深入理解Spark》之結構化流(spark streaming+spark SQL 處理結構化資料)的一個demo

阿新 • • 發佈：2019-01-26

最近在做關於spark Streaming + spark sql 結合處理結構化的資料的業務，下面是一個小栗子，有需要的拿走！


package com.unistack.tamboo.compute.process.impl;

import com.alibaba.fastjson.JSONArray;
import com.google.common.collect.Maps;
import com.unistack.tamboo.compute.process.StreamProcess;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Encoders;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.api.java.JavaInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.kafka010.ConsumerStrategies;
import org.apache.spark.streaming.kafka010.KafkaUtils;
import org.apache.spark.streaming.kafka010.LocationStrategies;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import java.util.*;

/**
 * @author  hero.li
 * spark sql處理流資料
 */
public class SqlProcess implements StreamProcess{
    private static Logger LOGGER = LoggerFactory.getLogger(SqlProcess.class);

    private Properties outputInfo;
    private String toTopic;

    /**
     * {"datasources":[{"password":"welcome1","port":"3308","ip":"192.168.1.192","dbName":"test","dbType":"MYSQL","dataSourceName":"191_test","username":"root","tableName":"t1"},
     * {"password":"welcome1","port":"3308","ip":"192.168.1.191","dbName":"test","dbType":"MYSQL","dataSourceName":"191_test","username":"root","tableName":"t1"}]
     * ,"sql":"select * from ....","windowLen":"時間範圍,2秒的倍數","windowSlide":"滾動間隔,2的倍數"}
     */

    public SqlProcess(Properties outputInfo,String toTopic){
        this.outputInfo = outputInfo;
        this.toTopic = toTopic;
    }


    @Override
    public void logic(JavaRDD<ConsumerRecord<String, String>> rdd) {
        rdd.foreachPartition(itr->{
            while(itr.hasNext()){
                String recored = itr.next().value();



            }
        });
    }


    public static void main(String[] args) throws InterruptedException  {
        try{
            Class.forName("com.mysql.jdbc.Driver");
        } catch (ClassNotFoundException e){
            e.printStackTrace();
        }

        SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount");
        JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1));
        SparkSession spark = SparkSession.builder().appName("test_kane").getOrCreate();


        Map<String,String> map = Maps.newHashMap();
//        map.put("url", "jdbc:mysql://x.x.x.x:3309/test?user=root&password=welcome1&characterEncoding=UTF8");

        map.put("url","jdbc:mysql://x.x.x.x:3309/test?characterEncoding=UTF8");
        map.put("user","root");
        map.put("password", "welcome1");
        map.put("dbtable", "t2");
        Dataset<Row> hiveJob = spark.read().format("jdbc").options(map).load();
        hiveJob.createOrReplaceTempView("t2");

        System.setProperty("java.security.auth.login.config","/Users/frank/Desktop/shell/lyh.conf");
        Map<String, Object> kafkaParams = new HashMap<>();
        kafkaParams.put("bootstrap.servers", "x.x.x.x:9999");
        kafkaParams.put("key.deserializer","org.apache.kafka.common.serialization.StringDeserializer");
        kafkaParams.put("value.deserializer","org.apache.kafka.common.serialization.StringDeserializer");
        kafkaParams.put("group.id",String.valueOf(System.currentTimeMillis()));
        kafkaParams.put("auto.offset.reset","earliest");
        kafkaParams.put("enable.auto.commit",true);
        kafkaParams.put("sasl.mechanism","PLAIN");
        kafkaParams.put("security.protocol","SASL_PLAINTEXT");


        Collection<String> topics = Arrays.asList("xxTopic");
        JavaInputDStream<ConsumerRecord<String,String>> stream = KafkaUtils.createDirectStream(jssc,
                LocationStrategies.PreferConsistent(),
                ConsumerStrategies.<String,String>Subscribe(topics,kafkaParams));

        stream.flatMap(r->Arrays.asList(new String(r.value())).iterator())
              .foreachRDD((JavaRDD<String> rdd) ->{
                    if(rdd.count() > 0){
                        Dataset<Row> df = spark.read().json(spark.createDataset(rdd.rdd(),Encoders.STRING()));
                        df.createOrReplaceTempView("streamData");
                        df.cache();

                        try{
                            Dataset<Row>  aggregators = spark.sql("select a.*,b.* from streamData a  join  t2 b on  a.id = b.id");
                            String[] colsName = aggregators.columns();
                            Iterator<Row> itr = aggregators.toLocalIterator();
                            while(itr.hasNext()){
                                Row row = itr.next();
                                for(int i=0;i<colsName.length;i++){
                                    String cn = colsName[i];
                                    Object as = row.getAs(cn);
                                    System.out.print(cn+"="+as+",   ");
                                }
                                System.out.println();
                            }
                        }catch(Exception e){
                            System.out.println("::::::::::::::::::::::::::::::::::::::::err::::::::::::::::::::::::::::::::::::::::::::");
                            e.printStackTrace();
                        }
                    }
              });

        jssc.start();
        jssc.awaitTermination();
    }
}

《深入理解Spark》之結構化流(spark streaming+spark SQL 處理結構化資料)的一個demo

最近在做關於spark Streaming + spark sql 結合處理結構化的資料的業務，下面是一個小栗子，有需要的拿走！ package com.unistack.tamboo.compute.process.impl; import com.alibaba.

深入理解JVM之探索物件結構

我們都知道現在高階語言都是面向物件思想，不管是用例項化建立物件還是使用工廠生產例項，你真的瞭解你的物件嗎？之前的博文中已經介紹過物件的建立了，大家可以自己去翻看，我們這篇博文就簡單介紹一下我們的物件，看看它的結構是怎樣的。首先從以下三部分展開，物件頭(Header)，例項

深入理解系列之JAVA資料結構（4）——Hashtable

1、Hashtable和HashMap，從儲存結構和實現來講基本上都是相同的， Hashtable繼承自Dictionary類，而HashMap繼承自AbstractMap類，但二者都實現了Map介面。 2、它和HashMap的最大的不同是它是

深入理解系列之JAVA資料結構（2）——LinkedList

1、LinkedList 是一個繼承於AbstractSequentialList的雙向連結串列。它也可以被當作堆疊、佇列或雙端佇列進行操作。 2、LinkedList相對於ArrayList來說，是可以快速新增，刪除元素，ArrayList新增刪除

深入理解JVM之五：類檔案結構

前言我們平時在DOS介面中往往需要執行先執行javac命令，這個命令的直接結果就是產生相應的class檔案，然後基於這個class檔案才可以真正執行程式得到結果。自然。這是Java虛擬機器的功勞，那麼是不是Java虛擬機器只能編譯.java的原始檔呢？答案是

深入理解javascript之設計模式

rip 是我解決問題不想接受 button move center 常識設計模式設計模式是命名、抽象和識別對可重用的面向對象設計實用的的通用設計結構。設計模式確定類和他們的實體、他們的角色和協作、還有他們的責任分配。每個設計模式都聚焦於一個面向對象的設計難題

深入理解javascript之原型

undefine tor ace 對象實例高級 code turn 三方 true 理解原型原型是一個對象。其它對象能夠通過它實現屬性繼承。不論什麽一個對象都能夠成為繼承，全部對象在默認的情況下都有一個原型。由於原型本身也是對象，所以每一個原型自身又有一個原型

深入理解Java之線程池

我們先進先出 tor cor null 討論等於影響 log 重要連接：http://www.cnblogs.com/dolphin0520/p/3958019.html 出處：http://www.cnblogs.com/dolphin0520/　　　　本文歸作者

深入理解JVM之JVM內存區域與內存分配

錯誤銷毀構造方法初學不存在 data 空閑 table fin 深入理解JVM之JVM內存區域與內存分配　　在學習jvm的內存分配的時候，看到的這篇博客，該博客對jvm的內存分配總結的很好，同時也利用jvm的內存模型解釋了java程序中有關參數傳遞的問題。　

深入理解SpringCloud之Eureka註冊過程分析

.net then media inject seq tar view inf cas 　　eureka是一種去中心化的服務治理應用，其顯著特點是既可以作為服務端又可以作為服務向自己配置的地址進行註冊。那麽這篇文章就來探討一下eureka的註冊流程。一、Eureka的服

深入理解系列之 float

子元素 out oat 理解 oom 20px 布局空格 ble float的設計初衷：僅僅是為了實現文字環繞效果 float的感性認知：包裹性：收縮：元素應用了float後，寬度收縮，緊緊地包裹住內容（即元素的寬度收縮到元素內的內容的寬度大小堅挺：原來沒有高

深入理解Java對象的創建過程：類的初始化與實例化

fcm 創建過程 this 創作 alt sso sdn 限定知識轉載自：https://blog.csdn.net/justloveyou_/article/details/72466416 摘要：　　在Java中，一個對象在可以被使用之前必須要被正確地初始化，這一

深入理解python之二——python列表和元組

n) 數據兩種性能執行效率動態單元這一從一開始學習python的時候，很多人就聽到的是元組和列表差不多，區別就是元組不可以改變，列表可以改變。從數據結構來說，這兩者都應當屬於數組，元組屬於靜態的數組，而列表屬於動態數組。稍後再內存的分配上也會體現這一點。對

《深入理解Java虛擬機》讀書筆記2-class文件結構

改變 image 都是就是固定 char 形式 lin ESS class文件結構　　Class文件內容可以分為兩種數據類型：無符號數和表。其中無符號數包括u1,u2,u3,u4，分別代表1個字節，2個字節，3個字節和4個字節。無符號數可以表示數字、UTF8編碼的字符

Spark2.3.0 結構化流進行streaming+kafka的可操作運算元流

工作上正在進行Streaming運算元的研究學習，需要做到在流的基礎上，通過kafka接收資料到中間若干的計算運算元，再到最後的輸出。開始使用傳統的streaming+kafka，但由於無法返回後續使用的dataset，只能放棄，後來大牛提出永spark的結構化流處理，於是經過參考文件資料編

深入理解分散式之抉擇分散式鎖

引言為什麼寫這篇文章？目前網上大部分的基於zookeeper，和redis的分散式鎖的文章都不夠全面。要麼就是特意避開叢集的情況，要麼就是考慮不全，讀者看著還是一臉迷茫。坦白說，這種老題材，很難寫出新創意，博主內心戰戰兢兢，如履薄冰，文中有什麼不嚴謹之處，歡迎批評

深入理解JavaScript之this全面解析

在之前的章節裡我們知道，this 是在函式執行時繫結的，它只與函式在哪被呼叫有關係 1.1 呼叫位置在理解 this 的繫結之前，我們先理解 this

深入理解JavaScript之this的四種繫結

之前對this的四種繫結不太理解，好在瀏覽了https://www.cnblogs.com/xiaohuochai/p/5735901.html這篇博文，才得以清晰思路，接下來我再次總結this的四種繫結機制。 1 this的四種繫結機制在JavaS

安卓專案實戰之強大的網路請求框架okGo使用詳解（二）：深入理解Callback之自定義JsonCallback

前言 JSON是一種取代XML的資料結構,和xml相比,它更小巧但描述能力卻不差,由於它的小巧所以網路傳輸資料將減少更多流量從而加快了傳輸速度，目前客戶端伺服器返回的資料大多都是基於這種格式的，相應的我們瞭解的關於json的解析工具主要有兩個：Gson（Google官方出的）和fas

深入理解JVM之GC演算法與垃圾收集器[轉]

概述說起垃圾收集（Grabage Collection，GC），我們需要考慮GC需要完成的三件事情：哪些記憶體需要回收？什麼時候回收？如何回收？為什麼我們要求瞭解GC呢和記憶體分配呢？答案很簡單：當需要排查各種記憶體溢位、記憶體洩露問題時，當垃圾收整合為系

《深入理解Spark》之 結構化流(spark streaming+spark SQL 處理結構化資料)的一個demo

相關推薦

《深入理解Spark》之結構化流(spark streaming+spark SQL 處理結構化資料)的一個demo