Flink 周練（一）

阿新 • • 發佈：2022-05-05

1、自定義Flink資料來源，按照如下要求造資料
資料格式{
    "adsId": 1,
    "userId": 1,
    "provinceName":"山西"
    "timestamp": 1636690000
}
adsId是廣告id，取值範圍為1-10
userId是用id，取值1-50000
provinceName為省份，取值範圍為 北京，山西，山東，河南，河北，上海，福建，廣州
timestamp秒時間戳
2、建立Flink程式讀取自定義資料來源。
3、將讀取到的資料封裝成樣例類。
4、設定時間時間語義，使用timestamp作為時間參考。
5、通過側流收集遲到資料。（注意在造資料時製造一些遲到資料
 
6、設定1分鐘的滾動視窗，水印為5秒。
7、1分鐘內的資料列印到控制檯，每條資料包含視窗的開始時間和視窗結束時間。
8、統計每分鐘，每個廣告的點選次數。
9、統計每分鐘，廣告點選排名前3的廣告資訊。
10、將遲到資料儲存到kafka。



import com.alibaba.fastjson.JSON
import org.apache.flink.api.common.eventtime.{SerializableTimestampAssigner, WatermarkStrategy}
import org.apache.flink.api.common.functions.AggregateFunction
import org.apache.flink.api.common.state.{ListState, ListStateDescriptor}
import org.apache.flink.api.common.typeinfo.{TypeHint, TypeInformation}
import org.apache.flink.streaming.api.functions.KeyedProcessFunction
import org.apache.flink.streaming.api.functions.source.SourceFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.WindowFunction
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer
import org.apache.flink.streaming.connectors.kafka.KafkaSerializationSchema
import org.apache.kafka.clients.producer.ProducerRecord

import java.nio.charset.StandardCharsets
import java.time.Duration
import java.util.{Date, Properties}
import scala.beans.BeanProperty
import scala.collection.JavaConverters.iterableAsScalaIterableConverter
import scala.util.Random

 
object Test01 {
  def main(args: Array[String]): Unit = {
    //流處理的上下文環境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //設定並行度為1
    env.setParallelism(1)
    //2、建立Flink程式讀取自定義資料來源。  獲取到自定義資料來源的資料
    val streamDS: DataStream[ADS] = env.addSource(new MySource)
      //3、將讀取到的資料封裝成樣例類。  將資料進行還原為ADS實體類 

      .map(JSON.parseObject(_, classOf[ADS]))
    //5、通過側流收集遲到資料。（注意在造資料時製造一些遲到資料）
    val tag: OutputTag[ADS] = new OutputTag[ADS]("tag")
    //4、設定時間時間語義，使用timestamp作為時間參考。
    //6、設定1分鐘的滾動視窗，水印為5秒。
    val dataDS: DataStream[ADS] = streamDS
      .assignTimestampsAndWatermarks(WatermarkStrategy
      .forBoundedOutOfOrderness[ADS](Duration.ofSeconds(5))
      .withTimestampAssigner(new SerializableTimestampAssigner[ADS] {
        override def extractTimestamp(element: ADS, recordTimestamp: Long): Long = element.timestamp
      }))
    //7、1分鐘內的資料列印到控制檯，每條資料包含視窗的開始時間和視窗結束時間。
    val windowDS: WindowedStream[ADS, Int, TimeWindow] = dataDS
      .keyBy(_.adsId)                                                     //根據id進行分組
      .window(TumblingEventTimeWindows.of(Time.minutes(1)))      //定義滾動視窗大小
      .sideOutputLateData(tag)                                            //收集側流資料
    //8、統計每分鐘，每個廣告的點選次數。     統計每個廣告的點選次數  以及視窗資訊
    val resDS: DataStream[ADSCount] = windowDS.aggregate(new MyAggreate, new MyWindow)
    //8、統計每分鐘，每個廣告的點選次數。
    resDS.print("主流：")
    val tagDS: DataStream[ADS] = windowDS
      .aggregate(new MyAggreate, new MyWindow)
      .getSideOutput(tag)
    tagDS.print("測流：")
    //9、統計每分鐘，廣告點選排名前3的廣告資訊。
    resDS
      .keyBy(_.end)
      .process(new MyProcess)
      .print("前三：")
    //10、將遲到資料儲存到kafka。
    val properties = new Properties()
    properties.setProperty("bootstrap.servers", "hdp1:9092,hdp2:9092,hdp3:9092")

    val serializationSchema = new KafkaSerializationSchema[String] {
      override def serialize(element: String,
                             timestamp: java.lang.Long): ProducerRecord[Array[Byte], Array[Byte]] =
        new ProducerRecord[Array[Byte], Array[Byte]](
          "test",      // target topic
          element.getBytes(StandardCharsets.UTF_8)) // record contents
    }

    val myProducer = new FlinkKafkaProducer[String](
      "test",                  // target topic
      serializationSchema,         // serialization schema
      properties,                  // producer config
      FlinkKafkaProducer.Semantic.EXACTLY_ONCE) // fault-tolerance

    tagDS.map(_.toString).addSink(myProducer)

    //執行流處理
    env.execute()
  }
}
//廣告點選排名前3的廣告資訊
class MyProcess extends KeyedProcessFunction[Long,ADSCount,String] {
  //定義儲存狀態  建立list集合 儲存廣告資訊
  val list = new ListStateDescriptor[ADSCount]("buffered-elements", TypeInformation.of(new TypeHint[ADSCount]() {}))
  lazy val listState: ListState[ADSCount] = getRuntimeContext.getListState(list)


  override def processElement(i: ADSCount, context: KeyedProcessFunction[Long, ADSCount, String]#Context, collector: Collector[String]): Unit = {
    //將資料放入list
    listState.add(i)
    //建立定時器  在一定時間段內對廣告點選次數進行區分
    context.timerService().registerEventTimeTimer(i.end)
  }

  override def onTimer(timestamp: Long, ctx: KeyedProcessFunction[Long, ADSCount, String]#OnTimerContext, out: Collector[String]): Unit = {
    //對資料進行排序  獲取前三
    out.collect(listState.get().asScala.toList.sortBy(-_.count).take(3).toString())
  }
}
//輸出格式的樣例類
case class ADSCount(start:Long,end:Long,key:Int,count:Int)
//輸出格式
//Int Out Key W
class MyWindow extends WindowFunction[Int,ADSCount,Int,TimeWindow] {
  override def apply(key: Int, window: TimeWindow, input: Iterable[Int], out: Collector[ADSCount]): Unit = {
    for (elem <- input) {
      out.collect(ADSCount(window.getStart,window.getEnd,key,elem))
    }
  }
}
//求廣告點選次數
//IN ACC OUT
class MyAggreate extends AggregateFunction[ADS,Int,Int] {
  //初始化
  override def createAccumulator(): Int = 0
  //各分支統計個數
  override def add(in: ADS, acc: Int): Int = acc + 1
  //合併分支
  override def merge(acc: Int, acc1: Int): Int = acc + acc1
  //返回結果
  override def getResult(acc: Int): Int = acc
}
//建立樣例類
case class ADS(@BeanProperty adsId:Int,@BeanProperty userId:Long,@BeanProperty provinceName:String,@BeanProperty timestamp:Long)
//1、自定義Flink資料來源，按照如下要求造資料。（10分）
class MySource extends SourceFunction[String] {
  override def run(sourceContext: SourceFunction.SourceContext[String]): Unit = {
    val arr: Array[String] = Array("北京", "山西", "山東", "河南", "河北", "上海", "福建", "廣州")
    var count = 0
    while (true){
      count = count + 1
      val adsId = Random.nextInt(10) + 1 //adsId是廣告id，取值範圍為1-10
      val userId = Random.nextInt(50000) + 1 //userId是用id，取值1-50000
      val provinceName = arr(Random.nextInt(8))//provinceName為省份，取值範圍為 北京，山西，山東，河南，河北，上海，福建，廣州
      //判斷髮送5條資料時
      if (count % 5 == 0){
        val data: String = JSON.toJSON(ADS(adsId, userId, provinceName, new Date().getTime - 20000)).toString
        //注意在造資料時製造一些遲到資料
        sourceContext.collect(data)
      }else{
        val data: String = JSON.toJSON(ADS(adsId, userId, provinceName, new Date().getTime)).toString
        //普通資料
        sourceContext.collect(data)
      }
      //睡眠
      Thread.sleep(1000)
    }
  }
  override def cancel(): Unit = ???
}

Flink 周練（一）

1、自定義Flink資料來源，按照如下要求造資料資料格式{ \"adsId\": 1, \"userId\": 1, \"provinceName\":\"山西\"

Flink基礎（二十二）：FLINK基本題（一）

1 簡單介紹一下 Flink 　　Flink 是一個框架和分散式處理引擎，用於對無界和有界資料流進行有狀態計算。並且 Flink 提供了資料分佈、容錯機制以及資源管理等核心功能。Flink提供了諸多高抽象層的API以便使用者編寫分

周練（6）5. 最長迴文子串

動態規劃 /* * @lc app=leetcode.cn id=5 lang=cpp * * [5] 最長迴文子串 */ #include <iostream>

Flink 系列（一）—— Flink 核心概念綜述

一、Flink 簡介 Apache Flink 誕生於柏林工業大學的一個研究性專案，原名 StratoSphere 。2014 年，由 StratoSphere 專案孵化出 Flink，並於同年捐贈 Apache，之後成為 Apache 的頂級專案。2019 年 1 年，阿里巴巴收

大資料實戰（三）：flink（三）電商使用者行為分析（三）實時流量統計（一）

1 模組建立和資料準備　　在 UserBehaviorAnalysis 下新建一個 maven module 作為子項目，命名為NetworkFlowAnalysis。在這個子模組中，我們同樣並沒有引入更多的依賴，所以也

Flink例項（一）: flink開發環境準備

1. 工程目錄 pom.xml <?xml version=\"1.0\" encoding=\"UTF-8\"?> <project xmlns=\"http://maven.apache.org/POM/4.0.0\"

Flink例項（三）: connectors（一）MySQL讀寫

1 工程目錄結構 pom.xml <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId>

Flink例項（二十）：自定義時間和視窗的操作符（一）KeyedProcessFunction（一）

前言　　在Flink中比如某些運算元（join,coGroup,keyBy,groupBy）要求在資料元上定義key。另外有些運算元操作，例如reduce，groupReduce，Aggregate，Windows需要資料在處理之前根據key進行分組。

Flink例項（三十）：狀態管理（一）概述

參考連結; https://www.cnblogs.com/qiu-hua/p/13432337.html https://www.cnblogs.com/shengyang17/p/12549199.html

Flink例項（三十一）：狀態管理（二）自定義鍵控狀態（一）ValueState

ValueState[T]儲存單個的值，值的型別為T。 get操作: ValueState.value() set操作: ValueState.update(value: T)

聽周華健專輯《少年》有感（一）-獻給曾經的自己

從某個人生階段開始，熱衷追逐新鮮事物的心情趨緩，我們終於懂得為何嚮往“一成不變”：不變的聲音，不變的朋友、事物，總是讓人收穫心安。相隔 13 年，在全新專輯《少年》裡，曾經感動許多人，熱情溫暖如

Flink例項（五十五）：自定義時間和視窗的操作符（十）TimestampAssigner介面（一）設定事件時間

在flink中設定事件時間時需要將時間的表示轉換為毫秒如果不需要轉換 def main(args: Array[String]): Unit = {

Flink例項（六十五）: Flink的任務鏈實操（一）

https://blog.csdn.net/Accelerating/article/details/107894474 Flink的任務鏈 Flink的任務鏈禁用全域性任務鏈

Flink實戰（一）：監控（一）Metrics監控原理與實戰

本文主要講解 Metrics、如何使用 Metrics 分析問題並解決問題，並對 Metrics 監控實戰進行解釋說明。

Flink實戰（七十一）：監控（三）自定義metrics相關指標（一）

0 簡介 User-defined Metrics 除了系統的 Metrics 之外，Flink 支援自定義 Metrics ，即 User-defined Metrics。上文說的都是系統框架方面，對於自己的業務邏輯也可以用 Metrics 來暴露一些指標，以便進行監控。

Flink實戰（七十八）：flink-sql使用（六）Flink 與 hive 結合使用（一）配置

1 hive 安裝hive，使用mysql做為元資料儲存 1.2 hive-site.xml 配置（版本3.1.2） <?xml version=\"1.0\"?>

Flink基礎（二十六）：FLINK SQL(二)查詢語句（二）操作符（一）

1 Scan、Projection 與 Filter 操作符描述 Scan / Select / As批處理流處理 SELECT * FROM Orders

Flink基礎（二十五）：FLINK SQL(一)查詢語句（一）基本查詢

來源：https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/dev/table/sql/queries.html 0 簡介

Flink基礎（三十六）：FLINK SQL(十二) 函式（一）概述

0 函式 Flink 允許使用者在 Table API 和 SQL 中使用函式進行資料的轉換。 1 函式型別

Flink基礎（三十八）：FLINK SQL(十四) 函式（三）自定義函式（一）

0 簡介自定義函式（UDF）是一種擴充套件開發機制，可以用來在查詢語句裡呼叫難以用其他方式表達的頻繁使用或自定義的邏輯。

Flink 周練（一）

相關推薦