SparkStreaming消費Kafka資料並計算後往Redis寫資料案列

阿新 • • 發佈：2021-01-21

package com.lg.blgdata.streaming

import org.apache.spark.streaming.StreamingContext
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.storage.StorageLevel
import org.apache.kafka.common.serialization.StringDeserializer
import kafka.serializer.StringDecoder
import kafka.serializer.StringDecoder
import org.apache.spark.streaming.kafka010.KafkaUtils
import org.apache.spark.streaming.kafka010.LocationStrategies
import org.apache.spark.streaming.kafka010.ConsumerStrategies
import org.apache.spark.streaming.kafka010.PerPartitionConfig
import org.apache.spark.streaming.kafka010.PreferConsistent
import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent
import org.apache.spark.streaming.kafka010.ConsumerStrategy
import org.apache.spark.streaming.Seconds
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.Row
import org.apache.spark.sql.DataFrame
import java.text.SimpleDateFormat
import java.util.Calendar
import org.apache.spark.sql.Dataset
import org.apache.spark.sql.types.LongType
import java.util.Date
import scala.collection.mutable
import java.lang.Long
import org.apache.kafka.common.TopicPartition
import redis.clients.jedis.Jedis
import redis.clients.jedis.Pipeline
import com.lg.blgdata.utils.JedisConnectionPool
import com.lg.bigdata.utils.JZWUtil

/**
 * 1. 建立Driver 無狀態
 * 	kafka給redis推送實時5分鐘/流量,1天/流量
 */
object KafkaRedis {
	val format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss")
			val sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm")
			val hourSdf = new SimpleDateFormat("yyyy-MM-dd HH")
			val daysdf = new SimpleDateFormat("yyyy-MM-dd")
			val fmtScornd = new SimpleDateFormat("ss")

			def main(args: Array[String]): Unit = {
					val groupId = "jwz"

							//1.建立SparkConf並初始化SSC
							val sparkConf = new SparkConf().setMaster("local[*]").setAppName("CarCount")
							val ssc = new StreamingContext(sparkConf, Seconds(1))
							ssc.sparkContext.setLogLevel("WARN")

							/*2.定義kafka引數將kafka引數對映為map
							 * earliest  當各分割槽下有已提交的offset時，從提交的offset開始消費；無提交的offset時，從頭開始消費
							 * latest  當各分割槽下有已提交的offset時，從提交的offset開始消費；無提交的offset時，消費新產生的該分割槽下的資料
							 * none  topic各分割槽都存在已提交的offset時，從offset後開始消費；只要有一個分割槽不存在已提交的offset，則丟擲異常
							 */

							val kafkaParams = Map[String, Object](
									"bootstrap.servers" -> "hadoop104:9092", //kafka連結地址
									"key.deserializer" -> classOf[StringDeserializer], //序列化
									"value.deserializer" -> classOf[StringDeserializer], //反序列化
									"group.id" -> groupId, //主題
									"auto.offset.reset" -> "latest", //earliest latest
									"enable.auto.commit" -> (true: java.lang.Boolean) //是否讓消費者自己提交偏移量
									)

							val topics = Array("car")

							//3.通過KafkaUtil建立kafkaDSteam
							//官方推薦的直連方式,使用kafka底層的API,效率更高
							val kafkaDSteam = KafkaUtils.createDirectStream(
									ssc,
									LocationStrategies.PreferConsistent,
									ConsumerStrategies.Subscribe[String, String](topics, kafkaParams))

							//資料型別
							val schema = StructType(List(
									StructField("cameraId", StringType),
									StructField("time", StringType),
									StructField("lane_position", StringType),
									StructField("carType", StringType),
									StructField("speed", StringType),
									StructField("space", StringType)))

							//4.yKey結果輸出到redis
							var jedis: Jedis = null
							//開啟redis的(pipeline)事務
							var pipeline: Pipeline = null
							
							var spark:SparkSession =null

							/**
							 * 將reduceB
							 * 處理JSON字串為Row 生成RDD[Row] 然後通過schema建立DataFrame
							 * 左線 :V158
							 * 右線 :V005
							 */
							kafkaDSteam.map(record => JZWUtil.handlerMessage2Row(record.value())).foreachRDD(rdd => {
								if (!rdd.isEmpty()) { //資料不為空
    								  if(spark==null){
    								    spark= SparkSession.builder().config(rdd.sparkContext.getConf).getOrCreate()
    								  }
										  val df:DataFrame = spark.createDataFrame(rdd, schema)
											val map=getTime
											//主線左時間節點和點位篩選
											val dfV158=df.filter(" cameraId =='V158' and time >"+map.get("sdate").get).toDF()
											//篩選兩個列
											val countV158=dfV158.select("time","cameraId").count()

											//主線右時間節點和點位篩選
											val dfV005=df.filter(" cameraId =='V005' and time >"+map.get("sdate").get).toDF()
											//篩選兩個列
											val countV005=dfV005.select("time","cameraId").count()
											
											//主線右時間節點和點位篩選
											val dfV024=df.filter(" cameraId =='V024' and time >"+map.get("sdate").get).toDF()
											//篩選兩個列
											val countV024=dfV024.select("time","cameraId").count()

											try {

												   //獲取一個jedis連線池
    											  if(jedis==null){
    											    	jedis=JedisConnectionPool.getConnections()
    											  }
														jedis.select(3)//3號db,預設有16個

														//開啟pipeline
														pipeline=jedis.pipelined()
														//開啟多操作模式
														pipeline.multi()

														//寫入計算好的結果
														
														  /*
															*  pipeline.hset(x$1, x$2, x$3)//覆蓋
															* 	大key  小key  值
															* 	有則累加，無則新增
															*/
															//5s實時
															pipeline.hincrBy("SV158", format.format(map.get("edate").get),countV158)

															//分鐘實時
															pipeline.hincrBy("MV158", sdf.format(map.get("edate").get),countV158)

															//小時實時
															pipeline.hincrBy("HV158", hourSdf.format(map.get("edate").get),countV158)

															//天實時
															pipeline.hincrBy("DV158", daysdf.format(map.get("edate").get),countV158)

															//全線
															pipeline.hincrBy("allM", sdf.format(map.get("edate").get),countV158)
															
    											  //V005
    													pipeline.hincrBy("SV005",format.format(map.get("edate").get), countV005)
    													pipeline.hincrBy("MV005",sdf.format(map.get("edate").get),countV005)
    													pipeline.hincrBy("HV005",hourSdf.format(map.get("edate").get),countV005)
    													pipeline.hincrBy("DV005",daysdf.format(map.get("edate").get), countV005)
    
    													//全線
    													pipeline.hincrBy("allM", sdf.format(map.get("edate").get),countV005)
    											
    													//V024
															pipeline.hincrBy("HV024", hourSdf.format(map.get("edate").get),countV024)
															pipeline.hincrBy("DV024", daysdf.format(map.get("edate").get),countV024)
    													
												//提交事務
												pipeline.sync()
												pipeline.exec()

											} catch {
											case e: Exception => {
												e.printStackTrace()
												pipeline.discard()//放棄前面的操作
												ssc.stop(true)//優雅關閉
											}
											}finally{
												if(pipeline!=null){
													pipeline.close()
												}
												if(jedis!=null){
													jedis.close()
												}
											}
								}
							})
							//啟動採集器
							ssc.start()

							//Driver等待採集器的執行,採集器終止，Driver也會終止
							ssc.awaitTermination()
	}
	def getTime(): mutable.Map[String, Long] = {
			//計算出最新的5秒鐘時間節點
			val date: Calendar = Calendar.getInstance()
					val indexMinute = format.format(date.getTime())
					var dt: String = null
					val scornd = fmtScornd.format(date.getTime)
					if (Integer.valueOf(scornd) % 5 != 0) {
						val rs: Int = Integer.valueOf(scornd) / 5
								val min = (rs * 5 + 5).toString()
								val builderDate = new StringBuilder(indexMinute).replace(17, 19, min)
								dt = builderDate.toString()
					} else {
						dt = indexMinute
					}

					//算出上一個5秒鐘節點的結束時間
					val time: Date = format.parse(dt.toString())
							val sdate: Calendar = Calendar.getInstance()
							sdate.setTime(time)
							sdate.add(Calendar.SECOND, -5)

							var map: mutable.Map[String, Long] = mutable.Map()
							map("sdate") = sdate.getTimeInMillis.toLong //時間戳，用於做時間比對
							map("edate") = format.parse(dt).getTime().longValue() //存入redis的是格式化的時間
							(map)
	}

}

SparkStreaming消費Kafka資料並計算後往Redis寫資料案列

package com.lg.blgdata.streaming import org.apache.spark.streaming.StreamingContext import org.apache.kafka.common.serialization.StringDeserializer

python實現用類讀取檔案資料並計算矩形面積

1.建立一個類Rectangle，已知a、b求面積，求三角形的面積 2.結合題目一，從題目一檔案中讀取資料，並採用類的方法，將計算的結果寫在另一個文件中。

Scala實現Flink消費kafka資料並用連線流過濾後存入PostgreSQL資料庫

1 前言公司有一個專案整體的架構是要消費kafka資料並存入資料庫，以前選用的工具是spark streaming，最近flink已經變得比較流行了，所以也嘗試一下flink消費資料與spark streaming的區別。首先來簡單瞭解一下flink，

使用SparkStreaming獲取Kafka中的流式資料並指定手動提交offset

技術標籤：程式碼sparkkafka大資料sparkkafka資料流概述本篇文章主要有三個示例程式碼，第一個是基礎版使用SparkStreaming讀取kafka中的流式資料，但是此種方式使用的是自動提交offset的方式，可能會出現offse

python3實現從kafka獲取資料,並解析為json格式,寫入到mysql中

專案需求：將kafka解析來的日誌獲取到資料庫的變更記錄，按照訂單的級別和訂單明細級別寫入資料庫，一條訂單的所有資訊包括各種維度資訊均儲存在一條json中，寫入mysql5.7中。

python 消費 kafka 資料教程

1.安裝python模組 pip install --user kafka-python==1.4.3 如果報錯壓縮相關的錯嘗試安裝下面的依賴

王道資料結構之中綴轉字尾並計算（棧）——考研複習筆記

所實現的演算法：括號匹配檢查中綴表示式轉字尾表示式計算轉乘字尾後的表示式

大資料實戰（十七）：電商數倉（十）之使用者行為資料採集（十）元件安裝（六）消費Kafka資料Flume

0 簡介叢集規劃伺服器hadoop102 伺服器hadoop103 伺服器hadoop104 Flume（消費Kafka） Flume

Flink 從 0 到 1 學習之（18）Flink SQL讀取kafka資料並通過JDBC方式寫入Clickhouse實時場景的簡單例項

說明讀取kafka資料並且經過ETL後，通過JDBC存入clickhouse中程式碼定義POJO類： 12345678

vue 樹形資料增加屬性並計算樹節點的深度

需求：在一組選單樹結構中轉換資料結構（增加一些屬性），並計算該樹結構的節點深度。

MQ消費訊息後查到的資料是歷史資料

問題場景：A服務更新資料庫然後傳送mq， B服務消費做業務邏輯查詢A服務的資料庫是更新前的資料。

spark streaming 消費kafka資料

1.在虛擬機器啟動zookeeper和kafka，新建topic test1,這裡使用的topic 是test1。 2.Scala程式

Hudi-Flink SQL實時讀取Hudi表資料 Hudi-Flink消費kafka將增量資料實時寫入Hudi

程式碼如下（hudi表實時寫入參考上一篇[Hudi-Flink消費kafka將增量資料實時寫入Hudi]）

java:讀取消費清單並計算消費合計

// 上次寫了一個消費清單這次來將裡面的金額進行累加看看一共消費了多少錢

使用迭代器接收資料並自動停止

假設有一個 Redis 集合，裡面有 N 條資料，你不停從裡面lpop資料，直到某一條資料的值為\'Stop\'字串為止(已知裡面必有一條資料為\'Stop\'字串，但其位置不知道)。

C語言實現從檔案讀入一個3*3陣列,並計算每行的平均值

題目要求從檔案讀入一個3*3陣列，並計算每行的平均值。參考解答 1. 資料檔案：array.dat

python3.7 使用pymssql往sqlserver插入資料的方法

python3.7 使用pymssql往sqlserver插入資料 import pymssql conn = pymssql.connect(host=\'szs\',server=\'SZS\\SQLEXPRESS\',port=\'51091\',user=\'python\',password=\'python\',database=\'python\',charset=

python定時按日期備份MySQL資料並壓縮

本文例項為大家分享了python定時按日期備份MySQL資料並壓縮的具體程式碼，供大家參考，具體內容如下

mysql實現查詢資料並根據條件更新到另一張表的方法示例

本文例項講述了mysql實現查詢資料並根據條件更新到另一張表的方法。分享給大家供大家參考，具體如下：

Python爬取資料並寫入MySQL資料庫的例項

首先我們來爬取 http://html-color-codes.info/color-names/ 的一些資料。按 F12 或 ctrl+u 審查元素，結果如下:

SparkStreaming消費Kafka資料並計算後往Redis寫資料案列

相關推薦