spark Streaming 直接消費Kafka資料，儲存到 HDFS 實戰程式設計實踐

阿新 • • 發佈：2019-01-27

最近在學習spark streaming 相關知識，現在總結一下

主要程式碼如下

def createStreamingContext():StreamingContext ={
  val sparkConf = new SparkConf().setAppName("myStreamingText").setMaster(ConfigInfo.MasterConfig)
  sparkConf.set("spark.streaming.kafka.maxRetries", "100")
  sparkConf.set("spark.streaming.kafka.maxRatePerParititon", "1000")
  val ssc = new StreamingContext(sparkConf,Seconds(ConfigInfo.durationConfig))
  ssc.checkpoint(ConfigInfo.checkpointConfig)
  ssc
}

def createKafkaDstream(ssc : StreamingContext, kafkaParams : Map[String,String], topics : Set[String] ): InputDStream[(String,String)] = {

  val kafkaDstream = KafkaUtils.createDirectStream[String,String,StringDecoder, StringDecoder](ssc, kafkaParams, topics)
  kafkaDstream
}

val ssc = StreamingContext.getOrCreate(ConfigInfo.checkpointConfig, createStreamingContext)
val kafkaParams= Map[String,String]("metadata.brokers.list" -> ConfigInfo.brokerListConfig, "group.id" -> ConfigInfo.groupIdConfig)
val topics = Set[String](ConfigInfo.groupIdConfig)

val dStream = createKafkaDstream(ssc, kafkaParams, topics)

def saveToHDFS(rdd : RDD[String]) : Unit ={
  def convertData(line:String) = {
    val key = SparkUtil.fetchKey(line)
    (new Text(key), new Text(line))
  }

 val dataToSaveHDFS : RDD[Tuple2[Text,Text]] = rdd.map( line =>{ convertData(line)
  })

  val hadoopConf = rdd.context.hadoopConfiguration
  hadoopConf.set("mapreduce.output.fileoutputformat.compress", "true")
  hadoopConf.set("mapreduce.output.fileoutputformat.compress.codec", "org.apache.hadoop.io.compress.SnappyCodec")
  hadoopConf.set("mapreduce.output.fileoutputformat.compress.type", "BLOCK")

 dataToSaveHDFS.saveAsNewAPIHadoopFile(ConfigInfo.saveHdfsPathConfig, classOf[Text], classOf[Text], classOf[StreamingDataOutputFormat[Text,Text]])

 }

spark Streaming 直接消費Kafka資料，儲存到 HDFS 實戰程式設計實踐

最近在學習spark streaming 相關知識，現在總結一下主要程式碼如下 def createStreamingContext():StreamingContext ={ val sparkConf = new SparkConf().setAppName("

Spark Streaming接收kafka資料，輸出到HBase

需求 Kafka + SparkStreaming + SparkSQL + HBase 輸出TOP5的排名結果排名作為Rowkey，word和count作為Column 實現建立kafka生產者模擬隨機生產資料 object produ

spark streaming讀取kafka資料，記錄offset

如下是pom.xml檔案<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocati

Spark 消費Kafka資料

spark RDD消費的哦，不是spark streaming。導maven包：注意版本哦，要跟自己機器的一致

本地開發spark streaming無法消費雲主機kafka訊息

1、Kafka叢集在一個192.168.0.x網段的，而我們的生產者在叢集外，無法將訊息傳送過去錯誤：11:21:13,936 ERROR KafkaProducer - Batch containing 11 record(s) expired due to timeout while re

spark-streaming系列------- 3. Kafka DirectDStream方式資料的接收

KafkaRDD分割槽個數的確定和每個分割槽資料接收的計算在KafkUtils.createDirectStream建立了DirectDStream，程式碼如下：def createDirectStream[ K: ClassTag, V: ClassTa

Spark——Streaming原始碼解析之資料的產生與匯入

此文是從思維導圖中匯出稍作調整後生成的，思維腦圖對程式碼瀏覽支援不是很好，為了更好閱讀體驗，文中涉及到的原始碼都是刪除掉不必要的程式碼後的虛擬碼，如需獲取更好閱讀體驗可下載腦圖配合閱讀：此博文共分為四個部分： DAG定義 Job動態生成資料的產生與匯入容錯資料的產生與匯入主要分為以下五個部分

使用JavaAPI 實現操作消費Kafak資料，偶遇一坑！

一、檢查環境是否正常檢視虛擬機器中的各個節點啟動是否正常，這一步很關鍵。產品上線前不可能直接拉到伺服器上測試，肯定在自己搭建的叢集中先行測試；通過kafka控制檯消費者是否可以消費資料；通過Java API 是否可以獲取到kafka的訊息。二、示例程式碼！ import java.u

用spark分析北京積分落戶資料，整理北京積分落戶名單資料成csv格式

讀取json檔案格式資料，整理匯出成csv格式 import json,csv #載入資料 def loadData(): with open('jifenluohu.json', 'r') as f: data = json.load(f)

用spark分析北京積分落戶資料，按使用者所在單位分析

載入剛才解析json格式儲存而成的csv檔案。按使用者所在單位分析 df = spark.read.format("csv").option("header", "true").load("jif

用spark分析北京積分落戶資料，按使用者年齡分析

載入剛才解析json格式儲存而成的csv檔案。按使用者年齡分析 df = spark.read.format("csv").option("header", "true").load("jifen

cheerio爬取網頁資料，儲存到MySQL資料庫

最近在做物流專案成本分析，需要爬取柴油價格資料，使用到了cheerio，cheerio實現了jQuery核心的一個子集。以下為爬取程式碼。 //getHtml.js，獲取HTML頁面資料 var http = require("http"); function gethtml(url,

Storm-Kafka模組常用介面分析及消費kafka資料例子

使用storm-kafka模組讀取kafka中的資料，按照以下兩步進行構建(我使用的版本是0.9.3) 1. 使用BrokerHosts介面來配置kafka broker host與partition的mapping資訊; 2. 使用KafkaConfig來配置一些與kaf

SparkStreaming《三》讀取kafka資料，增量儲存在Mysql裡

一、SparkStreaming讀取kafka資料 package org.apache.spark.examples.streaming import java.sql.{PreparedStatement, Connection, DriverManager} import java.uti

0073 spark streaming從埠接受資料進行實時處理的方法

一，環境 Windows_x64 系統 Java1.8 Scala2.10.6 spark1.6.0 hadoop2.7.5 IDEA IntelliJ 2017.2 nmap工具（用到其中的nc

爬取Aliexpress網站的商品資料，儲存至excel表格

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2017/4/19 10:43 # @Author : WuFan import bs4 import requests import re import xlwt import date

簡單Storm消費Kafka資料並存儲到redis例項（訂單資訊處理）

maven依賴 <dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId&g

大資料入門之Spark快速入門及匯入資料，求平均值

執行環境本文的具體執行環境如下： CentOS 7.6 Spark 2.4 Hadoop 2.6.0 Java JDK 1.8 Scala 2.10.5 一、下載安裝首先在官網 https://spark.apache.org/downloads.html 下載對應版

storm實時消費kafka資料

程式環境，在kafka建立名稱為data的topic,開啟消費者模式，準備輸入資料。程式的pom.xml檔案 <dependencies> <dependency> <groupId>org.

storm消費kafka資料

http://blog.csdn.net/tonylee0329/article/details/43016385 使用storm-kafka模組讀取kafka中的資料，按照以下兩步進行構建(我使用的版本是0.9.3) 1. 使用BrokerHosts介面來

spark Streaming 直接消費Kafka資料，儲存到 HDFS 實戰程式設計實踐

相關推薦