spark-kafka-es互動

阿新 • • 發佈：2018-11-14

import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.spark.streaming.Seconds
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.kafka010._
 
import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent
import org.apache.spark.SparkConf
//import org.elasticsearch._
import com.alibaba.fastjson.JSONObject
import com.alibaba.fastjson.JSON._
import java.text.SimpleDateFormat
import org.elasticsearch.spark.rdd.EsSpark
import org.apache.kafka.common.TopicPartition

object stu_course_test {

    def tranTimeToLong(tm:String) :Long 
={
       val fm = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss")
       val dt = fm.parse(tm)
       val aa = fm.format(dt)
       val tim: Long = dt.getTime()/1000
       tim
    }
    def main(args:Array[String]){
        val conf = new SparkConf().setAppName("stu_live_test5").set("es.nodes",ip).set("es.port","9200")
        val ssc  
= new StreamingContext(conf, Seconds(2))
        println("hello")
        val kafkaParams = Map[String, Object](
            "bootstrap.servers" -> ip,
            "group.id" -> "test_kafka1106",
            "key.deserializer" -> classOf[StringDeserializer],
            "value.deserializer" -> classOf[StringDeserializer],
            "sasl.plain.username" -> usrname,
            "sasl.plain.password" -> psw,
            "security.protocol" -> "SASL_PLAINTEXT",
            "sasl.mechanism" -> "PLAIN"
        //    "auto.offset.reset" -> "earliest",
          //  "enable.auto.commit" -> (false: java.lang.Boolean)

        );
        val tops = "topic_name"
        val topics = tops.split(",").toSet//     set offset 
        val fromOffsets = Map[TopicPartition, Long](new TopicPartition(tops,0) -> 20385338L).toMap
        val stream = KafkaUtils.createDirectStream[String, String](
            ssc,
            PreferConsistent,
            ConsumerStrategies.Assign[String, String](fromOffsets.keys.toList, kafkaParams, fromOffsets));
        println("****************************9999");
        val lines = stream.map(record => record.value)
        val offs = stream.map(off => off.offset)
        offs.print()
        lines.print()
        lines.foreachRDD(record=>{
             val datas = record.collect()
             val count = record.count()
             if (count>0){
                 for (i <- datas){
                    val dict = parseObject(parseObject(i).get("data").toString)
                    val stu_data = new JSONObject()
                    stu_data.put("a",dict.get("a").toString.toInt)
                    stu_data.put("b",dict.get("b").toString.toInt)
                    stu_data.put("c",dict.get("c").toString)
                    stu_data.put("d",dict.get("d").toString.toInt)
                    stu_data.put("time",tranTimeToLong(dict.get("time").toString).toInt)
                    stu_data.put("e",dict.get("e").toString.toInt)
                    val query = """{"query":{"bool":{"must":[{"term":{"key":"""+stu_data.get("keyid").toString+"""}},{"term":{"status":2}}]}}}"""
                    println(query)
                    val es_result = EsSpark.esRDD(ssc.sparkContext,"index_name/all-type",query)
                    println(es_result)
                    es_result.collect().foreach(course =>{
                        stu_data.put("aa",course._2("aa").toString)
                        stu_data.put("bb",course._2("bb").toString)
                        stu_data.put("cc",course._2("cc").toString.toInt)
                        val _id = stu_data.get("aa").toString+"_"+stu_data.get("bb")+"_"+stu_data.get("cc").toString
                        stu_data.put("_id",_id)
                        val stu_data_js = stu_data.toString
                        val rdd = ssc.sparkContext.makeRDD(Seq(stu_data_js))
                        EsSpark.saveJsonToEs(rdd,"test_index_name/docs",Map("es.mapping.id" -> "_id"))
                    })
                 }
             }
        })
        println("dfsdfsdf");
        ssc.start();
        ssc.awaitTermination();

    }
}

spark-kafka-es互動

import org.apache.kafka.clients.consumer.ConsumerRecord import org.apache.spark.streaming.Seconds import org.apache.kafka.common.serialization.StringDes

spark-kafka-es交互優化

wait stream mem create result format toe cli cor import org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spark.streaming

【python】spark+kafka使用

設置消費 /usr tegra 情況下分布式文件系統默認 usr mina 網上用python寫spark+kafka的資料好少啊自己記錄一點踩到的坑~ spark+kafka介紹的官方網址：http://spark.apache.org/docs/latest

工作采坑劄記：3. Spark中es-hadoop插件異常解決

-h adp elastic sed thread ould dex flush 文檔 1. Es-Hadoop異常： org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [61

spark讀取es資料

spark-2.0.2 scala-2.11.8  <dependency> <groupId>org.apa

spark +kafka +hbase

package com.prince.demo.test import java.util.UUID import com.typesafe.config.{Config, ConfigFactory} import org.apache.hadoop.hbase.HBa

ElasticSearch教程-通過API與ES互動

與Elasticsearch互動如何與Elasticsearch互動取決於你是否使用Java。 Java API Elasticsearch為Java使用者提供了兩種內建客戶端：節點客戶端(node client)：節點客戶端以無資料節點(none data node)

springcloud+sleuth+zipkin+kafka+es

前面已經完成了Springcloud+sleuth+zipkin的入門，以及kafka的安裝。至於ES這裡就不在說明了，網上安裝使用資料挺多的，這裡僅僅是將其作為持久化工具使用。環境說明 jdk1.8 server 64位 intellij IDEA 2

Spark+kafka+SparkStreaming例項

-------------------------------------------------------AdClickedStreamingStatus ---------------------------------------------------------

十二 Spark+Kafka+Mysql 整合

如果程式缺少包，需要匯入到系統中去，採用如下方法 for i in `ls /data/spark-workspace/lib/*.jar` do LIBJAR=$i,$LIBJAR done export LIBJARS=${LIBJAR%?} /*

十一 kafka資料安全，以及Spark Kafka Streaming API

一基本網址 http://spark.apache.org/docs/1.6.2/api/java/index.html 在API中搜索org.apache.spark.streaming.kafka 二spark對接kafka流兩種方案在org.apache.spark.streaming.k

Spark Streaming + ES構建美團App異常監控平臺

如果在使用App時遇到閃退，你可能會選擇解除安裝App、到應用商店怒斥開發者等方式來表達不滿。但App開發者也同樣感到頭疼，因為App Crash（崩潰）可能意味著：使用者流失、營收下滑。為了降低崩潰率，進而提升App質量，App開發團隊需要實時地監控App異常。一旦發現嚴重

Spark + Kafka 整合指南

最近在考慮Spark在消費Kafka 分割槽資料的過程中究竟反生了什麼? 因為比較疑惑現有系統架構會不會遭遇這方面的瓶頸,遂決定去搞一把,一探究竟. 關於Kafka做一下簡短的總結,Kafka可參考

spark整合es遇到Guava jar包衝突問題:java.lang.NoSuchMethodError

錯誤資訊： Caused by: java.lang.NoSuchMethodError: com.google.common.util.concurrent.MoreExecutors.directExecutor()Ljava/util/concurr

Spark+Kafka的Direct方式將偏移量傳送到Zookeeper的實現

Apache Spark 1.3.0引入了Direct API，利用Kafka的低層次API從Kafka叢集中讀取資料，並且在Spark Streaming系統裡面維護偏移量相關的資訊，並且通過這種方式去實現零資料丟失(zero data loss)相比使用基於Receiver的方法要高效。但是因為是Spar

大資料Spark+Kafka實時資料分析案例

下面分析詳細分析下上述步驟：應用程式將購物日誌傳送給Kafka，topic為”sex”，因為這裡只是統計購物男女生人數，所以只需要傳送購物日誌中性別屬性即可。這裡採用模擬的方式傳送購物日誌，即讀取購物日誌資料，每間隔相同的時間傳送給Kafka。接著利用Spark Streaming從Kafka主題”s

Spark+Kafka的Direct方式將偏移量傳送到Zookeeper實現

Apache Spark 1.3.0引入了Direct API，利用Kafka的低層次API從Kafka叢集中讀取資料，並且在Spark Streaming系統裡面維護偏移量相關的資訊，並且通過這種方式去實現零資料丟失(zero data loss)相比使用基於Rece

hive與es互動bug

Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row {"_col0":63818992,"_col1":"陶悅

spark+kafka 小案例

轉載自https://www.cnblogs.com/zhangXingSheng/p/6646879.html （1）下載kafka的jar包 spark2.1 支援kafka0.8.2.1以上的jar,我是spark2.0.2,下載的kafka_2.11-0.1

Spark Kafka(createDirectStream)自己管理offset

4、使用Java來管理offset // 注意：一定要存在這個包下面 package org.apache.spark.streaming.kafka; import kafka.common.TopicAndPartition; import kafka.message.MessageAndMetada

spark-kafka-es互動

相關推薦