spark streaming中WordCount

阿新 • • 發佈：2018-11-11

通過一些簡單的案例，可以知道一些大致的用法

1.對每一個批次的資料進行操作：

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object sparkStreamingWC {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("sparkStreamingWC").setMaster("local[*]")
    val sc = new SparkContext(sparkConf)
    //建立sparkstreaming入口的物件，也就是Streaming物件
    //資料批處理，要設定時間間隔，每5秒產生一次批次資料，名叫batch
    val ssc:StreamingContext=new StreamingContext(sc,Seconds(5))

    // 首先，建立輸入DStream，代表了一個從資料來源（比如kafka、socket）來的持續不斷的實時資料流
    // socketTextStream()方法接收兩個基本引數，第一個是監聽哪個主機上的ip，第二個是監聽哪個埠
    //從NetCat服務裡獲取資料。ReceiverInputDStream接收，裡面是String
    val dstream: ReceiverInputDStream[String] =ssc.socketTextStream("192.168.88.130",8888)
    //按行讀取

    //返回的是DStream[(String, Int)]，對批次進行處理，產生的是每一個批次的結果
    //呼叫DStream裡的api進行計算
    val res: DStream[(String, Int)] =dstream.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

    //不新增引數預設列印RDD中前10個元素
    res.print()

    //提交任務到叢集
    ssc.start()

    //執行緒等待下一批處理任務
    ssc.awaitTermination()
  }
}

2.updateStateByKey按批次累加

import org.apache.spark.streaming.{Milliseconds, StreamingContext}
import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}

//實現批次資料的累加
object sparkStreamingWC2 {
  /*
* 實現按批次累加功能，需要呼叫updateStateByKey
* 其中需要自定義一個函式，該函式是對歷史結果資料和當前批次資料的操作過程
* 該函式中第一個引數代表每個單詞
* 第二個引數代表當前批次單詞出現的次數：Seq(1,1,1,1)
* 第三個引數代表之前批次累加的結果，可能有值，也可能沒有值，所以在獲取的時候要用getOrElse方法
   */
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("sparkStreamingWC2").setMaster("local[*]")

    val ssc = new StreamingContext(sparkConf,Milliseconds(10000))

    //設定檢查點，存已經處理的歷史資料，因為要累加，所以要存歷史資料
    ssc.checkpoint("D:\\資料\\spark")
    //獲取資料
    val dstram=ssc.socketTextStream("192.168.88.130",8888)
    //處理當前的資料得到一個集合
    val tup=dstram.flatMap(_.split(" ")).map((_,1))
    //將之前的資料累加過來  1.更新的函式2.分割槽器，將不同RDD的資料放到一個分割槽 3.是否記錄當前的分割槽器
    val res = tup.updateStateByKey(func,new HashPartitioner(ssc.sparkContext.defaultParallelism),true)
    res.print()
    ssc.start()
    ssc.awaitTermination()
  }
  //迭代器裡面是要處理的資料
  //自定義一個函式，第一個是處理的K值,第二個是當前K對於的V的序列集合，歷史記錄當前單詞出現的次數,第三個引數是之前累加的結果，也是當前對應的K
  val func =(it:Iterator[(String, Seq[Int], Option[Int])]) =>{
    it.map(x=>{
      (x._1,x._2.sum+x._3.getOrElse(0))
    })
  }
}

這裡是從NetCat伺服器裡面獲取資料，如果沒有可以使用下面的yum 的安裝

yum -y install nc

開啟埠
nc -lk 8888
l:代表 netcat 將以監聽模式執行
k：代表示 nc 在接收完一個請求後不會立即退出，而是會繼續監聽其他請求
這時就可以請求該介面了， nc 會把請求報文輸出到標準輸出。

spark streaming中WordCount

通過一些簡單的案例，可以知道一些大致的用法 1.對每一個批次的資料進行操作： import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.streami

Spark Streaming中的操作函數講解

csdn 後綴 rep 包含著所有並行計算技術分享 ref filter Spark Streaming中的操作函數講解根據根據Spark官方文檔中的描述，在Spark Streaming應用中，一個DStream對象可以調用多種操作，主要分為以下幾類 Tra

java8實現spark streaming的wordcount

概念這裡就不說了，從案例開始，慣例，hellowrod，哦不，wordcount。要計算從一個監聽 TCP socket 的資料伺服器接收到的文字資料（text data）中的字數。主體程式碼部分跟spark相差不大，畢竟DStream是RDD產生的模板（或者說類）。

java實現kafka整合spark streaming完成wordCount,updateStateByKey完成實時狀態更新

引入依賴 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId&g

spark streaming 中 direct 直連方式從kafka中怎麼拉取資料

我們知道 SparkStreaming 用 Direct 的方式拉取 Kafka 資料時，是根據 kafka 中的 fromOffsets 和 untilOffsets 來進行獲取資料的，而 fromOffsets 一般都是需要我們自己管理的，而每批次的 untilOffse

spark streaming中reduceByKeyAndWindow簡單例子

視窗的一些簡單操作 import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingCon

spark streaming中transform過濾廣告黑名單

/* transform操作，應用在DStream上時，可以用於執行任意的RDD到RDD的轉換操作。它可以用於實現，DStream API中所沒有提供的操作。比如說，DStream API中，並沒有提供將一個DStream中的每個batch，與一個特定的RDD進行joi

Spark Streaming 中如何實現 Exactly-Once 語義

Exactly-once 語義是實時計算的難點之一。要做到每一條記錄只會被處理一次，即使伺服器或網路發生故障時也能保證沒有遺漏，這不僅需要實時計算框架本身的支援，還對上游的訊息系統、下游的資料儲存有所要求。此外，我們在編寫計算流程時也需要遵循一定規範，才能真正實

40：Spark Streaming中KafkaReceiver內幕實現徹底解密

本期內容： 1. KafkaInputDStream原始碼解密 2. KafkaReceiver原始碼解密 Direct方式，是No Receiver方式，和普通Receiver方式，最大的

Spark Streaming中withWatermark的簡單嘗試

我們在處理流資料的時候，往往會有實時性要求。可是如果我們直接按照程式所在伺服器的當前時間計算又不行，比如當上遊日志資料延遲了，則所有的這部分資料都會被拋棄掉。所以一般我們在記錄日誌的時候，加上日誌的時間戳。這樣我們在進行流處理的時候，就可以把日誌記錄的時間拿出來，根據這個時間

Spark Streaming中的Receiver方式和直連方式

Spark Streaming從Kafka中接受資料的時候有兩種方式，一種是使用Receiver的老方法，另一種是使用直連的方法 1.Receiver方式 Receiver是使用Kafka高階消費者API實現的，與所有接收器一樣，從Kafka通過Receiver接收的資料

spark streaming中的廣播變數應用

1. 廣播變數我們知道spark 的廣播變數允許快取一個只讀的變數在每臺機器上面，而不是每個任務儲存一份拷貝。常見於spark在一些全域性統計的場景中應用。通過廣播變數，能夠以一種更有效率的方式將一個大資料量輸入集合的副本分配給每個節點。Spark也嘗試著利用有效的廣播演

Spark Streaming中的基本操作函式例項

該文例項我的碼雲直達車請了解一些基本資訊： DStream是Spark Streaming提供的基本抽象。它表示連續的資料流，可以是從源接收的輸入資料流，也可以是通過轉換輸入流生成的已處理資料流。在內部，DStream由一系列連續的RDD表示，這是Spar

Spark Streaming 中管理 Kafka Offsets 的幾種方式

本文轉載自：https://www.jianshu.com/p/ef3f15cf400d（點選下

Spark Streaming中reduceByKeyAndWindow例項開發

package SparkStreamingTest.Scala import org.apache.log4j.{Level, Logger} import org.apache.spark.Spa

spark streaming中維護kafka偏移量到外部介質

.exe topic _each keys off exec lose eat comm spark streaming中維護kafka偏移量到外部介質以kafka偏移量維護到redis為例。 redis存儲格式使用的數據結構為string，其中key為topic:

Spark Streaming從Kafka中獲取數據，並進行實時單詞統計，統計URL出現的次數

scrip 發送消息 rip mark 3.2 umt 過程 bject ttr 1、創建Maven項目創建的過程參考：http://blog.csdn.net/tototuzuoquan/article/details/74571374 2、啟動Kafka A:安裝ka

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十五）Structured Streaming：同一個topic中包含一組數據的多個部分，按照key它們拼接為一條記錄（以及遇到的問題）。

eas array 記錄 splay span ack timestamp b- each 需求：目前kafka的topic上有一批數據，這些數據被分配到9個不同的partition中（就是發布時key:{m1,m2,m3,m4...m9},value:{records

在Spark Shell中編寫WordCount程式

Spark Shell是一個互動式的命令列，裡面可以寫Spark程式(Scala語言)，也是一個客戶端，用於提交Spark程式 1.啟動Spark Shell bin/spark-shell 上邊是沒有指定Master地址的啟動方式，啟動後用的是spark的local模

Spark Streaming整合Spark SQL之wordcount案例

完整原始碼地址： https://github.com/apache/spark/blob/v2.3.2/examples/src/main/scala/org/apache/spark/examples/streaming/SqlNetworkWordCount.scala 案例原

spark streaming中WordCount

相關推薦