spark streaming監控HDFS檔案目錄

阿新 • • 發佈：2019-01-06

叢集環境：CDH5.8.0 / spark1.6.0 / scala2.10.4

基於Scala的基本使用方式如下：

package com.egridcloud.sparkstreaming

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.Path
import org.apache.hadoop.io.LongWritable
import org.apache.hadoop.io.Text
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat
import org.apache.spark.SparkConf
import org.apache.spark.serializer.KryoSerializer
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.{ Durations, StreamingContext}
/**
  * Created by LHX on 2018/3/7 下午 8:06.
  * 監控資料夾，實現單詞統計，結果儲存到HDFS
  */
object SparkStreamingFile {
  def main(args: Array[String]): Unit = {
    val classes: Array[Class[_]] = Array[Class[_]](classOf[LongWritable], classOf[Text])
    val conf = new SparkConf().setAppName("sparkstreamingfile")//.setMaster("local[2]")
    conf.set("spark.streaming.fileStream.minRememberDuration", "2592000s")
    conf.set("spark.serialize", classOf[KryoSerializer].getName())
    conf.registerKryoClasses(classes)
    //    設定批次間隔時間
    val streamingContext = new StreamingContext(conf, Durations.seconds(30))
    //          val inputPath = "C:/tmp/sparkstreamingfile"
    val inputPath = args(0)
    //          val outputPath = "C:/tmp/sparkstreamingfile_save/"
    val outputPath=args(1)
    val hadoopConf = new Configuration()
    val fileStream: InputDStream[(LongWritable, Text)] = streamingContext.fileStream[LongWritable,Text,TextInputFormat](inputPath, (path: Path) => {println(path.getName);path.getName.endsWith(".csv")}, false, hadoopConf)
    //遍歷每一行，用“,”分割
    val flatMap: DStream[String] = fileStream.flatMap(_._2.toString.split(","))
    //將每個單詞標記 為1
    val mapToPair: DStream[(String, Int)] = flatMap.map((_,1))
    //將相同單詞標記 累加
    val reducerByKey: DStream[(String, Int)] = mapToPair.reduceByKey(_ + _)
    reducerByKey.foreachRDD((a,b)=> println(s"count time:${b},${a.collect().toList}"))
    //結果輸出到HDFS
    //  reducerByKey.saveAsTextFiles(outputPath, "suffix")
    reducerByKey.saveAsTextFiles(outputPath)

    //是否觸發job取決於設定的Duration時間間隔
    streamingContext.start()
    //等待程式結束
    streamingContext.awaitTermination()
  }
}

打包上傳叢集，指定輸入輸出路徑執行，往輸入目錄新增檔案即可。

spark streaming監控HDFS檔案目錄

叢集環境：CDH5.8.0 / spark1.6.0 / scala2.10.4基於Scala的基本使用方式如下：package com.egridcloud.sparkstreaming import org.apache.hadoop.conf.Configuratio

轉：【HDFS基礎】HDFS檔案目錄詳解

版權宣告：本文為博主原創文章，若轉載，請註明出處，謝謝！ https://blog.csdn.net/baiye_xing/article/details/76268495 HDFS的檔案目錄圖分析：從上圖可以看出，HDFS的檔案目錄主要由NameNode

Spark HadoopRDD讀取HDFS檔案

Spark HadoopRDD讀取HDFS檔案更多資源 SPARK 原始碼分析技術分享(bilibilid視訊彙總套裝視訊): https://www.bilibili.com/video/av37442139/ github: https://github.com/open

HDFS檔案目錄結構詳解

HDFS metadata以樹狀結構儲存整個HDFS上的檔案和目錄，以及相應的許可權、配額和副本因子（replication factor）等。本文基於Hadoop2.6版本介紹HDFS Namenode本地目錄的儲存結構和Datanode資料塊儲存目錄結構，也就是hdfs-site.xml中配置的

Shell指令碼執行hive語句 | hive以日期建立分割槽表 | linux schedule程式 | sed替換檔案字串 | shell判斷hdfs檔案目錄是否存在

#!/bin/bash source /etc/profile; ################################################## # Author: ouyangyewei # #

shell判斷hdfs檔案目錄是否存在

hadoop有提供相應的指令碼去驗證檔案目錄是否存在的： -bash-3.2$ hadoop fs -help ... -test -[defsz] <path>: Answer var

spark streaming讀取HDFS

今天跑第一spark streaming程式讀取HDFS檔案，碰到很多坑： JavaDStream lines = jsc1.textFileStream("hdfs://*.*.*.*:900

Spark Streaming 讀取本地檔案壓檔案

package streamings.studys import org.apache.spark.SparkConf import org.apache.spark.streaming.dstre

使用python監控HDFS檔案的增量【優化中】

目錄 1、需求和步驟 2、專案結構 3、專案程式碼 3.1建表語句 hdfs_Ctreate_table 3.2刪除檔案記錄 hdfs_delete_file_record.py 3.3檔案路徑的小時監控

【HDFS基礎】HDFS檔案目錄詳解

HDFS的檔案目錄圖分析：從上圖可以看出，HDFS的檔案目錄主要由NameNode、SecondaryNameNode和DataNode組成，而NameNode和DataNode之間由心跳機制通訊。注： HDFS(Hadoop Distribut

實時計算實踐（spark streaming+kafka+hdfs）

一直在研究大資料處理方向的各種技術和工具，但沒有真正用於實踐中，恰好目前風控措施轉向，需要實施“線上+離線”的雙線防控措施，遂在調研查閱相關文件後，決定從零開始構造（資料探勘轉工程開發，思維轉變是關鍵），這裡面涉及的幾個階段慢慢說來：專案開發環境選擇（sc

【六】Spark Streaming接入HDFS的資料Local模式（使用Scala語言）

Spark Streaming接入HDFS的資料模擬一個wordcount的功能，結果列印到控制檯，使用Local模式，使用Scala語言。專案目錄 pom.xml <project xmlns="http://maven.apache.org/POM/4.

大資料學習35：一個scala 操控 HDFS 檔案目錄的小例子

一個scala 操控 HDFS 檔案目錄的小例子：包含了對檔案路徑的檢視是否存在、刪除、建立、重新命名、移動。僅作記錄。工具類：HDFSUtil package Sparktest i

Structure Streaming和spark streaming原生API訪問HDFS檔案資料對比

此文已由作者嶽猛授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。 Structure Stream訪問方式 code examples import org.apache.spark.sql.streaming._ val df = spark.

Spark Streaming 輸入DStream之基礎資料來源HDFS檔案

Socket：之前的wordcount例子，已經演示過了，StreamingContext.socketTextStream() HDFS檔案基於HDFS檔案的實時計算，其實就是，監控一個

Spark Streaming之使用Spark Streaming處理檔案系統(local/hdfs)的資料

package com.yys.spark.project import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} /** * 使用S

spark 載入多個目錄； RDD輸出到hdfs檔案壓縮

(1) spark textFile載入多個目錄：其實很簡單，將多個目錄（對應多個字串），用,作為分隔符連線起來 val inputPath = List("hdfs://localhost:9000/test/hiveTest", "hdfs://local

IDEA編寫wordcount，讀取hdfs檔案，執行在Spark叢集例子

前期：已安裝好hadoop叢集和spark叢集，hadoop2.6.5，spark2.3.1，jdk1.8. scala2.1.0 第一步：在idea編寫scala程式，並且要打包（pom檔案的build標籤中配置好maven打包程式碼，可以定義主類也可以在提交的時候再定義）{補充：可以在s

監控hdfs系統的檔案狀態

package com.zx.dao; import com.zx.utils.PropertiesUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hdfs.DFSInotifyEvent

Java 讀寫 hdfs檔案或者目錄

1.讀取單個檔案 [java] view plain copy Date date = DateUtil.getSpecifiedDayBefore(); String&

spark streaming監控HDFS檔案目錄

相關推薦