flink讀取不到檔案_Flink流處理API——Source

阿新 • • 發佈：2021-01-04

技術標籤：flink讀取不到檔案

本文主要從以下幾個方面介紹Flink的流處理API——Source

一、從集合中讀取資料

二、從檔案中讀取資料

三、從Kafka中讀取資料

四、自定義Source

資料處理的過程基本可以分為三個階段分別是，資料從來哪裡，做什麼業務邏輯，落地到哪裡去。

這三部分在Flink中分別被稱為Source、Transform和Sink

版本：

scala：2.11.12

Kafka：0.8.2.2

Flink：1.7.2

pom.xml依賴部分(log日誌的依賴一定要加上，否則當Flink從Kafka0.8中讀取資料報Failed to instantiate SLF4J LoggerFactory Reported exception)

    org.apache.flink            flink-scala_2.11            1.7.2org.apache.flink            flink-streaming-scala_2.11            1.7.2providedorg.apache.flink            flink-clients_2.11            1.7.2org.apache.flink            flink-connector-kafka-0.8_2.11            1.7.2org.slf4j            slf4j-api            1.7.22org.slf4j            slf4j-log4j12            1.7.22org.apache.bahir            flink-connector-redis_2.11            1.0mysql            mysql-connector-java            5.1.38

一、從集合中讀取資料

package xxximport org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}// 樣例類，感測器ID，時間戳，溫度 (後面都使用這個樣例類作為資料的型別)case class SensorReading(id: String, timestamo: Long, temperature: Double){  override def toString: String = {    id+":"+ timestamo.toString + "," + temperature  }}/***從集合中讀取資料*/object Sensor {  def main(args: Array[String]): Unit = {    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment        import  org.apache.flink.api.scala._    val stream1: DataStream[SensorReading] = environment.fromCollection(List(      SensorReading("sensor_1", 1547718199, 35.80018327300259),      SensorReading("sensor_6", 1547718201, 15.402984393403084),      SensorReading("sensor_7", 1547718202, 6.720945201171228),      SensorReading("sensor_10", 1547718205, 38.101067604893444)    ))    stream1.print("Stream1:").setParallelism(1)    environment.execute()  }}

二、從檔案中讀取資料

package xxximport org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}// 樣例類，感測器ID，時間戳，溫度case class SensorReading(id: String, timestamo: Long, temperature: Double){  override def toString: String = {    id+":"+ timestamo.toString + "," + temperature  }}/***從檔案中讀取資料*/object Sensor {  def main(args: Array[String]): Unit = {    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment     val stream2: DataStream[String] = environment.readTextFile(       "D:ScalaCodeFlinkTestsrcmainesourcessensor.txt")    stream2.print("Stream2:").setParallelism(1)    environment.execute()  }}

三、從Kafka中讀取資料

Kafka的brokerList：slave1:9092，slave2:9092,slave3:9092

zookeeper叢集：slave2:2181,slave3:2181,slave3:2181

package xxximport java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer08/** * 從kafka中讀取資料 */object ReadDataFromKafka {  def main(args: Array[String]): Unit = {    // 設定讀取的kafka引數    val properties = new Properties()    properties.setProperty("bootstrap.servers", "slave1:9092,slave2:9092,slave3:9092")    properties.setProperty("group.id", "flink_group1")    properties.setProperty("zookeeper.connect", "slave2:2181,slave3:2181.slave4:2181")    properties.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer") // key的反序列化    properties.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer") // value的反序列化    properties.setProperty("auto.offset.reset", "latest") // 偏移量    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment    // 連結kafka讀取資料    val kafkaStream: DataStream[String] = environment.addSource(new FlinkKafkaConsumer08[String]("sensor",      new SimpleStringSchema(), properties))    kafkaStream.print().setParallelism(1)    environment.execute("readDataFromKafka")  }}

四、自定義Source

package xxximport org.apache.flink.streaming.api.functions.source.SourceFunctionimport org.apache.flink.streaming.api.scala._import scala.util.Random/** * 自定義Source */object ReadDataFromMySource {  def main(args: Array[String]): Unit = {    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment    val dataStream: DataStream[String] = environment.addSource(new MySource())    dataStream.print().setParallelism(1)    environment.execute("MySource")      }}class MySource extends  SourceFunction[String]{  // 表示資料來源是否正常執行  var running:Boolean = true  // 資料正常生成  override def run(sourceContext: SourceFunction.SourceContext[String]): Unit = {    val random = new Random()    var temp = 1.to(10).map(      i => (i, 100 + random.nextGaussian() * 100)    )        while (running){      // 更新數值      temp = temp.map(        t=>(t._1, t._2 + random.nextGaussian())      )      // 當前時間      val curTime = System.currentTimeMillis()      temp.foreach(t=>{        sourceContext.collect(curTime+": "+ t._1 + "--> "+ t._2)      })      Thread.sleep(500)    }  }  // 取消資料生成  override def cancel(): Unit ={    running = false  }}

flink讀取不到檔案_Flink流處理API——Source

技術標籤：flink讀取不到檔案本文主要從以下幾個方面介紹Flink的流處理API——Source

Flink基礎（五）：Flink 流處理 API

1 Environment 1.1 getExecutionEnvironment 　　建立一個執行環境，表示當前執行程式的上下文。如果程式是獨立呼叫的，則此方法返回本地執行環境；如果從命令列客戶端呼叫程式以提交到叢集，則此方法返回此叢集的

Flink基礎（十四）：Table API 和 Flink SQL（三）流處理中的特殊概念

　　Table API 和 SQL，本質上還是基於關係型表的操作方式；而關係型表、關係代數，以及SQL 本身，一般是有界的，更適合批處理的場景。這就導致在進行流處理的過程中，理解會

二.Flink 流處理API之Transform

轉換運算元 1.map DataStream<Integer> mapStram= dataStream.map(new MapFunction<String, Integer>() {public Integer map(String value) throws Exception {return value.length();}});

Flink筆記6：Flink流處理API之Environment與Source

技術標籤：Flinkflinkstream分散式kafkascala 1、 Environment 1.1 getExecutionEnvironment 建立一個執行環境，表示當前執行程式的上下文。如果程式是獨立呼叫的，則此方法返回本地執行環境；如果從命令列客

Flink 流處理api

技術標籤：Flink大資料flink 文章目錄 1.Environment1.1 getExecutionEnvironment1.2 createLocalEnvironment1.3 createRemoteEnvironment

Flink 從 0 到 1 學習之（20）Flink讀取hdfs檔案

接一下以一個示例配置來介紹一下如何以Flink連線HDFS 1. 依賴HDFS pom.xml 新增依賴

asp.net win IIS下cookie讀取不區分大小寫如何處理

　　在做一個多系統sso單點登入時，遇到一個坑（asp.net）： Request.Cookies[key] 　　讀取cookie時不區分大小寫。由於最初專案多沒有做到統一sso tokenkey的大小寫設定，導致部分系統登入出現問題。

python cv2讀取rtsp實時碼流按時生成連續視訊檔案方式

我就廢話不多說了，直接上程式碼吧！ # coding: utf-8 import datetime import cv2 import os

pandas讀取csv檔案提示不存在的解決方法及原因分析

一般情況是資料檔案沒有在當前路徑，那麼它是無法讀取資料的。另外，如果路徑名包含中文它也是無法讀取的。

html 5 讀取本地檔案API

程式碼： <input type=\"file\" name=\"uploadfile\" class=\"J-upload\"> <script> //上傳後

Plink v0.1.0 釋出——基於Flink的流處理平臺

Plink是一個基於Flink的流處理平臺，旨在基於 [Apache Flink]封裝構建上層平臺。提供常見的作業管理功能。如作業的建立，刪除，編輯，更新，儲存，啟動，停止，重啟，管理，多作業模板配置等。

真的簡單，文字檔案逐行處理–用java8 Stream流的方式

本文中為大家介紹使用java8 Stream API逐行讀取檔案，以及根據某些條件過濾檔案內容

c++ 讀取TXT檔案，中文亂碼處理

#include <iostream> #include <fstream> #include <string> #include <vector> #include <windows.h>

Flink 從 0 到 1 學習之（13）Flink 讀取 Kafka 資料寫入到 RabbitMQ FlinkKafkaRabbitMQ大資料流式計算

前言之前有文章《從0到1學習Flink》—— Flink 寫入資料到 Kafka寫過 Flink 將處理後的資料後發到 Kafka 訊息佇列中去，當然我們常用的訊息佇列可不止這一種，還有 RocketMQ、RabbitMQ 等，剛好 Flink

4、Flink流處理案例實現-Java

在Flink專案裡面建立一個包，同時新建一個wordcount類 package com.gong.stream; import org.apache.flink.api.common.functions.FlatMapFunction;

解決java檔案流處理異常 mark/reset not supported問題

原因：給定的流不支援mark和reset就會報這個錯誤。獲取到一個網路流,這個網路流不允許讀寫頭來回移動,也就不允許mark/reset機制.

Nodejs檔案路徑處理API：path

path簡介 path是一個和路徑有關的模組，用於處理檔案路徑和目錄路徑，可以通過如下方式引入使用：

Flink流處理程式執行流程原始碼分析

首先，上程式碼，從最簡單的例子開始第一步：編寫流處理的小例子　　需求：接收來自Kafka中sensor-temperature主題下的溫度感測器資料，計算各感測器每天的5秒內的平均溫度

.Net Core 3.x Api開發筆記 -- 讀取配置檔案資訊(四)

上節演示Autofac使用，連線：.Net Core 3.x Api開發筆記 -- IOC,使用Autofac實現依賴注入(三)

flink讀取不到檔案_Flink流處理API——Source

一、從集合中讀取資料

二、從檔案中讀取資料

三、從Kafka中讀取資料

四、自定義Source

相關推薦