Structured Streaming教程(2) —— 常用輸入與輸出

阿新 • • 發佈：2018-12-08

上篇瞭解了一些基本的Structured Streaming的概念，知道了Structured Streaming其實是一個無下界的無限遞增的DataFrame。基於這個DataFrame，我們可以做一些基本的select、map、filter操作，也可以做一些複雜的join和統計。本篇就著重介紹下，Structured Streaming支援的輸入輸出，看看都提供了哪些方便的操作。

資料來源

Structured Streaming 提供了幾種資料來源的型別，可以方便的構造Steaming的DataFrame。預設提供下面幾種型別：

File：檔案資料來源

file資料來源提供了很多種內建的格式，如csv、parquet、orc、json等等，就以csv為例:

package xingoo.sstreaming

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types.StructType

object FileInputStructuredStreamingTest {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder
      .master("local")
      .appName("StructuredNetworkWordCount")
      .getOrCreate()

    spark.sparkContext.setLogLevel("WARN")

    import spark.implicits._
    val userSchema = new StructType().add("name", "string").add("age", "integer")
    val lines = spark.readStream
      .option("sep", ";")
      .schema(userSchema)
      .csv("file:///Users/xingoo/IdeaProjects/spark-in-action/data/*")

    val query = lines.writeStream
      .outputMode("append")
      .format("console")
      .start()

    query.awaitTermination()
  }
}

這樣，在對應的目錄下新建檔案時，就可以在控制檯看到對應的資料了。

aaa;1
bbb;2
aaa;5
ddd;6

還有一些其他可以控制的引數：

maxFilesPerTrigger 每個batch最多的檔案數，預設是沒有限制。比如我設定了這個值為1，那麼同時增加了5個檔案，這5個檔案會每個檔案作為一波資料，更新streaming dataframe。
latestFirst 是否優先處理最新的檔案，預設是false。如果設定為true，那麼最近被更新的會優先處理。這種場景一般是在監聽日誌檔案的時候使用。
fileNameOnly 是否只監聽固定名稱的檔案。

網際網路科技發展蓬勃興起，人工智慧時代來臨，抓住下一個風口。為幫助那些往想網際網路方向轉行想學習，卻因為時間不夠，資源不足而放棄的人。我自己整理的一份最新的大資料進階資料和高階開發教程，大資料學習群：868847735 歡迎進階中和進想深入大資料的小夥伴加入。

socket網路資料來源

在我們自己練習的時候，一般都是基於這個socket來做測試。首先開啟一個socket伺服器，nc -lk 9999，然後streaming這邊連線進行處理。

  spark.readStream
  .format("socket")
  .option("host", "localhost")
  .option("port", 9999)
  .load()

kafka資料來源

這個是生產環境或者專案應用最多的資料來源，通常架構都是：

應用資料輸入-->kafka-->spark streaming -->其他的資料庫

由於kafka涉及的內容還比較多，因此下一篇專門介紹kafka的整合。

輸出

在配置完輸入，並針對DataFrame或者DataSet做了一些操作後，想要把結果儲存起來。就可以使用DataSet.writeStream()方法，配置輸出需要配置下面的內容：

format ：配置輸出的格式
output mode：輸出的格式
query name：查詢的名稱，類似tempview的名字
trigger interval：觸發的間隔時間，如果前一個batch處理超時了，那麼不會立即執行下一個batch，而是等下一個trigger時間在執行。
checkpoint location：為保證資料的可靠性，可以設定檢查點儲存輸出的結果。

output Mode

詳細的來看看這個輸出模式的配置，它與普通的Spark的輸出不同，只有三種類型：

complete，把所有的DataFrame的內容輸出，這種模式只能在做agg聚合操作的時候使用，比如ds.group.count，之後可以使用它
append，普通的dataframe在做完map或者filter之後可以使用。這種模式會把新的batch的資料輸出出來，
update，把此次新增的資料輸出，並更新整個dataframe。有點類似之前的streaming的state處理。

輸出的型別

Structed Streaming提供了幾種輸出的型別：

file，儲存成csv或者parquet

noAggDF
  .writeStream
  .format("parquet")
  .option("checkpointLocation", "path/to/checkpoint/dir")
  .option("path", "path/to/destination/dir")
  .start()

console，直接輸出到控制檯。一般做測試的時候用這個比較方便。

noAggDF
  .writeStream
  .format("console")
  .start()

memory，可以儲存在內容，供後面的程式碼使用

aggDF
  .writeStream
  .queryName("aggregates")
  .outputMode("complete")
  .format("memory")
  .start()
spark.sql("select * from aggregates").show()

foreach，引數是一個foreach的方法，使用者可以實現這個方法實現一些自定義的功能。

writeStream
    .foreach(...)
    .start()

這個foreach的功能很強大的。

Structured Streaming教程(2) —— 常用輸入與輸出

上篇瞭解了一些基本的Structured Streaming的概念，知道了Structured Streaming其實是一個無下界的無限遞增的DataFrame。基於這個DataFrame，我們可以做一些基本的select、map、filter操作，也可以做一些複雜的join和統計。本篇就著重介紹下，S

Structured Streaming教程(1) —— 基本概念與使用

repr 開放 let 結果可靠技術分享 lines ole sock 近年來，大數據的計算引擎越來越受到關註，spark作為最受歡迎的大數據計算框架，也在不斷的學習和完善中。在Spark2.x中，新開放了一個基於DataFrame的無下限的流式處理組件——Struc

Structured Streaming教程(3) —— 與Kafka的整合

Structured Streaming最主要的生產環境應用場景就是配合kafka做實時處理，不過在Strucured Streaming中kafka的版本要求相對搞一些，只支援0.10及以上的版本。就在前一個月，我們才從0.9升級到0.10，終於可以嘗試structured streaming的很多用

Python (2) ：命令列輸入與輸出

命令列輸入輸出是一門語言最基本的操作，下面舉例探索一下Python 的命令列輸入輸出寫法。列印字串： print('hello,world') 逗號隔開自動補空格，語句末自動換行 print('hel

C++2-------結構體，輸入與輸出函式

一、C語言與c++中的不同之：輸入與輸出C++中既可以使用C語言中的輸入輸出函式也可以用Cin和Cout進行輸入與輸出，不需要格式控制。# include<iostream> using namespace std; int main() { printf("h

黑馬程式設計師 —— Java高階視訊_IO輸入與輸出（第十九天）2

------- android培訓、java培訓、期待與您交流！ ---------- 十八流操作規律1 上面學習瞭如果之多的流(其實後面的章節還有不少)，那麼到底應該如何確定什麼情況用什麼流呢？關鍵是要掌握了流操作的基本規律，掌握了規律操作起來就容易了

python之路--day1--輸入與輸出&&數據類型

test 整體 lis 相同 msg app 字符類型身份證 [] 輸入與輸出輸出print() 在括號中加上字符，輸出相應字符。 >>>print("hello world！") hello world! 多行輸出 >>>pr

Java學習筆記2（輸入與隨機數簡單介紹）

args image public 數據類型 system double next class gpo 輸入： import java.util.Scanner; public class ScannerDemo{ 　　public static void main(Str

python | 輸入與輸出 | 格式符

pytho txt content 小數 python3 con eva pan 文件中 1 # encoding: utf-8 2 3 # python3中的input相當於python2中的raw_input(未加工) 4 content = input(‘

文件的輸入與輸出

string class 輸入 success 每次 time 處理異常 eof one IO庫類型和頭文件 1.iostream istream,ostream,iostream 2.fstream ifstram,ofstream,fstream 3.sstream

java輸入與輸出

adb int files poi 都是 ext 函數 arr imp 註：本文為作者學習總結，如有錯誤請見諒與及批評指出 1.輸入輸出流計算機存儲文件在物理上都是以二進制的形式存儲，根據邏輯上的不同一般分為以下兩種：文本文件：每個字符對應一個ASCII（Unicode

python輸入與輸出

什麽字符模式定義中間 rep eba 精度傳遞 python輸出 python3中的輸出 python3中的輸出使用函數print()，示例如下： >>> print(‘hello kitty‘) print()也可接受多個參數，使用逗號隔開：

數據的標準輸入與輸出

輸入一行字符串 scanner util 步驟 args 構造存在標準輸出一個《一》輸入數據 Scsnner是一個用於掃描輸入文本的實用程序，存在於java.util包中。使用該類的步驟： 1.在程序的開頭添加一行導入包語句“import java.util,

第二章控制臺輸入與輸出

\n spa %d 寬度表示控制臺輸出 leo 第二章 pan 2.1 控制臺輸出 printf("i am QLEO \n"); printf("我是誰誰誰 \n"); 2.1.1 輸出整數 printf("I am %d \n",33); 2.1.2 用變量

[python]輸入與輸出

escape 格式將在進行 tty int() soft 字節流 pen 1. 讀取命令行選項 Python啟動時，命令行選項放置在列表sys.argv中。例如： import sys if len(sys.argv) != 3: sys.stderr.writ

數據庫中控件的數據輸入與輸出

mem 不能第一條取數據 ner fill command del area 知識點描述： 1、ListBox控件的Items中可以手動添加數據集合項。 2、ListBox控件可以綁定數據庫後輸出數據庫中的數據項 3、TextBox是文本框控件，在其中可輸入數據，也可以

C語言輸入與輸出總結

1. scanf輸入: 特點:除%c外,讀取輸入時會跳過非白字元前的所有空白字元,然後一直讀取字元,直到空白字元或正在讀取字元不匹配的字元.(不匹配的會丟入緩衝區.作為下一次輸入接收的字元). 技巧: ①:把*放在%和轉換字元之間時,可以讓scanf()跳過相應輸出項. 比如:sca

Python基礎（一）輸入與輸出

前言：之前使用的java，現在使用java和python對比的方式學習python 1. 輸出： print() java中列印輸出 System.out.print(引數) python比java簡單，直接print（引數1，引數2，引數3） print('hel

Qt下影象生成、輸入與輸出

#include "widget.h" #include <QApplication> #include <stdio.h> #include <opencv2/opencv.hpp> #include <QDebug> using namespa

JAVA 的輸入與輸出流當中，什麼時候該使用字元流？什麼時候該使用位元組流？

1. InputStream 和OutputStream,兩個是為位元組流設計的,主要用來處理位元組或二進位制物件, 2. Reader和 Writer.兩個是為字元流（一個字元佔兩個位元組）設計的,主要用來處理字元或字串. 字元流處理的單元為2個位元組的Unicode字元，分別操作字元、字元陣列或字串，而位

Structured Streaming教程(2) —— 常用輸入與輸出

資料來源

File：檔案資料來源

socket網路資料來源

kafka資料來源

輸出

output Mode

輸出的型別

相關推薦