Readings in Streaming Database Systems系列筆記

阿新 • • 發佈：2022-03-30

The Future of SQL: Databases Meet Stream Processing

https://www.confluent.io/blog/databases-meet-stream-processing-the-future-of-sql/

首先時代的改變，導致SQL所面對的場景的改變，以前是靜態資料，而當前更多是 data is always in motion，其實就是StreamingSQL的概念

再者，tables只是記錄了current，靜態資料，而logs可以記錄動態資料，其實就是流表一體的概念，通過流可以回放出表

給個例子，

這個SQL就是流表一體，不光會返回靜態資料，還會動態的emit新的資料

接著，提出

data-passive, query-active，可以認為是pull

data-active, query-passive，可以認為是push

這個是傳統資料庫和流式資料庫最大的不同

pull有個問題，當資料量越來越大的時候，每次都全量去檢索，效率比較低

也就是說對於delta資料，沒有一個有效的方式

我突然覺得對於lambda架構的理解又加深了，一個emit changes，就是一個lambda架構的體現

pull更適合靜態的全量資料，因為有強索引，不需要掃描所有資料

而push流式處理更適合解決delta的問題

對於流式資料庫的一個問題，流式資料流過就沒了

如果把查詢關了，再查又需要掃一遍資料，這個太費，所有自然的想法是persistence，也就是物化檢視

有物化檢視，這裡實現可以是一個kafka的topic或是一個database，其他的查詢就可以直接讀到，就可以形成topology

流式資料庫的擴充套件語法

首先是視窗，dataflow模型，熟悉Flink的無需多言

Join

這塊分為兩塊，

stream-stream joins

這塊沒啥好說的，注意CEP場景

stream-table joins

這塊反而更有意思一些，

其實就是維表問題，而且還是一個拉鍊表問題，不是一個靜態維表

所以底層實現，應該和stream-stream joins沒有區別

如何處理late資料？丟棄？

同時支援大量的connector，

4 Key Design Principles and Guarantees of Streaming Databases

Lambda架構在結合實時和batch的時候會產生不精確性，

當前他這樣講是基於Linkedin提出的Kappa架構，基於Kafka可以低成本的對於全量資料的回放

他底下的兩點的問題，

1. 如果對於真正的海量資料，Kappa架構也不好用

2. 高並行獨立或輕量協調的執行，自動failover，但是對於有全域性狀態的情況怎解決？

4個原則

第一條，自動恢復，尤其是對於有狀態的任務

第二條，Exactly-once

第三條，對亂序的處理

第四條，查詢結果的一致性

下面說下confluent是如何用 “A persistent log-based approach” 保障上面4條原則的

0.11開始kafka開始支援事務寫，保障同時寫到多個topic的log的原子性

Exactly Once

把state，看成一個changelog topic，所以，只需要保證data topic和changelog topic事務寫就可以保證

完整性保證

對於亂序，或者聚合時間很長這種，是不是要等到所有資料到到期了再emit

答案肯定是否定，dataflow論文裡面對這個分析的已經比較清楚

這裡的方案是，先emit，後面有亂序資料來的時候，refine並再次emit

不同他也說了，這個要求downstream查詢的處理邏輯是單調的，這個假設不一定成立

對於KSqlDB這種最終一致性，如果要保證更強的一致性，怎麼搞

如圖中，如何保證KsqlDB和OLTP查詢的一致性

兩種方式，傳統就是寫OLTP和KsqlDB同一個事務

一般的方式，也是Ksql的方式，就是限制讀

Readings in Streaming Database Systems系列筆記

The Future of SQL: Databases Meet Stream Processing https://www.confluent.io/blog/databases-meet-stream-processing-the-future-of-sql/

jvm系列筆記-命令列引數

java命令列執行java程式兩種用法：一種是使用-cp引數，然後傳入一大堆jar包，接著傳入主類，最後傳入程式引數。例如：

大話 Maven 系列筆記（二）——Maven依賴（重點）

第二章、Maven依賴（重點） maven管理依賴也就是jar包牛逼之處是不用我們自己下載，會從一些地方自動下載

大話 Maven 系列筆記（一）——Maven概述

第一章、Maven概述 1、 Maven簡介 1.1、Maven是什麼 Maven 是 Apache 基金會組織維護的一款自動化構建工具，專注服務於 Java 平臺的專案構建和依賴管理。

大話 Maven 系列筆記（三）——pom檔案（重點）

第三章、POM檔案（重點） 1、基礎配置 POM： Project Object Model 專案物件模型， maven把專案當做模型處理。操作這個模型就是操作專案。

大話 Maven 系列筆記（四）——Maven倉庫

第四章、Maven倉庫 maven使用的倉庫有以下幾種： 1、中央倉庫：這是預設倉庫 2、映象倉庫：通過setting.xml中的settings.mirrors.mirror配置

大話 Maven 系列筆記（五）——外掛和常用設定

第五章、Maven外掛 1、Maven 外掛介紹 Maven 實際上是一個依賴外掛執行的框架，每個任務實際上是由外掛完成。外掛通常提供了一個目標的集合，並且可以使用下面的語法執行：

Killable Processes in Oracle Database

A multiprocessOracledatabaseuses some additional processes called background processes. Thebackgroundprocesses perform maintenance tasks required to operate the database and to maximize performance f

Script To Get Tablespace Utilization In Oracle Database 12c

This is a script to get the tablespace utilization in Oracle Database 12c. You can use this script to get the tablespace utilization ALLOCATED(MB), USED(MB) and Used parentage for all containers tabl

FastDFS分散式的檔案系統從小白入門到企業實踐打怪之路系列筆記【運維實踐】

描述: FastDFS 是阿里的餘慶大佬用 C 語言編寫的一款開源的分散式檔案系統（個人專案），它對檔案進行管理。功能包括：檔案儲存、檔案同步、檔案訪問（檔案上傳、檔案下載）等，適合中小檔案（4KB < file_size

Java全棧系列筆記

Java全棧系列筆記全部文件、專案、原始碼：https://github.com/name365/Blog-Java 寫的可以的話，麻煩給個start~~

MixGCF: An Improved Training Method for Graph Neural Network-based Recommender Systems閱讀筆記

動機本文是來自2021年KDD上的一篇文章。圖神經網路最近已經成為最先進的協同過濾解決方案，目前協同過濾中的一個挑戰是從隱反饋資料中提取負反饋訊號，但是目前很少有對基於GNN的協同過濾方法的負反饋取樣的研究。

CMU15445 Lecture 23 Distributed OLTP Database Systems

Decision Support Systems(OLAP database的別名) OLTP獲取資料，ELT將OLTP的資料Extract，Transform，Load合併成一個統一的模式，傳給OLAP

英語時態語法系列筆記：一般現在時（一）

動詞變形一般現在時需要注意主語的人稱，然後改變動詞的單複數形式。主語為第三人稱單數形式，動詞加 s 或 es。

[轉]Must Know Tips/Tricks in Deep Neural Networks閱讀筆記

http://www.fenghz.xyz/Must-Know-Tips-in-DL/ Must Know Tips/Tricks in Deep Neural Networks閱讀筆記

tensorflow系列筆記：流程，概念和程式碼解析

tensorflow是google在2015年開源的深度學習框架，可以很方便的檢驗演算法效果。這兩天看了看官方的tutorial，極客學院的文件，

分散式系統系列學習筆記:MapReduce程式設計模型（附程式碼實現）

作者：小羊編輯：韓數大家好，我是韓數，本文的作者是我的好朋友小羊，本次呢，特地邀請小羊大神來撰寫大資料系列的高階教程，隨著大資料的發展，越來越多優秀的開源框架逐漸進入到我們開發者的生活中，包括hadoop，

Spark 系列（十六）—— Spark Streaming 整合 Kafka

一、版本說明 Spark 針對 Kafka 的不同版本，提供了兩套整合方案：spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10，其主要區別如下：

Spark 系列（十五）—— Spark Streaming 整合 Flume

一、簡介 Apache Flume 是一個分散式，高可用的資料收集系統，可以從不同的資料來源收集資料，經過聚合後傳送到分散式計算框架或者儲存系統中。Spark Straming 提供了以下兩種方式用於 Flume 的整合。

Spark 系列（十四）—— Spark Streaming 基本操作

一、案例引入這裡先引入一個基本的案例來演示流的建立：獲取指定埠上的資料並進行詞頻統計。專案依賴和程式碼實現如下：

Readings in Streaming Database Systems系列筆記

The Future of SQL: Databases Meet Stream Processing

4 Key Design Principles and Guarantees of Streaming Databases

相關推薦