Spark(39) -- SparkStreaming -- 流式應用狀態

阿新 • • 發佈：2020-10-13

流式應用狀態

使用SparkStreaming處理實際實時應用業務時，針對不同業務需求，需要使用不同的函式。SparkStreaming流式計算框架，針對具體業務主要分為三類，使用不同函式進行處理：

業務一：無狀態Stateless
- 使用transform和foreacRDD函式
- 比如實時增量資料ETL：實時從Kafka Topic中獲取資料，經過初步轉換操作，儲存到ES或HBase表中。
業務二：有狀態State
- 雙十一大螢幕所有實時累加統計數字（比如銷售額和銷售量等），比如銷售額、網站PV、UV等等；
- 函式：updateStateByKey、mapWithState
業務三：視窗統計
- 每隔多久時間統計最近一段時間內資料，比如餓了麼後臺報表，每隔5分鐘統計最近20分鐘訂單數。
- 蘇寧搜尋推薦時：
  - 資料分析：統計搜尋行為時間跨度，86%的搜尋行為在5分鐘內完成、90%的在10分鐘內完成（從搜尋開始到最後一次點選結果列表時間間隔）；
  - NDCG實時計算時間範圍設定在15分鐘，時間視窗為 15 分鐘，步進 5 分鐘，意味著每 5 分鐘計算一次。每次計算，只對在區間［15 分鐘前， 10 分鐘前］發起的搜尋行為進行 NDCG 計算，這樣就不會造成重複計算。

Normalized Discounted Cumulative Gain，即 NDCG，常用作搜尋排序的評價指標，理想情況下排序越靠前的搜尋結果，點選概率越大，即得分越高 (gain)。CG = 排序結果的得分求和， discounted 是根據排名，對每個結果得分 * 排名權重，權重 = 1/ log(1 + 排名) ，排名越靠前的權重越高。首先我們計算理想 DCG（稱之為 IDCG），再根據使用者點選結果，計算真實的 >DCG， NDCG = DCG / IDCG，值越接近 1，則代表搜尋結果越好。

Spark(39) -- SparkStreaming -- 流式應用狀態

流式應用狀態使用SparkStreaming處理實際實時應用業務時，針對不同業務需求，需要使用不同的函式。SparkStreaming流式計算框架，針對具體業務主要分為三類，使用不同函式進行處理：

Flink1.11 SQL Demo: 構建一個端到端的流式應用

本文將基於 Kafka, MySQL, Elasticsearch, Kibana，使用 Flink SQL 構建一個電商使用者行為的實時分析應用。本文所有的實戰演練都將在 Flink SQL CLI 上執行，全程只涉及 SQL 純文字，無需一行 Java/Scala 程式碼，無

Stream Processing with Apache Flink中文版-- 第10章操作Flink和流式應用程式

流處理應用程式是長時間執行的，它們的工作負載通常是不可預測的。連續執行數月的流作業並不少見，因此其操作需求與短期批處理作業的操作需求非常不同。考慮這樣一個場景:您在部署的應用程式中檢測到一個bug。如果您

Demo：基於 Flink SQL 構建流式應用

簡介：本文所有的實戰演練都將在 Flink SQL CLI 上執行，全程只涉及 SQL 純文字，無需一行 Java/Scala 程式碼，無需安裝 IDE。

Flume+Kafka+Spark Streaming實現大資料實時流式資料採集

大資料實時流式資料處理是大資料應用中最為常見的場景，與我們的生活也息息相關，以手機流量實時統計來說，它總是能夠實時的統計出使用者的使用的流量，在第一時間通知使用者流量的使用情況，並且最為人性化的為使用

使用SparkStreaming獲取Kafka中的流式資料並指定手動提交offset

技術標籤：程式碼sparkkafka大資料sparkkafka資料流概述本篇文章主要有三個示例程式碼，第一個是基礎版使用SparkStreaming讀取kafka中的流式資料，但是此種方式使用的是自動提交offset的方式，可能會出現offse

流式計算準確性語義分析

本篇文章是對Exactly once is NOT exactly the same翻譯和分析，對流式計算中衡量準確性的三類語義進行了初步的理解。

流式計算的利器Storm

一、靜態資料和流資料靜態資料：為了支援決策分析而構建的資料倉庫系統，其中存放的大量歷史資料就是靜態資料。

「簡明教程」輕鬆掌握 MongDB 流式聚合操作

資訊科學中的聚合是指對相關資料進行內容篩選、處理和歸類並輸出結果的過程。MongoDB 中的聚合是指同時對多個檔案中的資料進行處理、篩選和歸類並輸出結果的過程。資料在聚合操作的過程中，就像是水流過一節一節的管

JavaSwing FlowLayout 流式佈局的實現

1. 概述官方JavaDocsApi: java.awt.FlowLayout FlowLayout，流式佈局管理器。按水平方向依次排列放置元件，排滿一行，換下一行繼續排列。排列方向（左到右或右到左）取決於容器的componentOrientation屬性（該屬

RecyclerView實現流式標籤單選多選功能

RecyclerView簡介 RecyclerView是Android一個更強大的控制元件,其不僅可以實現和ListView同樣的效果,還有優化了ListView中的各種不足。其可以實現資料縱向滾動,也可以實現橫向滾動(ListView做不到橫向滾動)。接下來講

如何造個android Flow流式響應的輪子

點我啊，程式碼在這裡原因在code程式碼中，我們經常碰到非同步方法巢狀。比如提交檔案之後在提交表單，提交資料根據是否成功然後做出其他邏輯處理。kotlin裡面提出協程概念，利用語法糖來解決這個問題。在javaSc

python GUI框架pyqt5 對圖片進行流式佈局的方法（瀑布流flowlayout）

流式佈局流式佈局，也叫做瀑布流佈局，是網頁中經常使用的一種頁面佈局方式，它的原理就是將高度固定，然後圖片的寬度自適應，這樣加載出來的圖片看起來就像瀑布一樣整齊的水流淌下來。

Android自定義流式佈局/自動換行佈局例項

最近，Google開源了一個流式排版庫“FlexboxLayout”，功能強大，支援多種排版方式，如各種方向的自動換行等，具體資料各位可搜尋學習^_^。

Pyqt5 關於流式佈局和滾動條的綜合使用示例程式碼

流式佈局所謂流式佈局指的是容器中的元素像流水一樣，是可以浮動的，當元素一行或者一列佔滿的時候，它會自動流入到下一行或者下一列。

MyBatis如何實現流式查詢的示例程式碼

基本概念流式查詢指的是查詢成功後不是返回一個集合而是返回一個迭代器，應用每次從迭代器取一條查詢結果。流式查詢的好處是能夠降低記憶體使用。

使用Spark進行實時流計算的方法

Spark Streaming VS Structured Streaming Spark Streaming是Spark最初的流處理框架，使用了微批的形式來進行流處理。

移動端佈局：流式佈局、rem佈局、響應式佈局

# 移動端佈局：流式佈局、rem佈局、響應式佈局 ## 流式佈局（通過 viewport + flex + px）

JAVA Stream 流式計算的簡單使用

package com.huang.stream; import java.util.Arrays; import java.util.List; /** * Stream 流式計算 * <p>

移動web開發流式佈局

二倍圖 ####3.1物理畫素&物理畫素比物理畫素點指的是螢幕顯示的最小顆粒，是物理真實存在的。這是廠商在出廠時就設定好了,比如蘋果6 是 750* 1334

Spark(39) -- SparkStreaming -- 流式應用狀態

流式應用狀態

相關推薦