Spark Streaming高吞吐、高可靠的一些優化

阿新 • • 發佈：2020-07-31

> 分享一些Spark Streaming在使用中關於高吞吐和高可靠的優化。 [toc] 作為Spark的流式處理框架，Spark Streaming基於微批RDDs實現，需要7*24小時執行。在實踐中，我們需要通過不斷的優化來保證它的高可靠，高吞吐。本文從高吞吐和高可靠兩個角度來簡單介紹一下Spark Streaming中常用的一些優化方式。 ## 1. 高吞吐的優化方式 ### 1.1 更改序列化的方式 Spark在變數落盤或者序列化的時候會涉及到序列化。 Spark提供了Java自帶的序列化和Kryo序列化。Kyro序列化比Java序列化更快，推薦使用Kyro序列化。在Spark2.0後將Kyro序列化作為簡單型別的預設序列化方式。對於我們自己的類，可以通過registerKyroClasses來註冊。 ### 1.2 修改Receiver接受到的資料的儲存級別 Spark Streaming通過Receiver來接收資料，接收後會以`StorageLevel.MEMORY_AND_DISK_SER_2`的儲存級別來儲存資料。將接收到的資料儲存兩份是為了有更好的容錯性，如果你的Streaming程式做了其他的容錯，就可以修改為其他的儲存級別。 ### 1.3 廣播配置變數對於要在多個Executor中都會用到的變數，可以將變數廣播到每個節點上，減少資料傳輸的開銷。 ### 1.4 調大接收器的個數對資料有序性要求不是很高的場景下，可以多起幾個接收器來接收資料。 ### 1.5 設定合理的批處理間隔對於Streaming系統來說，只有系統的處理速度能趕上接受速度，整個系統才能穩定的執行，不然可能會出現OOM等問題。批處理間隔的設定可以根據自己的資料量、處理速度、業務峰值等指標來合理估算一個適合自己的。 ### 1.6 多給點資源這是最基本的了，多分點CPU、記憶體，吞吐量蹭蹭的就上來了。 ### 1.7 記憶體比例管理記憶體主要用來儲存和計算，可以根據自己的場景調整記憶體的佔比。 ### 1.8 垃圾回收機制基於JVM執行的程式都能通過垃圾回收調優來獲得一定的優化。根據自己的場景選擇使用CMS、G1.... ### 1.9 使用合適的運算元對於要讀寫資料庫的場景，肯定是在每個foreachPartition中維護一個連線，而不是每個foreach維護一個。 map和mapPartition同理了。 ### 1.10 反壓機制上游太快，壓力太大怎麼辦。 Spark Streaming中也提供了反壓機制，可以設定引數來開啟反壓機制。 ## 2. 高可靠的保障 ### 2.1 可重放的上游有個可重放的上游，就不是很怕丟資料了，起碼可以保證至少一次。 ### 2.2 checkpoint 通過開啟checkpoint將元資料寫到檔案中，在程式失敗重啟後可以直接讀取checkpoint ### 2.3 wal 預寫日誌。上面也提到了Recevier會將接收到的資料存兩份，但是那個可能會丟資料。如果對可靠性要求較高，還是老老實實的開啟wal，缺點就是會損失吞吐量。 ### 2.4 對執行狀況做監控這個的話方法就多了： - 記得Spark Streaming提供了一個介面，在每個批次處理前後可以做處理。感興趣的可以研究。 - 寫指令碼對streaming程式進行監控報警 - ..... ## 3. 參考 - 《Spark Streaming實時流式大資料處理

Spark Streaming高吞吐、高可靠的一些優化

> 分享一些Spark Streaming在使用中關於高吞吐和高可靠的優化。 [toc] 作為Spark的流式處理框架，Spark Streaming基於微批RDDs實現，需要7*24小時執行。在實踐中，我們需要通過不斷的優化來保證它的高可靠，高吞吐。本文從高吞吐和高可靠兩個角度來簡單介紹一下

服務端技術進階(四)一篇文讀懂分散式系統本質：高吞吐、高可用、可擴充套件

服務端技術進階( 四)一篇文讀懂分散式系統本質：高吞吐、高可用、可擴充套件承載量是分散式系統存在的原因當一個網際網路業務獲得大眾歡迎的時候，最顯著碰到的技術問題，就是伺服器非常繁忙。當每天有1000萬個使用者訪問你的網站時，無論你使用什麼樣的伺服

高吞吐、高可用MQ對比分析

基本對比資訊 ActiveMQ RabbitMQ RocketMQ Kafka ZeroMQ 吞吐量比RabbitMQ低 2.6w/s（訊息做持久化） 11.6w/s 17.3w/s 29w/s 開發語言 Java Erlang Java

15套java架構師、集群、高可用、高可擴展、高性能、高並發、性能優化、Spring boot、Redis、ActiveMQ、Nginx、Mycat、Netty、Jvm大型分布式項目實戰視頻教程

mycat 擴展並發解決方案入門到 -1 高端資料 src nio * { font-family: "Microsoft YaHei" !important } h1 { background-color: #006; color: #FF0 } 15套java

java架構師課程、性能調優、高並發、tomcat負載均衡、大型電商項目實戰、高可用、高可擴展、數據庫架構設計、Solr集群與應用、分布式實戰、主從復制、高可用集群、大數據

慢查詢主從復制難題 jms 整合大數數據庫設計企業級 nginx網站 15套Java架構師詳情 * { font-family: "Microsoft YaHei" !important } h1 { background-color: #006; color:

15套java架構師、高並發、集群、高可用、高可擴展、高性能、性能優化Redis、ActiveMQ、Mycat、Netty、Jvm

高並發集群分布式多線程項目實戰 15套Java架構師詳情15套java架構師、集群、高可用、高可擴展、高性能、高並發、性能優化、Spring boot、Redis、ActiveMQ、Nginx、Mycat、Netty、Jvm大型分布式項目實戰視頻教程視頻課程包含：高級Java架構

高性能、高可用、高擴展ERP系統架構設計

sqlserve 學習業務邏輯層表設計應用程序 log cnblogs 便在 tab ERP之痛曾幾何時，我混跡於電商、珠寶行業4年多，為這兩個行業開發過兩套大型業務系統（ERP）。作為一個ERP系統，系統主要功能模塊無非是訂單管理、商品管理、生產采

斯坦福大學公開課機器學習： advice for applying machine learning | deciding what to try next(revisited)（針對高偏差、高方差問題的解決方法以及隱藏層數的選擇）

ice 簡單 pos .com img 想要技術分割就是針對高偏差、高方差問題的解決方法： 1、解決高方差問題的方案：增大訓練樣本量、縮小特征量、增大lambda值 2、解決高偏差問題的方案：增大特征量、增加多項式特征（比如x1*x2,x1的平方等等）、減少la

架構應用之高可用、高複用

架構應用之高可用、高複用。一、儲存高可用儲存的高可用，主要是通過資料冗餘的方式來實現高可用，複雜性主要是在如何保持資料一致性，複製延遲和網路中斷都會帶來資料不一致。主要考慮的就是，資料如何複製，如何應對複製延遲，如何應對複製中斷，各個節點的職責是什麼。

【陌上軒客】技術領域：涉獵Java、Go、Python、Groovy 等語言，高效能、高併發、高可用、非同步與訊息中介軟體、快取與資料庫、分散式與微服務、容器和自動化等領域；興趣愛好：籃球，騎行，讀書，發呆；職業規劃：勵志成為一名出色的伺服器端系統架構師。

陌上軒客技術領域：涉獵Java、Go、Python、Groovy 等語言，高效能、高併發、高可用、非同步與訊息中介軟體、快取與資料庫、分散式與微服務、容器和自動化等領域；興趣愛好：籃球，騎行，讀書，發呆；職業...

處理高併發、高訪問之Apache優化

前言：專案100人同時訪問，導致訪問速度變慢，作為一個沒有遇到過這種情況下的轅，在各種查閱資料後，先用刪除日誌更改日誌輸出的方法處理後（處理方法：修改Apache日誌輸出相關配置方法），暫時好緩，後來又出現變慢，在查閱各種部落格後，發現一個處理併發的方法，小

java高階，、高併發、高可用、高效能、分散式、負載均衡

1、億級流量電商網站的商品詳情頁系統架構面臨難題：對於每天上億流量，擁有上億頁面的大型電商網站來說，能夠支撐高併發訪問，同時能夠秒級讓最新模板生效的商品詳情頁系統的架構是

如何設計出高可用、高性能的接口

數據量每天避免擴展性客戶端響應時間 tps 本地七層接口設計需要考慮哪些方面接口的命名。請求參數。支持的協議。 TPS、並發數、響應時長。數據存儲。DB選型、緩存選型。是否需要依賴於第三方。接口是否拆分。接口是否需要冪等。

HttpClient客戶端網路程式設計——高可用、高併發

　　本文是HttpClient的學習部落格，RestTemplate是基於HttpClient的封裝，feign可基於HttpClient進行網路通訊。　　那麼作為較底層的客戶端網路程式設計框架，該怎麼配置使其能高可用，高併發，可支援Https協議呢？通讀本文也許你會有答案或者啟發。　　本文是Maven專

Spark Streaming高級特性在NDCG計算實踐

大數據從storm到spark streaming，再到flink，流式計算得到長足發展，依托於spark平臺的spark streaming走出了一條自己的路，其借鑒了spark批處理架構，通過批處理方式實現了實時處理框架。為進一步了解spark streaming的相關內容，飛馬網於3月20日晚邀請到歷

給高併發降溫，美團高效能、高可靠四層負載均衡MGW優化實踐

負載均衡的作用及分類網際網路初期階段，業務邏輯簡單、流量不大，單臺伺服器就可滿足日常需求。隨著網際網路的發展，業務不僅會流量爆發、邏輯越來越複雜且對可靠性的需求也逐步遞增。這時，就需要多臺伺服器來應對單臺伺服器在效能、單點等方面凸顯出來的問題，進行效能的水平擴充套件和災備。但客戶端的流量要如何順利訪問到

Nginx多進程高並發、低時延、高可靠機制在緩存代理中的應用

網卡中斷內核過大產生 not 整體時延 nco 技術　　1. 開發背景　　　　現有開源緩存代理中間件有twemproxy、codis等，其中twemproxy為單進程單線程模型，只支持memcache單機版和redis單機版，都不支持集群版功能。　　

位元組跳動面試官這樣問訊息佇列：高可用、不重複消費、可靠傳輸、順序消費、訊息堆積，我整理了下

## 寫在前面又到了年底跳槽高峰季，很多小夥伴出去面試時，不少面試官都會問到訊息佇列的問題，不少小夥伴回答的不是很完美，有些小夥伴是心裡知道答案，嘴上卻沒有很好的表達出來，究其根本原因，還是對相關的知識點理解的不夠透徹。今天，我們就一起來探討下這個話題。注：文章有點長，你說你能一鼓作氣看完，我有點不信！！

高並發高性能場景(搶購、秒殺、搶票、限時競答)解決方案

網絡讀寫分離 border 分布式系統 col 是把 qps 情況自動註冊技術指標： PV(Page View, 頁面瀏覽量)在千萬級別QPS(Query Per Second, 每秒處理請求數)在百萬級別數據量在千億級別接口響應速度不能超過150毫秒用戶提交請求到頁

15套java互聯網架構師、高並發、集群、負載均衡、高可用、數據庫設計、緩存、性能優化、大型分布式項目實戰視頻教程

二階並發支持線程並發 important http 系統架構四十 mongodb入門 * { font-family: "Microsoft YaHei" !important } h1 { color: #FF0 } 15套java架構師、集群、高可用、高可擴

Spark Streaming高吞吐、高可靠的一些優化

相關推薦