調研公司內部Spark叢集能承受多少併發量

阿新 • • 發佈：2018-11-08

任務描述

測試公司內部Spark叢集能承受多少併發量

Spark叢集分配引數

節點數:5

cpu:20核

記憶體:40g

硬碟:500g

每臺節點分配引數

cpu:4核

記憶體:8g

硬碟:100g

測試案例(通過spark叢集自帶WEBUI進行監控任務提交執行狀態)

1.編寫測試程式1,無限迴圈通過Spark restful API 提交任務到spark叢集執行,每個任務申請worker數1個,cpu:1核,記憶體:1g,driver端 cpu:核,記憶體1g,程式只提交spark任務不進行任務讀取檔案和處理分析操作,申請到資源就立馬釋放

2.編寫測試程式2,條件同上,然後每個任務讀取指定檔案進行分詞計數,並且上一個任務提交後休眠1-2秒再進行提交下一個任務

3.編寫測試程式3,提交2個任務,第一個任務先提交併申請spark叢集所有資源,然後提交第二個任務,第二個任務也要獲取spark叢集所有資源

4.編寫測試程式4,提交2個任務,第一個任務先提交併申請spark叢集50%資源,然後提交第二個任務,第二個任務也要獲取spark叢集50%資源

5.編寫測試程式5,提交2個任務,第一個任務先提交併申請spark叢集70%資源,然後提交第二個任務,第二個任務也要獲取spark叢集70%資源

測試目的:

1.測試公司內部Spark叢集同一時間能執行多少個spark任務

2.多個spark任務若能同時進行,執行速度怎麼樣

3.在spark叢集無資源可申請的同時又有任務提交,spark叢集會採取怎麼操作

4.若提交一個任務,spark叢集只能滿足其一部分申請,這個任務該如何進行

測試結果

測試案例1:

提交任務速度太快,當提交到20個任務的時候,spark叢集資源完全分配完,後續任務直接卡死

(一個任務最少要佔兩個CPU,一個driver端cpu,一個worker佔用的cpu,提交任務時先申請driver端,延遲1-2秒後再去申請這個driver端的worker節點)

後續任務卡死的原因:

spark叢集的所有cpu都分配給前20個任務的driver端了,沒有多餘的資源去分配給其他任務,也沒有一點資源為前20個任務繼續分配worker節點,結果就卡死了

測試案例2:

當提交到10個任務的時候,spark叢集完全分配完,後續任務進入等待狀態,當前10個任務中有某個任務執行結束了,後續任務就會按序號繼續申請spark資源進行執行

測試案例3

第一個任務佔用完spark叢集所有資源,第二個任務直接進入等待狀態,等待第一個任務執行完再進行申請資源

測試案例4

兩個任務可以一起執行在spark叢集上

測試案例5

第一個任務申請70%資源,第二個任務繼續申請到30%資源,一起執行在spark叢集上,當第一個任務結束後,spark叢集會繼續分配多出來的資源給第二個任務

備註:公司內部叢集配置只適合測試環境,為保證提交的任務都能快速執行(分配4核4g)建議同時執行任務不超過4-5個.

調研公司內部Spark叢集能承受多少併發量

任務描述測試公司內部Spark叢集能承受多少併發量 Spark叢集分配引數節點數:5 cpu:20核記憶體:40g 硬碟:500g 每臺節點分配引數 cpu:4核記憶體:8g 硬碟:100g

解決公司內部pom檔案不能訪問外部中央倉庫的問題

那這個時候，趕緊去指定的settings.xml檔案新增mirror地址（經測試，http://repo2.maven.org/maven2/可用）： <mirror> 　　<id&

【轉載】 Spark性能優化指南——基礎篇

否則內存占用是否進行優先邏輯我們流式字節數組前言開發調優調優概述原則一：避免創建重復的RDD 原則二：盡可能復用同一個RDD 原則三：對多次使用的RDD進行持久化原則四：盡量避免使用shuffle類算子原則五：使用map-side預聚

Spark性能優化指南——高級篇

stat 參數調優 5% 每一個寫性能 nes fix 單獨 png Spark性能優化指南——高級篇 [TOC] 前言繼基礎篇講解了每個Spark開發人員都必須熟知的開發調優與資源調優之後，本文作為《Spark性能優化指南》的高級篇，將深入分析數據傾斜調

Spark 性能相關參數配置具體解釋－任務調度篇

div 設置宋體速度意義期望簡單的取數據全局作者：劉旭暉 Raymond 轉載請註明出處Email：colorant at 163.comBLOG：http://blog.csdn.net/colorant/隨著Spark的逐漸成熟完好, 越來越多的可配置

Spark性能調優之道——解決Spark數據傾斜（Data Skew）的N種姿勢

sca ace 便是 triplet 大小 spark 構建由於 itl 原文：http://blog.csdn.net/tanglizhe1105/article/details/51050974 背景很多使用Spark的朋友很想知道rdd

spark性能調優（二）徹底解密spark的Hash Shuffle

弱點 sta 出了寫到三方很大的完成 map 重新裝載：http://www.cnblogs.com/jcchoiling/p/6431969.html 引言 Spark HashShuffle 是它以前的版本，現在1.6x 版本默應是 Sort-Based Sh

Spark性能優化之道——解決Spark數據傾斜（Data Skew）的N種姿勢

至少 array 效率提升 default executors 並行處理 foreach shp 來源原創文章，轉載請務必將下面這段話置於文章開頭處。本文轉發自技術世界，原文鏈接　http://www.jasongj.com/spark/skew/ 摘要本文結合

公司內網不能連接VPN

vpn配置好PPTP VPN，在公司內網無法連接，提示“不能建立到遠程計算機的連接，因此用於此連接的端口已關閉”但是用手機做熱點，可以正常連接，判斷問題出在防火墻上。防火強硬件平臺：ASA5516, 8192 MB RAM, CPU Atom C2000 series 2416 MHz, 1 CPU (8 c

spark性能調優之資源調優

重要 cnblogs logs 做的參數說明 span 分配比例 drive 轉https://tech.meituan.com/spark-tuning-basic.html spark作業原理使用spark-submit提交一個Spark作業之後，這個作

Spark記錄-Spark性能優化解決方案

let .text 並行 alloc lte 知識 enabled ida 並發執行 Spark性能優化的10大問題及其解決方案問題1：reduce task數目不合適解決方式：需根據實際情況調節默認配置，調整方式是修改參數spark.default.paralle

Spark 性能調優零散知識

ges ermaster 傾斜 entry 鏈接方式 nbsp spec manage 基礎 1. 如果 Spark 中 CPU 的使用率不夠高，可以考慮為當前的程序分配更多的 Executor，或者增加更多的 Worker 實例來充分的使用多核的潛能 2. 適當設置 P

公司內部傳遞的Java技術問答集錦

enter url html 另一個 sql 打開 patch head 銷毀 1 說出Servlet的生命周期，並說出Servlet和CGI的區別 Servlet被服務器實例化後，容器運行其init方法，請求到達時運行其service方法，service方法自動派遣運行與

Spark性能優化指南——基礎篇（轉載）

cores 寫入所在 src 做了一次函數種類推薦 var 前言在大數據計算領域，Spark已經成為了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學習、圖計算等各種不同類型的計算操

nginx實現虛擬主機ssl加密，註意此方法只能在公司內部使用

nginx 虛擬主機 ssl 實現虛擬主機ssl加密，註意此方法只能在公司內部使用 1，生成證書及私鑰 - 進入/etc/pki/tls/certs目錄 cd /etc/pki/tls/certs - 執行make +證書名，"註意：文件後綴很重要，輸入

spark性能調優點（逐步完善）

放大虛擬垃圾數據 oca 計算構建 lis 運行 1、使用高性能序列化類庫2、優化數據結構3、對多次使用的RDD進行持久化/CheckPoint4、使用序列化的持久化級別5、Java虛擬機垃圾回收調優降低RDD緩存占用空間的比例：new SparkConf().s

Spark性能優化指南——基礎篇

數據緩存較差計算平臺 entry col 機器輸入數據使用持久化數據前言在大數據計算領域，Spark已經成為了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學習、圖計算等各種不同類型的計

在公司內部網絡創建DNS域名解析

DNS DNS部署 linux linux運維在開發生產中，提供內網絡的web域名解析給研發部門去研發，而不需要將域名提供給外網！ yum install -y bind 安裝DNS服務vi /etc/named.conf 修改主配置文件vi /etc/named.rfc1

Spark性能優化指南——基礎篇（轉載

action 註冊 tex 開發者 ons apache ring 占用內存完整前言在大數據計算領域，Spark已經成為了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學習、圖計算等各種不同類

一個老鳥發的公司內部整理的 Android 學習路線圖

TCP/IP -i 組件 blog PE sam max 編輯 itl jixiaohua發了一篇一個老鳥也發了一份他給公司內部小夥伴整理的路線圖。另一份 Android 開發學習路線圖。可惜不是MarkDown格式的，所以jixiaohua直接上傳的截圖，在jixiaoh

調研公司內部Spark叢集能承受多少併發量

相關推薦