1. 程式人生 > >spark 資源優化之道

spark 資源優化之道

在spark job執行中,我們通常會遇到這樣那樣的奇怪問題。該節主要介紹開發部署中遇到的一些資源分配問題。

如:資源不足,資源分配過多,佇列緊張等很多很多問題。

在工程實踐中,我們都希望自己的job 能夠以最快的速度,最優的流程執行,以提高我們效率。於是乎我們往往在spark job提交的配置指令碼中配置的job的資源越多越好,這就帶來的一個問題,叢集資源有限,可用資源不能夠滿足大資源的job,從而使得很多job 不能執行。為此造成問題,job不能按時執行完成。為此,提出以下幾點建議,希望能夠有所幫助。提高spark 叢集的使用效率和job順利執行。

1. 提交的job 首先評估處理的資料量,以便配置合理的記憶體,core 資源,避免過多分配和分配不足等問題;

Excutor;

Core;

Memory;

2. 控制併發和並行度

並行度(partition數目)由初始資料大小,資料型別,程式設定,分配的executor, core 資料目共同決定

考慮以上設定後,job 執行基本保證順利完成。

但在生產叢集上,我們還需要注意就是job 的並行執行限制,生產叢集為保證系統穩定,往往會新增其他限制,如:job 數,單個job 最大資源等,需要根據實際情況,調整引數。

相關推薦

spark 資源優化

在spark job執行中,我們通常會遇到這樣那樣的奇怪問題。該節主要介紹開發部署中遇到的一些資源分配問題。 如:資源不足,資源分配過多,佇列緊張等很多很多問題。 在工程實踐中,我們都希望自己的job 能夠以最快的速度,最優的流程執行,以提高我們效率。於是乎我們往往在sp

Spark效能優化——解決Spark資料傾斜(Data Skew)的N種姿勢

摘要 本文結合例項詳細闡明瞭Spark資料傾斜的幾種場景以及對應的解決方案,包括避免資料來源傾斜,調整並行度,使用自定義Partitioner,使用Map側Join代替Reduce側Join,給傾斜Key加上隨機字首等。 為何要處理資料傾斜(Da

Spark性能優化——解決Spark數據傾斜(Data Skew)的N種姿勢

至少 array 效率提升 default executors 並行處理 foreach shp 來源 原創文章,轉載請務必將下面這段話置於文章開頭處。本文轉發自技術世界,原文鏈接 http://www.jasongj.com/spark/skew/ 摘要 本文結合

百萬併發下的 Nginx 效能優化,值得看!!!

Nginx 很火,火到無論是創業公司,還是 BAT 等一線網際網路公司,都會使用Nginx。因為它就像一個萬能藥,在任何存在效能需求的場合總能找見它的身影。它可以輕鬆在百萬併發連線下實現高吞吐量的 Web 服務,同時諸多應用場景下的問題都可以通過種種 Nginx 模組得以解決,而我們所需的工

【效能優化】每秒上萬併發下的Spring Cloud引數優化實戰

歡迎關注個人微信公眾號:石杉的架構筆記(id:shishan100) 週一至週五早八點半!精品技術文章準時送上!!   往期文章 1. 拜託!面試請不要再問我Spring Cloud底層原理! 2.【雙11狂歡的背後】微服務註冊中心如何承載大型系統的千萬級

效能優化】每秒上萬併發下的Spring Cloud引數優化實戰

本文為轉載文章,作者:中華石杉,十餘年BAT架構經驗,傾囊相授。作者微信公眾號:石杉的架構筆記(ID:shishan100)   一、寫在前面   相信不少朋友都在自己公司使用Spring Cloud框架來構建微服務架構,畢竟現在這是非常火的一門技術

高併發Haproxy壓力測試與優化

壓力測試--壓測及調優 HAProxy 實現 200 萬併發 SSL 連線的過程先觀察上面截圖,可以看到兩個關鍵資訊: • 這臺機器已經建立了 2.3 萬個 TCP 連線• 使用記憶體大約在 22G。測試目標 我們要測試的元件是 HAProxy 1.6 版。生產環境是在 4 核 30 G 的機器

高並發Haproxy壓力測試與優化

細節 過濾 real rfc p s 多個 list 服務 執行c 壓力測試--壓測及調優 HAProxy 實現 200 萬並發 SSL 連接的過程先觀察上面截圖,可以看到兩個關鍵信息: ? 這臺機器已經建立了 2.3 萬個 TCP 連接? 使用內存大約在 22G

深入淺出分散式儲存的設計與優化

隨著資訊化程度的不斷提高,全球資料日益膨脹。面對當前PB級的海量資料儲存需求,傳統的儲存系統在容量和效能的擴充套件上存在瓶頸。雲端儲存以其擴充套件性強、價效比高、容錯性好等優勢得到了業界的廣泛認同。由於其前瞻性,眾多企業都將其作為進軍雲端計算的第一步。分散式檔案系統和分散式塊儲存作為雲端儲存中重要的

Spring Cloud---【效能優化】每秒上萬併發下的Spring Cloud引數優化實戰

本文來源:公眾號:石杉的架構筆記(ID:shishan100) 一、寫在前面 相信不少朋友都在自己公司使用Spring Cloud框架來構建微服務架構,畢竟現在這是非常火的一門技術。 如果只是使用者量很少的傳統IT系統,使用Spring Cloud可能還暴露不出什麼問題。

每秒上萬併發下的Spring Cloud效能優化

本文為轉載文章,作者:中華石杉,十餘年BAT架構經驗,傾囊相授。作者微信公眾號:石杉的架構筆記(ID:shishan100)   一、寫在前面   相信不少朋友都在自己公司使用Spring Cloud框架來構建微服務架構,畢竟現在這是非常火的一門技術

碼神是如何煉成的?——記十個java程式碼優化

大部分程式設計師技術平平,只能稱之為碼農 還有一小部分程式設計師,程式碼敲得一流,稱之為大神,也叫碼神 你想成為碼神嗎!認真往下看吧! (1)對資源的close()建議分開操作 意思是,比如我有這麼一段程式碼: try{ XXX.close(); YYY.close();

Unity優化資源優化紋理優化

Unity3D引擎處理紋理:不論你匯入的是PNG,PSD還是TGA,它們都會被自動轉換成Unity自己的Texture2D格式。(美術資源規範:貼圖長寬應為4的倍數) 不同平臺的圖集格式選擇方案(TextureImporterFormat): Android:

Spark效能優化資料傾斜調優與shuffle調優

一、資料傾斜發生的原理 原理:在進行shuffle的時候,必須將各個節點上相同的key拉取到某個節點上的一個task來進行處理,比如按照key進行聚合或join等操作。此時如果某個key對應的資料量特別大的話,就會發生資料傾斜。資料傾斜只會發生在shuffle過程中。常用的並且可能會觸

設計容錯的資料庫連線池程式設計思路--架構優化【JAVA核心】

本專案的原始碼已經上傳,歡迎點選下載1、資料庫連線池的產生背景?資料庫在高併發情況下會面臨諸多問題——JDBC:管道的臨時建立——非常耗用資源,而且在高併發中,多個客戶端同時建立IO管道DB的承受能力如何考慮?執行SQL語句完畢後又要馬上銷燬——之後難道不要再用?最大連線管道

程式設計師簡歷優化

作者:安曉輝 宣告:原創文章,禁止各種形式的轉載。 為什麼你投十份簡歷,只有一兩家公司約你?又或者為什麼你每投一份簡歷都能獲得面試機會?最根本的原因,就是一方在汲汲渴求,而恰恰另一方呈現出的關鍵點讓其怦然心動。求者心中有所想,而應者恰恰展現了求者所想的那一

百萬併發下的 Nginx 效能優化

Nginx很火,因為它就像一個萬能藥,在任何存在效能需求的場合總能找見它的身影。它可以輕鬆在百萬

【效能優化】每秒上萬併發下的Spring Cloud引數優化實戰!

【效能優化之道】每秒上萬併發下的Spring Cloud引數優化實戰! 中華石杉 Java後端技術 今天 本文來源:石杉的架構筆記(ID:shishan100) 往期文章: 拜託!面試請不要再問我Spring Cloud底層原理 【雙11狂

spring+ehcache實戰--效能優化

在做系統整合平臺專案的時候遇到了一個比較麻煩的問題,原因是使用考試系統的時候所依賴的是基礎系統釋出的webservice來獲取基礎資料,webservice的跨網路傳輸本身或多或少會對系統性能產生一定影響再加上傳輸的資料量比較大這樣對系統性能的影響就更大了,但是導致系統性能

Spark性能調優——解決Spark數據傾斜(Data Skew)的N種姿勢

sca ace 便是 triplet 大小 spark 構建 由於 itl 原文:http://blog.csdn.net/tanglizhe1105/article/details/51050974 背景 很多使用Spark的朋友很想知道rdd