Spark troubleshooting shuffle定址以及解決JVM GC導致拉取檔案失敗

阿新 • • 發佈：2018-12-26

shuffle定址圖

在這裡插入圖片描述

shuffle檔案定址基礎知識

MapOutputTracker

spark架構中的一個主從模組
Driver端主物件MapOutputTrackerMaster
Executor端從物件MapOutputTrackerWorker

BlockManager

也是spark架構中的一個模組，也是主從架構
Driver端主物件 BlockManagerMaster
Executor端BlockManagerWorker
無論driver端還是worker端BlockManager端都有四個物件
① DiskStore:負責磁碟的管理。
② MemoryStore

：負責記憶體的管理。
③ ConnectionManager：負責連線其他的 BlockManagerWorker。
④ BlockTransferService:負責資料的傳輸。

shuffle檔案定址流程

map task執行過程，會將task的執行情況和磁碟小檔案地址封裝到MapStatus物件中，通過MapOutPutTrackerWorker物件向Driver端的MapOutPutTrackerMaster彙報 Driver端就掌握了所有哦磁碟小檔案地址
reduce task執行之前，會通過Executor中MapOutPutTrackerWorker向Driver端的MapOutPutTrackerMaster獲取磁碟小檔案地址值

獲取到磁碟小檔案地址以後會通過BlockManager中的ConnectionManager連線資料所在節點ConnectionManager，然後通過BlockTransferService進行資料的傳輸。
BlockTransferService預設啟動5個task去節點拉取資料。預設情況下，5個task拉取資料量不能超過48M。

官網引數

在這裡插入圖片描述

如何調節引數

根據以上分析在拉取資料過程中如果小檔案所在executor正好在執行GC （minor GC或者 full GC）總之一旦發生GC那麼BlockManager也就結束了，無法進行網路傳輸資料，如果一直無法拉取可能會出現shuffle file not found 但是，可能下一個stage又重新提交了stage或task以後，再執行就沒有問題了，因為可能第二次就沒有碰到JVM在gc了。

那麼可以適當調大引數

spark.shuffle.io.maxRetries 60
spark.shuffle.io.retryWait 60s

最多可以忍受1個小時沒有拉取到shuffle file。只是去設定一個最大的可能的值。full gc不可能1個小時都沒結束吧。

這樣呢，就可以儘量避免因為gc導致的shuffle file not found，無法拉取到的問題

Spark troubleshooting shuffle定址以及解決JVM GC導致拉取檔案失敗

shuffle定址圖 shuffle檔案定址基礎知識 MapOutputTracker spark架構中的一個主從模組 Driver端主物件MapOutputTrackerMaster Executor端從物件MapOutputTrackerWorker BlockMa

Spark專案實戰-troubleshooting之解決JVM GC導致的shuffle檔案拉取失敗

一、shuffle檔案拉取失敗的背景介紹我們知道Executor是一個JVM程序，在其內部有一個BlockManager用於管理該executor的一些資料。 Map端的task在往磁盤裡寫檔案的時候，會通過BlockManager來維護底層的資料，同時也會將資料的元資訊

Spark任務提交 yarn-cluster模式解決jvm記憶體溢位問題以及簡單概述jdk7方法區和jdk8元空間

yarn-cluster 提價任務流程 1、提交方式 ./spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi ../lib/spark-exampl

按字定址和按位元組定址以及記憶體編碼、地址匯流排與資料匯流排的理解

記憶體編制和關於按字定址和按位元組定址的理解：在很多書上都看到32位地址線的定址空間是4G，我的理解是32位不就是32bit嗎，2^32Bit=4GB/8=0.5GB，為什麼會是4G呢？這裡其實設計到一個概念，就是記憶體編址的問題。32位地址線的定址範圍為什麼是4G？2^30

同一個電腦配置多個ssh key以及配置完成後git拉取或更新程式碼仍要輸入密碼問題的解決

1.配置多個ssh key以兩個賬號為例：[email protected]對應gitee的遠端倉庫[email protected]對應github的遠端倉庫1.1.在~/.ssh目錄下分別生成兩個賬號的ssh key使用ssh-keygen -t rs

Kubernetes之解決從k8s.gcr.io拉取映象失敗問題

前言　　因谷歌網路限制問題，國內的K8ser大多數在學習Kubernetes過程中因為映象下載失敗問題間接地產生些許失落感，筆者也因此腦殼疼，故翻閱資料得到以下解決方式：　　在應用yaml檔案建立資源時，將檔案中映象地址進行內容替換即可：　　將k8s.gcr.io替換為　　registry.c

【docker】解決docker pull映象拉取映象龜速的問題,docker拉取映象使用阿里雲docker映象加速器

在docker拉取mysql映象過程中，出現龜速的問題，解決這個問題的方法：這個頁面停留了好久好久，依舊沒有下載完成。碰上這種情況 1.先退出Ctrl+C 2.在瀏覽器上進入阿里雲docker庫 3.登入以後進入管理中心 4.進入映象

解決github 開啟、拉取、推送速度慢的問題

第一步：開啟ipaddress.com,查詢如下兩個域名，並分別記錄下其對應的ip： 1、github.com 2、github.global.ssl.fastly.net 第二步：更新hos

Kubernetes：如何解決從k8s.gcr.io拉取映象失敗問題

簡介新版本的Kubernetes在安裝部署中，需要從k8s.grc.io倉庫中拉取所需映象檔案，但由於國內網路防火牆問題導致無法正常拉取，本文將介紹如何繞過此問題，來完成業務的部署。問題描述使用Kubernetes V1.11.3版本部署叢集業務，在進行kubea

解決三星手機寫入和讀取檔案失敗問題

原因：三星手機的儲存路徑和其他oppo，vivo，華為等不一樣。解決方法如下： public File saveBitmapFile(Bitmap bitmap) throws FileNotFoundException { long currentTime =

解決國內使用者docker 拉取映象

前提：你得有自己的梯子。系統環境： centos 7第一步：搭建shadowsocks伺服器這步省略第二步：搭建本地轉發環境 yum install privoxy -y pip install shadowsockscentos 7 配置本地shad

【Spark篇】---Spark中Shuffle文件的尋址

sta lock exe 數據小文件默認節點刪除提高一、前述 Spark中Shuffle文件的尋址是一個文件底層的管理機制，所以還是有必要了解一下的。二、架構圖三、基本概念： 1) MapOutputTracker MapOutputTracker是Spa

關於在使用sparksql寫程序是報錯以及解決方案：org.apache.spark.sql.AnalysisException: Duplicate column(s): "name" found, cannot save to file.

文件加載 mod 但是路徑 win 錯誤寫入技術分享 over 說明：　　spark --version : 2.2.0 　　我有兩個json文件，分別是emp和dept： emp內容如下： {"name": "zhangsan", "age": 26, "dep

Spark troubleshooting shuffle定址以及解決JVM GC導致拉取檔案失敗

shuffle定址圖

shuffle檔案定址基礎知識

MapOutputTracker

BlockManager

shuffle檔案定址流程

官網引數

如何調節引數

Spark troubleshooting shuffle定址以及解決JVM GC導致拉取檔案失敗

Spark專案實戰-troubleshooting之解決JVM GC導致的shuffle檔案拉取失敗

Spark任務提交 yarn-cluster模式解決jvm記憶體溢位問題以及簡單概述jdk7方法區和jdk8元空間

按字定址和按位元組定址以及記憶體編碼、地址匯流排與資料匯流排的理解

同一個電腦配置多個ssh key以及配置完成後git拉取或更新程式碼仍要輸入密碼問題的解決

Kubernetes之解決從k8s.gcr.io拉取映象失敗問題

【docker】解決docker pull映象拉取映象龜速的問題,docker拉取映象使用阿里雲docker映象加速器

解決github 開啟、拉取、推送速度慢的問題

Kubernetes：如何解決從k8s.gcr.io拉取映象失敗問題

解決三星手機寫入和讀取檔案失敗問題

解決國內使用者docker 拉取映象

【Spark篇】---Spark中Shuffle文件的尋址

關於在使用sparksql寫程序是報錯以及解決方案：org.apache.spark.sql.AnalysisException: Duplicate column(s): "name" found, cannot save to file.

演算法導論第十一章：散列表筆記（直接定址表、散列表、通過連結法解決碰撞、雜湊函式、開放定址法、完全雜湊）

實驗三：用雙鏈表、靜態連結串列以及間接定址實現基本的學生管理系統

組合語言——彙編的8種定址方式，以及2個預設段暫存器

HBASE系統架構圖以及各部分的功能作用，物理儲存，HBASE定址機制，讀寫過程，Region管理，Master工作機制

SOFAMesh中的多協議通用解決方案x-protocol介紹系列(1) ： DNS通用定址方案

Spark troubleshooting 1運算元返回null錯誤 2錯誤持久化以及checkpoint

Spark效能調優 troubleshooting shuffle調優 reduce端緩衝大小以避免OOM

Spark troubleshooting shuffle定址 以及 解決JVM GC導致拉取檔案失敗

shuffle定址圖

shuffle檔案定址基礎知識

MapOutputTracker

BlockManager

shuffle檔案定址流程

官網引數

如何調節引數

相關推薦

Spark troubleshooting shuffle定址以及解決JVM GC導致拉取檔案失敗