1. 程式人生 > >Spark Web UI 監控

Spark Web UI 監控

8080

當我們成功啟動spark後,通過http://localhost:8080即可訪問master的監控介面,此埠號預設是8080,若此埠不可用,也可通過修改配置檔案conf/spark-env.sh進行修改

如上圖所示,此頁面自上而下包括: 
spark版本資訊,spark master 的URL(worker用來連線此master的URL) 
worker的數量:1 
所有worker節點中可用和在用的core(檢視資源的使用情況,參考是否適合再啟動一個應用等) 
所有worker節點中可用和在用的memory(如上) 
正在執行和已經完成的應用數量 
master當前狀態

workers部分 
-展示叢集中每個worker的位置,到當前狀態,核心使用情況,記憶體使用情況 
(通過檢視核心和記憶體的用量情況確定是否足夠執行一個新的應用) 
-點選workerID進入worker的detail頁面會顯示與該worker更詳細的資訊 
(理想情況下,所有worker節點使用的核心數和記憶體應該是相同的,如果出現使用率不同的情況,說明叢集資源未平均分配,應用未最佳化執行,需停止所有應用重新啟動叢集)

Running/Completed Application部分 
-分別展示在執行和已經執行完的應用資訊,包括名稱,獲得的資源,開始時間,所有者,已執行時間,目前狀態(RUNNING/FINISHED/結束原因) 
(若state顯示WAITING,則說明Spark對於應用沒有足夠的記憶體或核心,將保持等待直到有足夠資源可用,有幾種情況,一是直到已經在執行的一個應用完成執行,而是增加分配給spark worker的資源,三是將少應用的請求資源) 
-點選ApplicationID進入detail頁面會顯示看到關於該應用執行時的詳細資訊,包括參與的worker/使用的資源數/日誌等 
(如果一個任務失敗或丟擲了異常,可以檢視stderr檔案來除錯問題)


4040
localhost:4040(當應用在執行中的時候可以訪問,一旦應用執行結束該埠關閉不可訪問) 
如下圖,顯示基本的執行時間,排程模式(FIFO為先進先出),不狀態中作業的統計量,並顯示正在執行/已經完成/執行失敗的spark作業較為詳細的資訊列表,例如,Job的提交時間/執行時間/目前為止每個Job完成的Stage和Task數量等 
(從執行時間項可以觀察到,若某一個Job花費時間異常,可以把問題縮小到該Job下的Stage或者Task)