SparkCore（6）：Spark應用的監控Job History

阿新 • • 發佈：2018-12-17

1.實現功能

對於spark正在執行的應用，可以通過webUI：4040來檢視，但是對於已經執行完的job，則需要通過spark的job history來檢視，檢視方式是webUI：18080

2.配置Spark Job History

（1）建立HDFS上儲存spark應用執行日誌的資料夾

bin/hdfs dfs -mkdir -p /spark/history

（2）修改配置檔案(開啟日誌聚集功能)

修改spark-defaults.conf檔案

mv spark-defaults.conf.template spark-defaults.conf

新增

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://bigdata.ibeifeng.com:8020/spark/history
spark.yarn.historyServer.address               http://bigdata.ibeifeng.com:18080

（3）配置Spark job history的相關引數

vim spark-env.sh

修改

SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://bigdata.ibeifeng.com:8020/spark/history"

（4）啟動yarn和historyserver

-》啟動yarn

    sbin/start-yarn.sh
    sbin/stop-yarn.sh

-》啟動historyserver

   sbin/mr-jobhistory-daemon.sh start historyserver

（5）啟動spark的jobhistory服務

sbin/start-history-server.sh

（6）測試

再啟動一個bin/spark-shell，執行

val lines = sc.textFile("/README.md")

檢視Web頁面，顯示完成任務

http://bigdata.ibeifeng.com:18080

3.Spark Job History Rest API

在專案中，可以使用Rest API讀取到我們提交的應用的執行結果，儲存到資料

（1）檢視有多少應用

http://bigdata.ibeifeng.com:18080/api/v1/applications

（2）檢視對應的應用中有多少任務

http://bigdata.ibeifeng.com:18080/api/v1/applications/local-1494752327417/jobs

（3）下載對應的job的日誌資訊

http://bigdata.ibeifeng.com:18080/api/v1/applications/local-1494752327417/jobs/logs

SparkCore（6）：Spark應用的監控Job History

1.實現功能對於spark正在執行的應用，可以通過webUI：4040來檢視，但是對於已經執行完的job，則需要通過spark的job history來檢視，檢視方式是webUI：18080 2.配置Spark Job History （1）建立HDFS上儲存spar

SparkCore（4）：Spark-shell的topN的3種實現

一、實現功能獲取Top10 word單詞二、實現方法 1.方法1.sortBy val textFile = sc.textFile("file:///opt/modules/spark-2.1.0-bin-2.7.3/README.md") val wordRD

Spark筆記整理（三）：Spark WC開發與應用部署

大數據 Spark [TOC] Spark WordCount開發創建的是maven工程，使用的依賴如下： <dependency> <groupId>org.scala-lang</groupId> <artifactId>scal

Deeplearning4j 實戰（6）：基於LSTM的文字情感識別及其Spark實現

在做機器學習的各種應用中，文字分類是比較典型的一種。比如，微博的分類，電商中商品評價的好壞分類，新聞的分類等等。同時，文字作為一種重要的特徵，也在CTR預估，推薦等應用中起著作用。就文字分類這個應用而言，通常的做法是基於詞袋模型和詞向量模型來進行。基於詞袋（Bag of Words）的模型的話，一般

Postman高階應用（6）：解放測試同學的雙手——自動化測試

背景我們寫完了業務介面，一般都要自驗一下，看下通沒通。雖然可以寫單元測試，但實施起來沒有那麼簡單。我們第一時間想到了Postman，它的出現不就是為了解決API測試問題的嗎？我們要做的是把要測試的API錄入到Postman，然後寫驗證返回結果的測試指令碼。每

網路應用（6）：http報文結構與curl的使用

http是一個協議，協議就是約定、規定，先不管為什麼這麼約定有什麼高深的東西，為了解決具體問題，我們先要能使用協議，理解協議中對我們有用的那部分資料，是的，我們不是研究生，更不是純研究，所有的研究都要由具體的問題來驅動。那這裡的具體問題是什麼？就是看懂http的請求跟回覆啊，就像寫某某申請一樣，你不理申請最

linux命令學習（6）：ps命令

bytes 釋放 ice cti width kthread hellip 名稱 pts Linux中的ps命令是Process Status的縮寫。ps命令用來列出系統中當前運行的那些進程。ps命令列出的是當前那些進程的快照，就是執行ps命令的那個時刻的那些進程，如果想要

C++傳智筆記（6）：socket客戶端發送報文接受報文的api接口

內存泄露 rcp 分配內存 strcpy light cpp tac 第三方 _file__ #define _CRT_SECURE_NO_WARNINGS #include "stdio.h" #include "stdlib.h" #include "string.

Windows Phone開發（6）：處理屏幕方向的改變

cati sources mon stack mar ber XML break pac 俺們都知道，智能手機可以通過旋轉手機來改變屏幕的顯示方向，更多的時候，對於屏幕方向的改變，我們要做出相應的處理，例如，當手機屏幕方向從縱向變為橫向時，可能要重新排列頁面上的控件以適應顯

設計模式六大原則（6）：開閉原則

思考外部編程人員恰恰單一職責何事適應擴展分享開閉原則定義：一個軟件實體如類、模塊和函數應該對擴展開放，對修改關閉。問題由來：在軟件的生命周期內，因為變化、升級和維護等原因需要對軟件原有代碼進行修改時，可能會給舊代碼中引入錯誤，也可能會使我們不得不對

springBoot（6）：web開發-模板引擎jsp

spring boot 一、新建工程註意新建的工程下沒有webapp目錄eclipse下會自動創建webapp目錄這裏我們需要自動創建一個webapp目錄並創建WEB-INF。對ServletInitializer.java進行說明 1、這個類相當於我們以前的web.xml 2、只有3.0以上才

學習用Node.js和Elasticsearch構建搜索引擎（6）：實際項目中常用命令使用記錄

nds 黃色 ati cat htm action last shard open 1、檢測集群是否健康。 curl -XGET ‘localhost:9200/_cat/health?v‘#後面加一個v表示讓輸出內容表格顯示表頭綠色表示一切正常，黃色表示所有

EasyPR源碼剖析（6）：車牌判斷之LBP特征

extend 順序位置 feature tput ray bpf range str 一、LBP特征 LBP指局部二值模式，英文全稱：Local Binary Pattern，是一種用來描述圖像局部特征的算子，LBP特征具有灰度不變性和旋轉不變性等顯著優點。原始的LBP

python函數（6）：內置函數和匿名函數

a20 *args -s 執行 code str 思維導圖 inpu 其他我們學了這麽多關於函數的知識基本都是自己定義自己使用，那麽我們之前用的一些函數並不是我們自己定義的比如說print()，len()，type()等等，它們是哪來的呢？一、內置函數由pytho

Linux自學筆記（6）：Linux文件系統及文件類型

linux文件類型 linux文件系統 Linux的文件系統：跟文件系統（rootfs）root filesystem LSB,FHS：linux發行標準1 bin boot dev etc home lib lib64 media mnt opt proc root run

Spark筆記整理（一）：spark單機安裝部署、分布式集群與HA安裝部署+spark源碼編譯

大數據 Spark [TOC] spark單機安裝部署 1.安裝scala 解壓：tar -zxvf soft/scala-2.10.5.tgz -C app/ 重命名：mv scala-2.10.5/ scala 配置到環境變量： export SCALA_HOME=/home/uplooking

Spark筆記整理（五）：Spark RDD持久化、廣播變量和累加器

大數據 Spark [TOC] Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一個功能特性就是可以將RDD持久化在內存中。當對RDD執行持久化操作時，每個節點都會將自己操作的RDD的partition持久化到內存中，並且在之後對該RDD的反復使用中，直接使用內存緩存的parti

《Linux學習並不難》Linux常用操作命令（6）：uname命令顯示計算機和系統相關信息

Linux8.6 《Linux學習並不難》Linux常用操作命令（6）：uname命令顯示計算機和系統相關信息使用uname命令可以顯示計算機以及操作系統的相關信息，比如計算機硬件架構、內核發行號、操作系統名稱、計算機主機名等。命令語法： uname [選項] 命令中各選項的

《Linux學習並不難》用戶管理（6）：刪除Linux用戶賬戶

Linux 用戶 userdel 9.6 《Linux學習並不難》用戶管理（6）：刪除Linux用戶賬戶使用userdel命令可以在Linux系統中刪除用戶賬戶，甚至連用戶的主目錄也一起刪除。命令語法：userdel [選項] [用戶名]命令中各選項的含義如表所示。選項選項含

《Linux學習並不難》文件/目錄管理（6）：mkdir命令創建目錄

Linux mkdir 目錄 7.6 《Linux學習並不難》文件/目錄管理（6）：mkdir命令創建目錄使用mkdir命令可以在Linux系統中創建目錄。命令語法：mkdir [選項] [目錄]命令中各選項的含義如表所示。選項選項含義 -m <權限模式>對新創建的目錄設置權限

SparkCore（6）：Spark應用的監控Job History

1.實現功能

2.配置Spark Job History

3.Spark Job History Rest API

相關推薦