解決spark streaming長時間執行日誌不斷增長問題

阿新 • • 發佈：2019-01-03

元件：
基於CDH5.13、spark2.2.X

背景：
由於spark streaming是7*24小時不間斷執行的，日誌必然會越來越多到最後大的驚人，在此小二記錄一下解決日誌越來越大的過程，以便需要之人。

一、spark streaming log 日誌

首先官網的

spark.executor.logs.rolling.enabled
spark.executor.logs.rolling.maxRetainedFiles
spark.executor.logs.rolling.enableCompression
spark.executor.logs.rolling.maxSize
spark.executor.logs.rolling.strategy
spark.executor.logs.rolling.time.interval
spark.executor.logs.rolling.strategy

在yarn-client，yarn-cluster中都是不起作用的。於是問了一個谷大爺之後，決定開始採用設定log4j.properties的方法

client模式下：

--driver-java-options "-Dlog4j.configuration=file:driver-log4j.properties" --conf spark.executor.extraJavaOptions=-Dlog4j.configuration=file:executor-log4j.properties --files ./driver-log4j.properties,./executor-log4j. 
properties

需要注意的是client模式下是–driver-java-options，因為SparkContext的config起作用的時候，driver已經啟動的了

cluster模式

--conf spark.eventLog.enabled=false --conf spark.driver.extraJavaOptions=-Dlog4j.configuration=file:driver-log4j.properties --conf spark.executor.extraJavaOptions=-Dlog4j.configuration=file:executor-log4j. 
properties --files ./driver-log4j.properties,./executor-log4j.properties

driver-log4j.properties

log4j.rootLogger =info,stdout

log4j.appender.stdout = org.apache.log4j.ConsoleAppender
log4j.appender.stdout.Target = System.out
log4j.appender.stdout.layout = org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern = %-d{yyyy-MM-dd HH:mm} %5p %t %c{2}:%L - %m%n

driver端只進行標準輸出

executor-log4j.properties

log4j.rootLogger =info,stdout,rolling

log4j.appender.stdout = org.apache.log4j.ConsoleAppender
log4j.appender.stdout.Target = System.out
log4j.appender.stdout.layout = org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern = %-d{yyyy-MM-dd HH:mm} %5p %t %c{2}:%L - %m%n

log4j.appender.rolling=org.apache.log4j.RollingFileAppender
log4j.appender.rolling.layout=org.apache.log4j.PatternLayout
log4j.appender.rolling.layout.conversionPattern=%-d{yyyy-MM-dd HH:mm:ss} %5p %t %c{2}:%L - %m%n
log4j.appender.rolling.maxFileSize=100MB
log4j.appender.rolling.maxBackupIndex=5
log4j.appender.rolling.file=${spark.yarn.app.container.log.dir}/stdout
log4j.appender.rolling.encoding=UTF-8

executor既要進行標準輸出又要輸出到檔案，標準輸出其實最主要的就是方便client時除錯，cluster模式標準輸出完全可以去掉，如果不需要在列印臺或者類似列印臺的地方檢視日誌。
需要注意的log4j.appender.rolling.file的檔案為stdout，方便對標準輸出的日誌和輸出到檔案的日誌進行統一管理，避免標準輸出的日誌檔案越來越大

當然了對log4j日誌的所有操作在此都是有效的

二、spark streaming event log

針對spark streaming的event log，CDH預設是開啟的，配置方式基於CM，而apache 版本的預設是關閉的，目前也不知道event log的確切用處，在此就將它關閉

--conf spark.eventLog.enabled=false

下面給出一個完整版的，以client為例

SPARK_KAFKA_VERSION=0.10 nohup spark2-submit --master yarn --deploy-mode client  --name spark-commom-orders --driver-class-path=kafka010/kafka-clients-0.10.2.1.jar --conf spark.eventLog.enabled=false --conf spark.driver.extraJavaOptions=-Dlog4j.configuration=file:driver-log4j.properties --conf spark.executor.extraJavaOptions=-Dlog4j.configuration=file:executor-log4j.properties --files ./driver-log4j.properties,./executor-log4j.properties  --jars $(echo sparklib0.10/*.jar | tr ' ' ',') --XXX  ./spark-common-1.0-SNAPSHOT.jar > /dev/null 2>&1 &

其中SPARK_KAFKA_VERSION=0.10是基於spark-streaming-kafka-0-10_2.11可依情況採用

關於重複提交jar包問題，請看一下文章

解決spark streaming長時間執行日誌不斷增長問題

元件：基於CDH5.13、spark2.2.X 背景：由於spark streaming是7*24小時不間斷執行的，日誌必然會越來越多到最後大的驚人，在此小二記錄一下解決日誌越來越大的過程，以便需要之人。一、spark streaming log 日誌

讓 Spark Streaming 程式在 YARN 叢集上長時間執行（二）—— 日誌、監控、Metrics

前段時間看到了外國朋友寫的一篇文章，覺得還不錯，於是就把他翻譯一下，供大家參考和學習。如果沒看過第一篇文章，建議先去看一下上一篇文章哈，這裡是接著上一篇文章來寫的哈~ 日誌訪問 Spark 應用程式日誌的最簡單方法是配置 Log4j 控

解決Spark Streaming任務日誌打爆磁碟問題

1.在standlone模式下，為了減少日誌在磁碟佔用的輸出的量，可以設定一下幾個引數。spark.executor.logs.rolling.maxRetainedFilesspark.executor.logs.rolling.enableCompressionspark

長時間執行的PHP程式解決方案

描述：有時候，PHP程式會面臨AJAX過來的呼叫，但邏輯處理的執行又比較漫長，如外部呼叫svn checkout某個專案，那麼就會導致幾個問題：客戶端超時，返回資料集超大，伺服器端指令碼超時，記憶體佔用巨大等比較了幾個解決方案，以下這個能比較好地解決上述問題，對伺服器的調整也不會造成太大影響。

Android JNI呼叫OpenCV,長時間執行記憶體異常,導致閃退的log分析和解決---(ReferenceTable overflow (max=1024)造成的)

首先交代下問題背景，前些日子自己在android上搞了個入侵檢測玩。就是camera當作監控裝置，每隔一定時間檢測是否有東西入侵，如果入侵率到一定程度就報警的東西。最近發現，每次執行超過20分鐘，app直接掛掉消失。下面附上核心完整log:01-01 21:17:42.321

spring boot 長時間執行上傳報臨時目錄找不到

The temporary upload location [/tmp/tomcat-docbase.3752410576653354473.8899/work/Tomcat/localhost/ROOT] is not valid at org.springframework.web.serv

長時間連線傳輸不斷守護程序命令

Linux使用screen實現程序守護 2018-02-08 分類：Linux 閱讀(371) 評論(0) 需求在使用 SSH 或者telent 遠端登入到Linux 伺服器，執行一些需要很長時間才能完成的任務或者必須要長期不間斷執行的任務（比如系統備份、ftp

nohub、screen管理長時間執行任務。

長時間連線到遠端Linux伺服器進行一些耗時比較長的工作（比如傳輸大檔案，系統備份等）時，這些工作耗時過長且中途不可關閉shell視窗或者斷開連線，否則任務會被kill。關掉視窗/斷開連線會使得正在執行的程式死掉，是由於signup結束通話訊號

處理瀏覽器端長時間執行JavaScript指令碼的兩種優化方式：定時器和worker

第一種：定時器方式，把長時間的任務進行分割成一個數組，間隔一定的時間執行。 function timeProcessArray(items, process, callBack) { let todo = items.concat() setTimeout(function () {

解決spark streaming重複提交第三方jar包問題

背景：由於spark streaming每次提交都需要上傳大量jar包到hdfs，為節約HDFS資源，現只存一份來解決這個問題元件： CDH 5.13 spark2.2.x 針對cluster模

Flume 長時間執行，Hive Sink 停止工作問題處理

1. 問題現象在使用 Flume 將資料從 Kafka 載入到 hive 的過程中，我們遇到一個問題：每天晚上 Flume 的 Hive Sink 總會報錯，然後停止工作：15 juil. 2016 2

Oracle儲存過程長時間執行檢查

1：查V$DB_OBJECT_CACHESELECT * FROM V$DB_OBJECT_CACHE WHERE name='CUX_OE_ORDER_RPT_PKG' AND LOCKS!='0';注意：CUX_OE_ORDER_RPT_PKG 為儲存過程的名稱。發現 locks＝22：按物件查出sid的

Flume+Kakfa+Spark Streaming整合（執行WordCount小例子）

環境版本：Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1; Flume 1.6.0 Flume/Kafka的安裝配置請看我之前的部落格: http://blog.c

Python3.7爬蟲大量爬取某小說網站小說並寫入mysql(持續完善中...) 未解決問題:mysql長時間新增超過百萬條數據表鎖甚至崩潰

oot req val page src sele 爬蟲 use uwa 練手之作代碼中還有很多問題持續完善中渣渣阿裏T5 99包郵服務器只開了6個進程 #encoding:utf-8 import requests # 請求 from lxml import

[ASP.NET Core 3框架揭祕] 服務承載系統[1]: 承載長時間執行的服務[上篇]

藉助.NET Core提供的承載（Hosting）系統，我們可以將任意一個或者多個長時間執行（Long-Running）的服務寄宿或者承載於託管程序中。ASP.NET Core應用僅僅是該承載系統的一種典型的服務型別而已，任何需要在後臺長時間執行的操作都可以定義成標準化的服務並利用該系統來承載。一、承載長時間

[ASP.NET Core 3框架揭祕] 服務承載系統[2]: 承載長時間執行的服務[下篇]

三、配置選項真正的應用開發總是會使用到配置選項，如演示程式中效能指標採集的時間間隔就應該採用配置選項的方式來指定。由於涉及對效能指標資料的傳送，所以最好將傳送的目標地址定義在配置選項中。如果有多種傳輸協議可供選擇，就可以定義相應的配置選項。.NET Core應用推薦採用Options模式來使用配置選項，所以可

解決Android studio華為真機執行LogCat日誌不斷輸出問題

這個暑假我剛開始學習安卓開發，我用的是真機除錯，專案能正常執行，但是Logcat卻不斷輸出日誌，這嚴重影響了我檢視自己列印的日誌，所以誓要解決這問題，於是我經過百度和自己的摸索，得出如下兩個解決辦法： 1.用LogCat列印日誌，message里加上字首用以標識，然後在logCat裡用搜索字首內

執行 brew install 命令長時間卡在 Updating Homebrew 的解決方法

在國內的網路環境下使用 Homebrew 安裝軟體的過程中可能會長時間卡在 Updating Homebrew 這個步驟。例：

安裝npm install時，長時間停留在fetchMetadata: sill 解決方法——換npm的源

sta 資源問題但是 install org .org 長時間 info data 安裝npm install時，長時間停留在fetchMetadata: sill mapToRegistry uri http://registry.npmjs.org/whatwg-fe

SQLServer中的執行計劃緩存由於長時間緩存對性能造成的幹擾

找到產品 ans ads 實戰 alt 開發實時計算 query 本文出處：http://www.cnblogs.com/wy123/p/7190785.html （保留出處並非什麽原創作品權利，本人拙作還遠遠達不到，僅僅是為了鏈接到原文，因為後續對可能存在的

解決spark streaming長時間執行日誌不斷增長問題

一、spark streaming log 日誌

二、spark streaming event log

相關推薦