1. 程式人生 > >Spark Streaming 作業排程流程

Spark Streaming 作業排程流程

StreamingContext在例項化時候會建立DStreamGraph、JobGenerator、JobScheduler 下面元件執行在Driver 1.JobGenerator: 通過timmer根據固定時間間隔(Batch Interval)不斷的產生Job (其實此時的Job相當於java的Runnable型別例項),Job會提交給JobScheduler 2.JobScheduler: 接收到Job後會通過執行緒池的方式提交給SparkCluster執行 3.ReceiverTracker: 下面元件執行在Executor 3.KafkaReceiver: 根據設定的Batch Interval不斷的通過(多)執行緒獲取kafka中的資料,然後通過BlockManager儲存到Executor,為了資料安全,採用WAL(writer ahead log)