多執行緒批量提交Spark任務

阿新 • • 發佈：2021-01-17

技術標籤：大資料 Java spark排程系統多執行緒提交任務批量提交spark任務

一.目的

1.避免資源的浪費

2.提高任務執行的效率

3.防止任務未執行完畢，session和執行緒池已關閉，導致任務失敗

二、異常coding：

1）method 1

  for (String s : list) {
            Dataset<Row> sql = sparkSession.sql(s);
            sql.show();
        }
        sparkSession.close();
        System.out.println("=====任務執行完畢====");

2)method 2

      //啟動多執行緒
        ExecutorService executorService = Executors.newFixedThreadPool(list.size());
        for (String s : list) {
            executorService.submit(new Runnable() {
                @Override
                public void run() {
                    Dataset<Row> sql = sparkSession.sql(s);
                    sql.show();
                }
            });
        }

        //關閉session和執行緒池
        executorService.shutdown();
        sparkSession.close();
        System.out.println("=====任務執行完畢====");

上述兩段程式碼有很大的問題，以及會有異常產生

method 1:

任務是一個一個序列執行，例如

若該任務申請到10個core，10G記憶體，而在執行第一個sql1時，job只使用了4個Core和2G記憶體，那麼就造成了資源的浪費和剩下的任務還在等待該job的執行，不等做到資源的使用，而且任務時序列執行效率慢。

弊端：a.浪費資源 b.執行效率慢

method2:

雖然是使用多執行緒提交任務，但是會發生任務未執行完畢session提前關閉的異常

三.coding--解決方案

1.使用CountDownLatch的計數器批量提交任務

1）計數器的初始大小和任務數量保持一致(和執行緒數無關)

2）每執行完一次任務計數器減一

3）await()方法會一致阻塞，直到計數器的值減為0，才會釋放鎖，以便所有任務執行完畢後繼續執行下一步操作

/**
 * 批量執行sql任務
 */
public class Test {

    public static void main(String[] args) throws Exception {
        //建立批量sql任務
        String sql1 = "select count(1) from pub_penalty where dt=20210106";
        String sql2 = "select count(1) from pub_penalty_tmp";
        String sql3 = "select count(1) from pub_permission_tmp";
        String sql4 = "select count(1) from pub_permission";
        String sql5 = "select count(1) from test_sort";
        ArrayList<String> list = new ArrayList<>();
        list.add(sql1);
        list.add(sql2);
        list.add(sql3);
        list.add(sql4);
        list.add(sql5);

        //初始化SparkSession
        SparkSession sparkSession = initSparkSession();
        
        //初始化CountDownLatch計數器，計數器大小和任務數保持一致
        CountDownLatch countDownLatch = new CountDownLatch(list.size());
        //啟動多執行緒
        ExecutorService executorService = Executors.newFixedThreadPool(list.size());
        for (String s : list) {
            executorService.submit(new Runnable() {
                @Override
                public void run() {
                    Dataset<Row> sql = sparkSession.sql(s);
                    System.out.println(s + "---->runing..........." + sql.count());
                    //計數器減一
                    countDownLatch.countDown();
                }
            });
        }
       //阻塞等待
        countDownLatch.await();
        System.out.println("----->執行完畢");
        //關閉session和執行緒池
        sparkSession.close();
        executorService.shutdown();
    }

    private static SparkSession initSparkSession() {
        System.setProperty("hadoop.home.dir", "D:\\appinstall");
        System.setProperty("HADOOP_USER_NAME", "bbdoffline");
        SparkConf conf = new SparkConf();
        conf.setAppName("bbd-wgj");
        SparkSession sparkSession =             SparkSession.builder().config(conf).master("local[*]").enableHiveSupport().getOrCreate();
        sparkSession.sparkContext().setLogLevel("WARN");
        return sparkSession;
    }

2.使用Callable提交任務，通過返回值Future<T>的阻塞方法get()批量提交任務

1）使用Callable具有返回值的多執行緒方法提交任務

2）返回值Future<T> 的get()方法是個阻塞方法，會等待結果的返回，直到任務結束


......主體程式碼......
//啟動多執行緒
        ExecutorService executorService = Executors.newFixedThreadPool(list.size());
        ArrayList<Future<String>> list1 = new ArrayList<>();
        for (String s : list) {
            //使用Callable具有返回值的多執行緒方法提交任務
            Future<String> submit = executorService.submit(new Callable<String>() {
                @Override
                public String call() throws Exception {
                    Dataset<Row> sql = sparkSession.sql(s);
                    sql.show();
                    return "success" + s;
                }
            });
            //將任務返回值新增到list集合
            list1.add(submit);
        }
        for (Future<String> result : list1) {
            try {
                //get是一個阻塞方法，獲取結果值
                String retult = result.get();
                System.out.println(retult);
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
        //關閉session和執行緒池
        executorService.shutdown();
        sparkSession.close();
        System.out.println("=====任務執行完畢====");

spark ui圖:

如圖所示，多執行緒提交任務時，當資源申請足夠多時，會同時執行！！！即使資源不足，也會在上一個任務結束釋放資源後立即執行

注意：任務中視圖表的建立、臨時表的建立、等共享變數的建立，多個任務同時執行時，會造成同時使用!!!

該方法親試成功程式碼！！！

Github: https://github.com/wjy9517/myjob

----值得推薦

多執行緒批量提交Spark任務

技術標籤：大資料Javaspark排程系統多執行緒提交任務批量提交spark任務一.目的

Java Lock鎖多執行緒中實現流水線任務

　　下面程式程式碼通過使用Lock鎖執行簡單的流水線任務： import java.util.concurrent.locks.Condition;

Python多執行緒批量Ping主機IP的指令碼

Python 編寫多執行緒 Ping 主機IP的指令碼1. 先編寫一個 Ping 主機IP的指令碼ping_ip.pyimport subprocess

多執行緒批量新增excel資料到mysql資料庫報空指標異常

技術標籤：多執行緒專題javamysql 問題描述多執行緒下，向資料庫批量匯入資料，出現空指標NullPointerException。

python多執行緒批量操作交換機

import time import socket import threading def device_info(): ip_list = [] name_list = [] user_list = [] passwd_list = []

Java多執行緒批量處理、執行緒池的使用

1、引言在開發中，有時會遇到批量處理的業務。如果單執行緒處理，速度會非常慢，可能會導致上游超時。這是就需要使用多執行緒開發。

Spark調優多執行緒並行處理任務實現方式

方式1: 1. 明確 Spark中Job 與 Streaming中 Job 的區別 1.1 Spark Core 一個 RDD DAG Graph 可以生成一個或多個 Job（Action操作）

Spring boot如何通過@Scheduled實現定時任務及多執行緒配置

這篇文章主要介紹了Spring boot如何通過@Scheduled實現定時任務及多執行緒配置,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python kafka 多執行緒消費者&手動提交例項

官方文件：https://kafka-python.readthedocs.io/en/master/apidoc/KafkaConsumer.html import threading

Python批量啟動多執行緒程式碼例項

這篇文章主要介紹了python批量啟動多執行緒程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

springboot使用多執行緒任務

1、config目錄下建立執行緒池物件 import org.slf4j.Logger; import org.slf4j.LoggerFactory; import org.springframework.beans.factory.annotation.Value;

Spring Boot 定時任務單執行緒和多執行緒

1、建立定時任務： @Component public class AutoNotifyController { /** * 獲取RedisUtils注入的bean

Spring Boot定時任務單執行緒多執行緒實現程式碼解析

1、建立定時任務： @Component public class AutoNotifyController { /** * 獲取RedisUtils注入的bean

多執行緒與定時任務

需求：將三張表的查詢結果定時儲存到另一張表中 @Component public class TaskDemo { @Autowired

Java countDownLatch如何實現多執行緒任務阻塞等待

我這裡需要通過多執行緒去處理資料，然後在所有資料都處理完成後再往下執行。這裡就用到了CountDownLatch。把countdownlatch作為引數傳入到每個執行緒類裡，線上程中處理完資料後執行countdown方法。在所有countdown

執行緒池提交任務時submit()和execute()的區別

因為之前一直是用的execute方法，最近有個情況需要用到submit方法，所以研究了下。

iOS 多執行緒之任務和佇列

前言學習多執行緒，肯定要了解GCD,GCD兩個最核心的概念就是：任務和佇列。所以學習好多執行緒，首先要把任務和佇列吃透，才能能好的使用多執行緒。

NX二次開發-C++多執行緒技術做exe外部開發(批量匯出PDF圖紙例子)

NX11+VS2013 /***************************************************************************** ** ** NX11_Open_Wizard1.cpp

ScheduledExecutorService 多執行緒，單執行緒的影響，定時任務，延時任務，週期任務

adfa1.schedule()方法 public static void main(String[] args) {// 注意此處執行緒個數為1ScheduledExecutorService executorService = Executors.newScheduledThreadPool(1);long start = System.currentTimeMill

python批量刪除檔案，多執行緒版【五】

import os from queue import Queue import threading import datetime def read_directory(directory_name): wenjian=[]

多執行緒批量提交Spark任務

一.目的

二、異常coding：

三.coding--解決方案

注意：任務中視圖表的建立、臨時表的建立、等共享變數的建立，多個任務同時執行時，會造成同時使用!!!

相關推薦