1. 程式人生 > >pyspark指令碼並行執行

pyspark指令碼並行執行

最近一個模型在預測資料時因為資料量太大而速度很慢,想要做成並行,結果不知道怎麼動態命名變數。
最後選擇動態傳入驅動程式名稱得以解決
程式碼如下:

#匯入所需模組
from pyspark import SparkContext,SparkConf
from pyspark.sql import HiveContext
import time
import pandas as pd
import numpy as np
import pandas as pd

name1= sys.argv[1]
name2= sys.argv[2]
name = "model_%s_%s"%(name1,name2)
conf = SparkConf().setMaster("local"
).setAppName(name) sc = SparkContext(conf = conf) sqlContext = HiveContext(sc) .................... #your code

根據傳入的引數不同就可以並行執行啦!!!!