pyspark指令碼並行執行
阿新 • • 發佈:2019-01-01
最近一個模型在預測資料時因為資料量太大而速度很慢,想要做成並行,結果不知道怎麼動態命名變數。
最後選擇動態傳入驅動程式名稱得以解決
程式碼如下:
#匯入所需模組
from pyspark import SparkContext,SparkConf
from pyspark.sql import HiveContext
import time
import pandas as pd
import numpy as np
import pandas as pd
name1= sys.argv[1]
name2= sys.argv[2]
name = "model_%s_%s"%(name1,name2)
conf = SparkConf().setMaster("local" ).setAppName(name)
sc = SparkContext(conf = conf)
sqlContext = HiveContext(sc)
....................
#your code
根據傳入的引數不同就可以並行執行啦!!!!