spark-submit時上傳spark依賴到hdfs時間較長問題解決
阿新 • • 發佈:2019-01-03
spark-submit時,發現上傳spark依賴到hdfs 時間長達數分鐘,現象如下方截圖:
這個日誌之後在上傳程式依賴的jar,根據不同網路負荷,需要耗時數十秒甚至數分鐘,導致任務提交速度超級慢,在官網上查到出現這種現象的原因:https://spark.apache.org/docs/2.1.1/running-on-yarn.html
翻譯過來就是: 要想在yarn spark的runtime jars,需要指定spark.yarn.archive 或者 spark.yarn.jars。如果都這兩個引數都沒有指定,spark就會把$SPARK_HOME/jars/所有的jar上傳到分散式快取中
下面是解決方案:
- 將$SPARK_HOME/jars/* 下spark執行依賴的jar上傳到hdfs上
hdfs dfs -mkdir /tmp/spark/lib_jars
hadoop fs -put $SPARK_HOME/jars/* hdfs:///tmp/spark/lib_jars - $SPARK_HOME/conf/spark-defaults.conf, 增加 如下資訊:
spark.yarn.jars hdfs:///tmp/spark/lib_jars/*.jar