1. 程式人生 > >spark streaming讀取HDFS

spark streaming讀取HDFS

今天跑第一spark streaming程式讀取HDFS檔案,碰到很多坑:
JavaDStream lines = jsc1.textFileStream("hdfs://*.*.*.*:9000/library/SparkStreaming/Data"); 換成:ns1不加埠號,就避免這個異常 JavaDStream lines = jsc1.textFileStream("hdfs://ns1/library/SparkStreaming/Data"); 還有一種原因,是在spark的配置檔案中,指定了HDFS某個NM的實際IP地址,需要將IP地址改成ns1
2.spark提交程式的driver端要用到的資源非常多,不建議將driver與master放到一臺機器上執行,今天在程式正常的情況下,一直報OOM異常,最後出現JVM無法正常執行的情況