spark 載入多個目錄; RDD輸出到hdfs檔案壓縮
阿新 • • 發佈:2019-02-11
(1) spark textFile載入多個目錄:
其實很簡單,將多個目錄(對應多個字串),用,作為分隔符連線起來
val inputPath = List("hdfs://localhost:9000/test/hiveTest", "hdfs://localhost:9000/test/hiveTest2")
.mkString(",")
sparkContext
.textFile( inputPath )
(2) spark rdd saveAsTextFile 輸出到HDFS 檔案壓縮
rdd.saveAsTextFile( "hdfs://localhost:9000/test/out" ) //正常不壓縮
rdd.saveAsTextFile( "hdfs://localhost:9000/test/outGzip", classOf[ GzipCodec ] ) //Gzip壓縮輸出
rdd.saveAsTextFile( "hdfs://localhost:9000/test/outBzip2", classOf[ BZip2Codec ] ) //bzip2 壓縮輸出
hadoop 檔案壓縮格式對比:http://www.echojb.com/web-application-server/2017/07/10/449381.html