1. 程式人生 > >spark 調優:控制輸出檔案的個數

spark 調優:控制輸出檔案的個數

DataFrame輸出結果儲存為檔案時,尤其是根據某個條件分割槽時,可以控制輸出檔案的個數,從而減少小檔案的個數

DataFrame..coalesce(1).write.format("parquet").mode(SaveMode.Overwrite).partitionBy("分割槽條件列名").save("路徑")

這裡coalesce指定輸出檔案個數