1. 程式人生 > >sparksql減少輸出資料中的小檔案數量

sparksql減少輸出資料中的小檔案數量

由於專案中開發用到sparksql ,將一個大表的資料查詢後插入到另一種表中,此時資料令也不是太大,

但是產生了200多個小檔案,佔用namenode資源,為了改善該情況使用,

將hive中的表載入為一個df,然後重新分割槽+快取+註冊為臨時表,在進行查詢,插入操作,此時檔案為20個

關鍵程式碼如下:

val aDF =hiveContext.table("info_user").repartition(2).persist()

    aDF.registerTempTable("info_user")