hive壓縮
阿新 • • 發佈:2017-09-07
sequence record bsp zip 而在 cfi file color cef
1. 常用 rcfile + gzip
parquet + snappy
2. 壓縮比,參考
- TextFile默認格式,加載速度最快,可以采用Gzip進行壓縮,壓縮後的文件無法split,即並行處理。
- SequenceFile壓縮率最低,查詢速度一般,將數據存放到sequenceFile格式的hive表中,這時數據就會壓縮存儲。三種壓縮格式NONE,RECORD,BLOCK。是可分割的文件格式。
- RCfile壓縮率最高,查詢速度最快,數據加載最慢。
- 相比TEXTFILE和SEQUENCEFILE,RCFILE由於列式存儲方式,數據加載時性能消耗較大,但是具有較好的壓縮比和查詢響應。數據倉庫的特點是一次寫入、多次讀取,因此,整體來看,RCFILE相比其余兩種格式具有較明顯的優勢。
- 在hive中使用壓縮需要靈活的方式:
如果是數據源的話,采用 RCFile+bz 或 RCFile+gz 的方式,這樣可以很大程度上節省磁盤空間;
而在計算的過程中,為了不影響執行的速度,可以浪費一點磁盤空間,建議采用 RCFile+snappy 的方式,這樣可以整體提升hive的執行速度。
至於lzo的方式,也可以在計算過程中使用,只不過綜合考慮(速度和壓縮比)還是考慮snappy適宜。
hive壓縮