1. 程式人生 > >hive壓縮

hive壓縮

sequence record bsp zip 而在 cfi file color cef

1. 常用 rcfile + gzip

parquet + snappy

2. 壓縮比,參考

  1. TextFile默認格式,加載速度最快,可以采用Gzip進行壓縮,壓縮後的文件無法split,即並行處理。
  2. SequenceFile壓縮率最低,查詢速度一般,將數據存放到sequenceFile格式的hive表中,這時數據就會壓縮存儲。三種壓縮格式NONE,RECORD,BLOCK。是可分割的文件格式。
  3. RCfile壓縮率最高,查詢速度最快,數據加載最慢。
  4. 相比TEXTFILE和SEQUENCEFILE,RCFILE由於列式存儲方式,數據加載時性能消耗較大,但是具有較好的壓縮比和查詢響應。數據倉庫的特點是一次寫入、多次讀取,因此,整體來看,RCFILE相比其余兩種格式具有較明顯的優勢。
  5. 在hive中使用壓縮需要靈活的方式:

如果是數據源的話,采用 RCFile+bz 或 RCFile+gz 的方式,這樣可以很大程度上節省磁盤空間;

而在計算的過程中,為了不影響執行的速度,可以浪費一點磁盤空間,建議采用 RCFile+snappy 的方式,這樣可以整體提升hive的執行速度。

至於lzo的方式,也可以在計算過程中使用,只不過綜合考慮(速度和壓縮比)還是考慮snappy適宜。

hive壓縮