1. 程式人生 > 實用技巧 >HIVE優化(全面)轉

HIVE優化(全面)轉

【浪點聊大資料】

Hive作為大資料領域常用的資料倉庫元件,在平時設計和查詢時要特別注意效率。影響Hive效率的幾乎從不是資料量過大,而是資料傾斜、資料冗餘、job或I/O過多、MapReduce分配不合理等等。對Hive的調優既包含對HiveQL語句本身的優化,也包含Hive配置項和MR方面的調整。

目錄

  • 列裁剪和分割槽裁剪

  • 謂詞下推

  • sort by代替order by

  • group by代替distinct

  • group by配置調整

    • map端預聚合

    • 傾斜均衡配置項

  • join基礎優化

    • build table(小表)前置

    • 多表join時key相同

    • 利用map join特性

    • 分桶表map join

    • 傾斜均衡配置項

  • 優化SQL處理join資料傾斜

    • 空值或無意義值

    • 單獨處理傾斜key

    • 不同資料型別

    • build table過大

  • MapReduce優化

    • 調整mapper數

    • 調整reducer數

    • 合併小檔案

    • 啟用壓縮

    • JVM重用

  • 並行執行與本地模式

  • 嚴格模式

  • 採用合適的儲存格式

列裁剪和分割槽裁剪


最基本的操作。所謂列裁剪就是在查詢時只讀取需要的列,分割槽裁剪就是隻讀取需要的分割槽。以我們的日曆記錄表為例:

select uid,event_type,record_data
from calendar_record_log
where pt_date >= 20190201 and pt_date <= 20190224
and status = 0;

當列很多或者資料量很大時,如果select *或者不指定分割槽,全列掃描和全表掃描效率都很低。
Hive中與列裁剪優化相關的配置項是hive.optimize.cp,與分割槽裁剪優化相關的則是hive.optimize.pruner,預設都是true。在HiveQL解析階段對應的則是ColumnPruner邏輯優化器。

謂詞下推

在關係型資料庫如MySQL中,也有謂詞下推(Predicate Pushdown,PPD)的概念。它就是將SQL語句中的where謂詞邏輯都儘可能提前執行,減少下游處理的資料量。

例如以下HiveQL語句:

select a.uid,a.event_type,b.topic_id,b.title
from calendar_record_log a
left outer join (
select uid,topic_id,title from forum_topic
where pt_date = 20190224 and length(content) >= 100
) b on a.uid = b.uid
where a.pt_date = 20190224 and status = 0;

對forum_topic做過濾的where語句寫在子查詢內部,而不是外部。Hive中有謂詞下推優化的配置項hive.optimize.ppd,預設值true,與它對應的邏輯優化器是PredicatePushDown。該優化器就是將OperatorTree中的FilterOperator向上提,見下圖。

圖來自https://tech.meituan.com/2014/02/12/hive-sql-to-mapreduce.html

上面的連結中是一篇講解HiveQL解析與執行過程的好文章,前文提到的優化器、OperatorTree等概念在其中也有詳細的解釋,非常推薦。

sort by代替order by

HiveQL中的order by與其他SQL方言中的功能一樣,就是將結果按某欄位全域性排序,這會導致所有map端資料都進入一個reducer中,在資料量大時可能會長時間計算不完。
如果使用sort by,那麼還是會視情況啟動多個reducer進行排序,並且保證每個reducer內區域性有序。為了控制map端資料分配到reducer的key,往往還要配合distribute by一同使用。如果不加distribute by的話,map端資料就會隨機分配到reducer。
舉個例子,假如要以UID為key,以上傳時間倒序、記錄型別倒序輸出記錄資料:

select uid,upload_time,event_type,record_data
from calendar_record_log
where pt_date >= 20190201 and pt_date <= 20190224
distribute by uid
sort by upload_time desc,event_type desc;

group by代替distinct

當要統計某一列的去重數時,如果資料量很大,count(distinct)就會非常慢,原因與order by類似,count(distinct)邏輯只會有很少的reducer來處理。這時可以用group by來改寫:

select count(1) from (
select uid from calendar_record_log
where pt_date >= 20190101
group by uid
) t;

但是這樣寫會啟動兩個MR job(單純distinct只會啟動一個),所以要確保資料量大到啟動job的overhead遠小於計算耗時,才考慮這種方法。當資料集很小或者key的傾斜比較明顯時,group by還可能會比distinct慢。
那麼如何用group by方式同時統計多個列?下面是解決方法:

select t.a,sum(t.b),count(t.c),count(t.d) from (
select a,b,null c,null d from some_table
union all
select a,0 b,c,null d from some_table group by a,c
union all
select a,0 b,null c,d from some_table group by a,d
) t;

group by配置調整

map端預聚合

group by時,如果先起一個combiner在map端做部分預聚合,可以有效減少shuffle資料量。預聚合的配置項是hive.map.aggr,預設值true,對應的優化器為GroupByOptimizer,簡單方便。
通過hive.groupby.mapaggr.checkinterval引數也可以設定map端預聚合的行數閾值,超過該值就會分拆job,預設值100000。

傾斜均衡配置項

group by時如果某些key對應的資料量過大,就會發生資料傾斜。Hive自帶了一個均衡資料傾斜的配置項hive.groupby.skewindata,預設值false。
其實現方法是在group by時啟動兩個MR job。第一個job會將map端資料隨機輸入reducer,每個reducer做部分聚合,相同的key就會分佈在不同的reducer中。第二個job再將前面預處理過的資料按key聚合並輸出結果,這樣就起到了均衡的效果。
但是,配置項畢竟是死的,單純靠它有時不能根本上解決問題,因此還是建議自行了解資料傾斜的細節,並優化查詢語句。

join基礎優化

join優化是一個複雜的話題,下面先說5點最基本的注意事項。

build table(小表)前置

在最常見的hash join方法中,一般總有一張相對小的表和一張相對大的表,小表叫build table,大表叫probe table。如下圖所示。

Hive在解析帶join的SQL語句時,會預設將最後一個表作為probe table,將前面的表作為build table並試圖將它們讀進記憶體。如果表順序寫反,probe table在前面,引發OOM的風險就高了。
在維度建模資料倉庫中,事實表就是probe table,維度表就是build table。假設現在要將日曆記錄事實表和記錄項編碼維度表來join:

select a.event_type,a.event_code,a.event_desc,b.upload_time
from calendar_event_code a
inner join (
select event_type,upload_time from calendar_record_log
where pt_date = 20190225
) b on a.event_type = b.event_type;

多表join時key相同

這種情況會將多個join合併為一個MR job來處理,例如:

select a.event_type,a.event_code,a.event_desc,b.upload_time
from calendar_event_code a
inner join (
select event_type,upload_time from calendar_record_log
where pt_date = 20190225
) b on a.event_type = b.event_type
inner join (
select event_type,upload_time from calendar_record_log_2
where pt_date = 20190225
) c on a.event_type = c.event_type;

如果上面兩個join的條件不相同,比如改成a.event_code = c.event_code,就會拆成兩個MR job計算。
負責這個的是相關性優化器CorrelationOptimizer,它的功能除此之外還非常多,邏輯複雜,參考Hive官方的文件可以獲得更多細節:https://cwiki.apache.org/confluence/display/Hive/Correlation+Optimizer。

利用map join特性

map join特別適合大小表join的情況。Hive會將build table和probe table在map端直接完成join過程,消滅了reduce,效率很高。

select /*+mapjoin(a)*/ a.event_type,b.upload_time
from calendar_event_code a
inner join (
select event_type,upload_time from calendar_record_log
where pt_date = 20190225
) b on a.event_type < b.event_type;

上面的語句中加了一條map join hint,以顯式啟用map join特性。早在Hive 0.8版本之後,就不需要寫這條hint了。map join還支援不等值連線,應用更加靈活。
map join的配置項是hive.auto.convert.join,預設值true,對應邏輯優化器是MapJoinProcessor。
還有一些引數用來控制map join的行為,比如hive.mapjoin.smalltable.filesize,當build table大小小於該值就會啟用map join,預設值25000000(25MB)。還有hive.mapjoin.cache.numrows,表示快取build table的多少行資料到記憶體,預設值25000。

分桶表map join

map join對分桶表還有特別的優化。由於分桶表是基於一列進行hash儲存的,因此非常適合抽樣(按桶或按塊抽樣)。
它對應的配置項是hive.optimize.bucketmapjoin,優化器是BucketMapJoinOptimizer。但我們的業務中用分桶表較少,所以就不班門弄斧了,只是提一句。

傾斜均衡配置項

這個配置與上面group by的傾斜均衡配置項異曲同工,通過hive.optimize.skewjoin來配置,預設false。
如果開啟了,在join過程中Hive會將計數超過閾值hive.skewjoin.key(預設100000)的傾斜key對應的行臨時寫進檔案中,然後再啟動另一個job做map join生成結果。通過hive.skewjoin.mapjoin.map.tasks引數還可以控制第二個job的mapper數量,預設10000。
再重複一遍,通過自帶的配置項經常不能解決資料傾斜問題。join是資料傾斜的重災區,後面還要介紹在SQL層面處理傾斜的各種方法。

優化SQL處理join資料傾斜

上面已經多次提到了資料傾斜,包括已經寫過的sort by代替order by,以及group by代替distinct方法,本質上也是為了解決它。join操作更是資料傾斜的重災區,需要多加註意。

空值或無意義值

這種情況很常見,比如當事實表是日誌類資料時,往往會有一些項沒有記錄到,我們視情況會將它置為null,或者空字串、-1等。如果缺失的項很多,在做join時這些空值就會非常集中,拖累進度。
因此,若不需要空值資料,就提前寫where語句過濾掉。需要保留的話,將空值key用隨機方式打散,例如將使用者ID為null的記錄隨機改為負值:

select a.uid,a.event_type,b.nickname,b.age
from (
select
(case when uid is null then cast(rand()*-10240 as int) else uid end) as uid,
event_type from calendar_record_log
where pt_date >= 20190201
) a left outer join (
select uid,nickname,age from user_info where status = 4
) b on a.uid = b.uid;

單獨處理傾斜key

這其實是上面處理空值方法的拓展,不過傾斜的key變成了有意義的。一般來講傾斜的key都很少,我們可以將它們抽樣出來,對應的行單獨存入臨時表中,然後打上一個較小的隨機數字首(比如0~9),最後再進行聚合。SQL語句與上面的相仿,不再贅述。

不同資料型別

這種情況不太常見,主要出現在相同業務含義的列發生過邏輯上的變化時。
舉個例子,假如我們有一舊一新兩張日曆記錄表,舊錶的記錄型別欄位是(event_type int),新表的是(event_type string)。為了相容舊版記錄,新表的event_type也會以字串形式儲存舊版的值,比如'17'。當這兩張表join時,經常要耗費很長時間。其原因就是如果不轉換型別,計算key的hash值時預設是以int型做的,這就導致所有“真正的”string型key都分配到一個reducer上。所以要注意型別轉換:

select a.uid,a.event_type,b.record_data
from calendar_record_log a
left outer join (
select uid,event_type from calendar_record_log_2
where pt_date = 20190228
) b on a.uid = b.uid and b.event_type = cast(a.event_type as string)
where a.pt_date = 20190228;

build table過大

有時,build table會大到無法直接使用map join的地步,比如全量使用者維度表,而使用普通join又有資料分佈不均的問題。這時就要充分利用probe table的限制條件,削減build table的資料量,再使用map join解決。代價就是需要進行兩次join。舉個例子:

select /*+mapjoin(b)*/ a.uid,a.event_type,b.status,b.extra_info
from calendar_record_log a
left outer join (
select /*+mapjoin(s)*/ t.uid,t.status,t.extra_info
from (select distinct uid from calendar_record_log where pt_date = 20190228) s
inner join user_info t on s.uid = t.uid
) b on a.uid = b.uid
where a.pt_date = 20190228;

MapReduce優化

調整mapper數

mapper數量與輸入檔案的split數息息相關,在Hadoop原始碼org.apache.hadoop.mapreduce.lib.input.FileInputFormat類中可以看到split劃分的具體邏輯。這裡不貼程式碼,直接敘述mapper數是如何確定的。

  • 可以直接通過引數mapred.map.tasks(預設值2)來設定mapper數的期望值,但它不一定會生效,下面會提到。

  • 設輸入檔案的總大小為total_input_size。HDFS中,一個塊的大小由引數dfs.block.size指定,預設值64MB或128MB。在預設情況下,mapper數就是:
    default_mapper_num = total_input_size / dfs.block.size

  • 引數mapred.min.split.size(預設值1B)和mapred.max.split.size(預設值64MB)分別用來指定split的最小和最大大小。split大小和split數計算規則是:
    split_size = MAX(mapred.min.split.size, MIN(mapred.max.split.size, dfs.block.size))
    split_num = total_input_size / split_size

  • 得出mapper數:
    mapper_num = MIN(split_num, MAX(default_num, mapred.map.tasks))

可見,如果想減少mapper數,就適當調高mapred.min.split.size,split數就減少了。如果想增大mapper數,除了降低mapred.min.split.size之外,也可以調高mapred.map.tasks
一般來講,如果輸入檔案是少量大檔案,就減少mapper數;如果輸入檔案是大量非小檔案,就增大mapper數;至於大量小檔案的情況,得參考下面“合併小檔案”一節的方法處理。

調整reducer數

reducer數量的確定方法比mapper簡單得多。使用引數mapred.reduce.tasks可以直接設定reducer數量,不像mapper一樣是期望值。但如果不設這個引數的話,Hive就會自行推測,邏輯如下:

  • 引數hive.exec.reducers.bytes.per.reducer用來設定每個reducer能夠處理的最大資料量,預設值1G(1.2版本之前)或256M(1.2版本之後)。

  • 引數hive.exec.reducers.max用來設定每個job的最大reducer數量,預設值999(1.2版本之前)或1009(1.2版本之後)。

  • 得出reducer數:
    reducer_num = MIN(total_input_size / reducers.bytes.per.reducer, reducers.max)

reducer數量與輸出檔案的數量相關。如果reducer數太多,會產生大量小檔案,對HDFS造成壓力。如果reducer數太少,每個reducer要處理很多資料,容易拖慢執行時間或者造成OOM。

合併小檔案

  • 輸入階段合併
    需要更改Hive的輸入檔案格式,即引數hive.input.format,預設值是org.apache.hadoop.hive.ql.io.HiveInputFormat,我們改成org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
    這樣比起上面調整mapper數時,又會多出兩個引數,分別是mapred.min.split.size.per.nodemapred.min.split.size.per.rack,含義是單節點和單機架上的最小split大小。如果發現有split大小小於這兩個值(預設都是100MB),則會進行合併。具體邏輯可以參看Hive原始碼中的對應類。

  • 輸出階段合併
    直接將hive.merge.mapfileshive.merge.mapredfiles都設為true即可,前者表示將map-only任務的輸出合併,後者表示將map-reduce任務的輸出合併。
    另外,hive.merge.size.per.task可以指定每個task輸出後合併檔案大小的期望值,hive.merge.size.smallfiles.avgsize可以指定所有輸出檔案大小的均值閾值,預設值都是1GB。如果平均大小不足的話,就會另外啟動一個任務來進行合併。

啟用壓縮

壓縮job的中間結果資料和輸出資料,可以用少量CPU時間節省很多空間。壓縮方式一般選擇Snappy,效率最高。
要啟用中間壓縮,需要設定hive.exec.compress.intermediate為true,同時指定壓縮方式hive.intermediate.compression.codecorg.apache.hadoop.io.compress.SnappyCodec。另外,引數hive.intermediate.compression.type可以選擇對塊(BLOCK)還是記錄(RECORD)壓縮,BLOCK的壓縮率比較高。
輸出壓縮的配置基本相同,開啟hive.exec.compress.output即可。

JVM重用

在MR job中,預設是每執行一個task就啟動一個JVM。如果task非常小而碎,那麼JVM啟動和關閉的耗時就會很長。可以通過調節引數mapred.job.reuse.jvm.num.tasks來重用。例如將這個引數設成5,那麼就代表同一個MR job中順序執行的5個task可以重複使用一個JVM,減少啟動和關閉的開銷。但它對不同MR job中的task無效。

並行執行與本地模式

  • 並行執行
    Hive中互相沒有依賴關係的job間是可以並行執行的,最典型的就是多個子查詢union all。在叢集資源相對充足的情況下,可以開啟並行執行,即將引數hive.exec.parallel設為true。另外hive.exec.parallel.thread.number可以設定並行執行的執行緒數,預設為8,一般都夠用。

  • 本地模式
    Hive也可以不將任務提交到叢集進行運算,而是直接在一臺節點上處理。因為消除了提交到叢集的overhead,所以比較適合資料量很小,且邏輯不復雜的任務。
    設定hive.exec.mode.local.auto為true可以開啟本地模式。但任務的輸入資料總量必須小於hive.exec.mode.local.auto.inputbytes.max(預設值128MB),且mapper數必須小於hive.exec.mode.local.auto.tasks.max(預設值4),reducer數必須為0或1,才會真正用本地模式執行。

嚴格模式

所謂嚴格模式,就是強制不允許使用者執行3種有風險的HiveQL語句,一旦執行會直接失敗。這3種語句是:

  • 查詢分割槽表時不限定分割槽列的語句;

  • 兩表join產生了笛卡爾積的語句;

  • 用order by來排序但沒有指定limit的語句。

要開啟嚴格模式,需要將引數hive.mapred.mode設為strict。

採用合適的儲存格式

在HiveQL的create table語句中,可以使用stored as ...指定表的儲存格式。Hive表支援的儲存格式有TextFile、SequenceFile、RCFile、Avro、ORC、Parquet等。
儲存格式一般需要根據業務進行選擇,在我們的實操中,絕大多數表都採用TextFile與Parquet兩種儲存格式之一。
TextFile是最簡單的儲存格式,它是純文字記錄,也是Hive的預設格式。雖然它的磁碟開銷比較大,查詢效率也低,但它更多地是作為跳板來使用。RCFile、ORC、Parquet等格式的表都不能由檔案直接匯入資料,必須由TextFile來做中轉。
Parquet和ORC都是Apache旗下的開源列式儲存格式。列式儲存比起傳統的行式儲存更適合批量OLAP查詢,並且也支援更好的壓縮和編碼。我們選擇Parquet的原因主要是它支援Impala查詢引擎,並且我們對update、delete和事務性操作需求很低。
這裡就不展開講它們的細節,可以參考各自的官網:
https://parquet.apache.org/
https://orc.apache.org/