1. 程式人生 > >hive優化心得

hive優化心得

limit 限制調整
– 因為使用 limit 語句時候,是先執行整個查詢語句,然後再返回部分結果的

set hive.limit.optimize.enable=true;

set hive.limit.row.max.size=10000;

set hive.limit.optimize.limit.file=10;

2.JOIN 優化

。。。

  1. 本地模式

–hive 嘗試使用本地模式執行查詢,要不然 hive 會使用 MapReduce 來執行其他所有的查詢

set hive.exec.mode.local.auto=true;

  1. 並行執行

set hive.exec.parallel=true;

  1. 嚴格模式

– 對分割槽表進行查詢,在 where 子句中沒有加分割槽過濾的話,將禁止提交任務 ( 預設: nonstrict)

set hive.mapred.mode=strict;

注:使用嚴格模式可以禁止 3 種類型的查詢:

( 1 )對於分割槽表,不加分割槽欄位過濾條件,不能執行

( 2 )對於 order by 語句,必須使用 limit 語句。

( 3 )限制笛卡爾積的查詢( join 的時候不使用 on ,而使用 where 的)。

  1. 調整 mapper 和 reducer 個數

set hive.exec.reducers.max=( 叢集總 reduce 槽位個數 *1.5)/( 執行中的查詢的平均個數 )

7.JVM 重用

set mapred.job.reuse.jvm.num.tasks=10; --10 為重用個數

  1. 索引

索引可以加快含有 group by 語句的查詢的計算速度

  1. 動態分割槽調整

– 動態分割槽屬性:設定為 true 表示開啟動態分割槽功能(預設為 false )

hive.exec.dynamic.partition=true;

– 動態分割槽屬性:設定為 nonstrict, 表示允許所有分割槽都是動態的(預設為 strict )

– 設定為 strict ,表示必須保證至少有一個分割槽是靜態的

hive.exec.dynamic.partition.mode=strict;

– 動態分割槽屬性:每個 mapper 或 reducer 可以建立的最大動態分割槽個數

hive.exec.max.dynamic.partitions.pernode=100;

– 動態分割槽屬性:一個動態分割槽建立語句可以建立的最大動態分割槽個數

hive.exec.max.dynamic.partitions=1000;

– 動態分割槽屬性:全域性可以建立的最大檔案個數

hive.exec.max.created.files=100000;

       -- 控制 DataNode 一次可以開啟的檔案個數

       -- 這個引數必須設定在 DataNode 的 $HADOOP_HOME/conf/hdfs-site.xml檔案中

dfs.datanode.max.xcievers

8192

  1. 推測執行

– 目的:是通過加快獲取單個 task 的結果以及進行偵測將執行慢的 TaskTracker 加入到黑名單的方式來提高整體的任務執行效率

( 1 )修改 $HADOOP_HOME/conf/mapred-site.xml 檔案

mapred.map.tasks.speculative.execution

true

mapred.reduce.tasks.speculative.execution

true

( 2 )修改 hive 配置

set hive.mapred.reduce.tasks.speculative.execution=true;

  1. 單個 MapReduce 中多個 group by

– 多個 group by 操作組裝到單個 MapReduce 任務中

set hive.multigroupby.singlemr=false;

  1. 虛擬列

– 當 hive 產生了非預期的或 null 的時候,可以通過虛擬列進行診斷,判斷哪行資料出現問題

INPUT__FILE__NAME (輸入檔名)

BLOCK__OFFSET__INSIDE__FILE (塊內偏移量)

ROW__OFFSET__INSIDE__BLOCK ( 行偏移量,需要設定 hive.exec.rowoffset=true; 啟用 )

  1. 其他引數調優

– 開啟 CLI 提示符前打印出當前所在的資料庫名

set hive.cli.print.current.db=true;

– 讓 CLI 打印出欄位名稱

hive.cli.print.header=true;

– 提高聚合的效能

set hive.map.aggr=true;

– 對於簡單的不需要聚合的類似 SELECT from

LIMIT n 語句,不需要起 MapReduce job ,直接通過 Fetch task 獲取資料

set hive.fetch.task.conversion=more;

原文:https://blog.csdn.net/wang1127248268/article/details/53079028