hive優化心得

阿新 • • 發佈：2018-12-06

limit 限制調整
– 因為使用 limit 語句時候，是先執行整個查詢語句，然後再返回部分結果的

set hive.limit.optimize.enable=true;

set hive.limit.row.max.size=10000;

set hive.limit.optimize.limit.file=10;

2.JOIN 優化

。。。

本地模式

–hive 嘗試使用本地模式執行查詢，要不然 hive 會使用 MapReduce 來執行其他所有的查詢

set hive.exec.mode.local.auto=true;

並行執行

set hive.exec.parallel=true;

嚴格模式

– 對分割槽表進行查詢，在 where 子句中沒有加分割槽過濾的話，將禁止提交任務 ( 預設： nonstrict)

set hive.mapred.mode=strict;

注：使用嚴格模式可以禁止 3 種類型的查詢：

（ 1 ）對於分割槽表，不加分割槽欄位過濾條件，不能執行

（ 2 ）對於 order by 語句，必須使用 limit 語句。

（ 3 ）限制笛卡爾積的查詢（ join 的時候不使用 on ，而使用 where 的）。

調整 mapper 和 reducer 個數

set hive.exec.reducers.max=( 叢集總 reduce 槽位個數 *1.5)/( 執行中的查詢的平均個數 )

7.JVM 重用

set mapred.job.reuse.jvm.num.tasks=10; --10 為重用個數

索引

索引可以加快含有 group by 語句的查詢的計算速度

動態分割槽調整

– 動態分割槽屬性：設定為 true 表示開啟動態分割槽功能（預設為 false ）

hive.exec.dynamic.partition=true;

– 動態分割槽屬性：設定為 nonstrict, 表示允許所有分割槽都是動態的（預設為 strict ）

– 設定為 strict ，表示必須保證至少有一個分割槽是靜態的

hive.exec.dynamic.partition.mode=strict;

– 動態分割槽屬性：每個 mapper 或 reducer 可以建立的最大動態分割槽個數

hive.exec.max.dynamic.partitions.pernode=100;

– 動態分割槽屬性：一個動態分割槽建立語句可以建立的最大動態分割槽個數

hive.exec.max.dynamic.partitions=1000;

– 動態分割槽屬性：全域性可以建立的最大檔案個數

hive.exec.max.created.files=100000;

       -- 控制 DataNode 一次可以開啟的檔案個數

       -- 這個引數必須設定在 DataNode 的 $HADOOP_HOME/conf/hdfs-site.xml檔案中

dfs.datanode.max.xcievers

8192

推測執行

– 目的：是通過加快獲取單個 task 的結果以及進行偵測將執行慢的 TaskTracker 加入到黑名單的方式來提高整體的任務執行效率

（ 1 ）修改 $HADOOP_HOME/conf/mapred-site.xml 檔案

mapred.map.tasks.speculative.execution

true

mapred.reduce.tasks.speculative.execution

true

（ 2 ）修改 hive 配置

set hive.mapred.reduce.tasks.speculative.execution=true;

單個 MapReduce 中多個 group by

– 多個 group by 操作組裝到單個 MapReduce 任務中

set hive.multigroupby.singlemr=false;

虛擬列

– 當 hive 產生了非預期的或 null 的時候，可以通過虛擬列進行診斷，判斷哪行資料出現問題

INPUT__FILE__NAME （輸入檔名）

BLOCK__OFFSET__INSIDE__FILE （塊內偏移量）

ROW__OFFSET__INSIDE__BLOCK ( 行偏移量，需要設定 hive.exec.rowoffset=true; 啟用 )

其他引數調優

– 開啟 CLI 提示符前打印出當前所在的資料庫名

set hive.cli.print.current.db=true;

– 讓 CLI 打印出欄位名稱

hive.cli.print.header=true;

– 提高聚合的效能

set hive.map.aggr=true;

– 對於簡單的不需要聚合的類似 SELECT from

LIMIT n 語句，不需要起 MapReduce job ，直接通過 Fetch task 獲取資料

set hive.fetch.task.conversion=more;

原文：https://blog.csdn.net/wang1127248268/article/details/53079028

hive優化心得

limit 限制調整 – 因為使用 limit 語句時候，是先執行整個查詢語句，然後再返回部分結果的 set hive.limit.optimize.enable=true; set hive.limit.row.max.size=10000; set hive.limit.op

用例結構優化心得

不同 5% 隨著但是目的部分成了 lov 如何實現在大型項目的測試中通常都伴隨著大量的測試用例。如何優化用例以提高編寫的效率，如何組織用例以提高執行的效率經常困擾著我們；因此總結了一些在編寫用例時的心得。 1.用例框架的優化一份好的用例設計需要有一個好的用例框架

Hive優化

size 快的而是方法 cpu 失敗 als 參數設置專業一、map階段優化 map端： spill(100M,80%)-->meger(壓縮)參數：io.sort.mb（default100）當map task開始運算，並產生中間數據時，其產生的中間結果並

hive優化總結

限制上層關註 rom targe microsoft 保留讀數點擊一、表設計合理分表合理設計表分區，靜態分區、動態分區二、掃描相關 1、謂詞下推（Predicate Push Down） 2、列裁剪（Column Prunin

hive優化之——控制hive任務中的map數和reduce數

計算 2-0 問題 tdi title ask hadoop 發現 http 一、控制hive任務中的map數: 1. 通常情況下，作業會通過input的目錄產生一個或者多個map任務。主要的決定因素有： input的文件總個數，input的文件大小，集群設

Hadoop生態圈-hive優化手段-作業和查詢優化

hive優化分享

set 帶來 IT sql join 系統負載註意並發粘貼一下我在部門中的一次hive優化的分享。簡述 hive構建在hadoop基礎上，利用分布式存儲，通過mr引擎實現對大數據的計算。MR會頻繁地讀寫磁盤而且MR任務的啟動成本很高。對於hive優化顯得尤為重

hive優化，控制map、reduce數量

行合並答案只有一個 mapred hdfs yarn str 浪費邏輯一、調整hive作業中的map數 1.通常情況下，作業會通過input的目錄產生一個或者多個map任務。主要的決定因素有： input的文件總個數，input的文件大小，集群設置的文件塊大小(目前

hive優化，開啟壓縮功能

調整配置 emp mapr org format compress 數據傳輸 span 1、開啟hive作業mapreduce任務中間壓縮功能：對於數據進行壓縮可以減少job中map和reduce task間的數據傳輸量。對於中間數據壓縮，選擇一個低cpu開銷編/解碼器

hive優化過頭出問題，可以使用一下方式

set mapred.reduce.tasks=-1; set hive.exec.reducers.max=160; set hive.auto.convert.join=true; set hive.exec.parallel=true; set hive.exec.parallel.threa

大資料（二十三）：hive優化、表優化

一、Fetch抓取 Fetch抓取是指，Hive中對某些情況的查詢可以不必使用MapReduce計算。例如，select * from employees;在這種情況下，Hive可以簡單讀取employee對應的儲存目錄

hive優化（1）

Hive在map端存在三個配置引數：set mapred.max.split.size=256000000; set mapred.min.split.size.per.node=256000000; set mapred.min.split.size.per.rack=256000000;

一起學Hive——總結常用的Hive優化技巧

今天總結本人在使用Hive過程中的一些優化技巧，希望給大家帶來幫助。Hive優化最體現程式設計師的技術能力，面試官在面試時最喜歡問的就是Hive的優化技巧。技巧1.控制reducer數量下面的內容是我們每次在hive命令列執行SQL時都會打印出來的內容： In order to change the

Hive優化之謂詞下推

Hive優化之謂詞下推解釋 Hive謂詞下推(Predicate pushdown) 關係型資料庫借鑑而來，關係型資料中謂詞下推到外部資料庫用以減少資料傳輸基本思想：儘可能早的處理表達式屬於邏輯優化，優化器將謂詞過濾下推到資料來源，使物理執行跳過無關資料引數開啟設定：hive.

【圖文詳細】Hive 優化常用手段

1、好的模型設計事半功倍 2、解決資料傾斜問題 3、減少 job 數 4、設定合理的 MapReduce 的 task 數，能有效提升效能。(比如，10w+級別的計算，用 160個 reduce，那是相當的浪費，1 個足夠) 5、瞭解資料分佈，自己動手解決資料傾斜問題

hive優化-count(distinct)

問題描述 COUNT(DISTINCT xxx)在hive中很容易造成資料傾斜。針對這一情況，網上已有很多優化方法，這裡不再贅述。但有時，“資料傾斜”又幾乎是必然

Hive解決資料傾斜問題及Hive優化

資料傾斜概述簡單來說資料傾斜就是資料的key的分化嚴重不均，造成一部分資料很多，一部分資料很少的情況。舉個word count的入門例子，在map階段形成了（“hello”,1）的形式，然後在reduce階段進行value統計，算出"hello"出現的次數，假設word count的文字大

Hive優化總結（union all）

優化時，把hive sql當做map reduce程式來讀，會有意想不到的驚喜。理解hadoop的核心能力，是hive優化的根本。這是這一年來，專案組所有成員寶貴的經驗總結。長期觀察hadoop處理資料的過程，有幾個顯著的特徵: 1.不怕資料多，就怕資料傾斜

hive優化大全-一篇就夠了

1.概述　　在工作中總結Hive的常用優化手段和在工作中使用Hive出現的問題。下面開始本篇文章的優化介紹。 2.介紹　首先，我們來看看Hadoop的計算框架特性，在此特性下會衍生哪些問題？資料量大不是問題，資料傾斜是個問題。 jobs數比較多的作業執行效率相

MySQL資料庫優化心得

選擇適當的欄位型別，特別是主鍵　　選擇欄位的一般原則是保小不保大，能用佔用位元組小的欄位就不用大欄位。比如主鍵，我們強烈建議用自增型別，不用guid，為什麼?省空間啊?空間是什麼?空間就是效率!按4個位元組和按32個位元組定位一條記錄，誰快誰慢太明顯了。涉及到幾個表做join時，效果就

hive優化心得

set hive.fetch.task.conversion=more;

相關推薦