hive distinct優化

阿新 • • 發佈：2019-01-26

hive針對count(distinct xxx)只產生一個reduce的優化。

0x00 造成的原因

由於使用了distinct，導致在map端的combine無法合併重複資料；對於這種count()全聚合操作時，即使設定了reduce task個數，set mapred.reduce.tasks=100；hive也只會啟動一個reducer。這就造成了所有map端傳來的資料都在一個tasks中執行，成為了效能瓶頸。

0x01 解決方式一（分治法）

該方法優勢在於使用不同的reducer各自進行COUNT(DISTINCT)計算，充分發揮hadoop的優勢，然後進行求和，間接達到了效果。需要注意的是多個tasks同時計算產生重複值的問題，所以分組需要使用到目標列的子串。

    SELECT 
        SUM(tmp_num) total
    FROM
        (select
            substr(uid,1,4) tag,
            count(distinct substr(uid,5)) tmp_total
        from
            xxtable
        group by
            substr(uid,1,4)
        )t1

經過驗證，該方法在5000萬資料量的情況下，不優化需要5分鐘，經過優化需要3分鐘，還是有一定的提升的。

0x10 解決方式二（隨機分組法）

核心是使用group by替代count(distinct)。

SELECT--3
    SUM(tc) 
FROM
    (select--2 
        count(*) tc,
        tag  
    from 
        (select--1
            cast(rand() * 100 as bigint) tag,
            user_id 
        from 
            xxtable
        group by  
            user_id
        )t1 
    group by 
 
        tag
    )t2;

1層使用隨機數作為分組依據，同時使用group by保證去重。
2層統計各分組下的統計數。
3層對分組結果求和。

經過驗證，該方法在5000萬資料量的情況下，不優化需要5分鐘，經過優化需要2.5分鐘，有進一步提升。

hive distinct優化

hive針對count(distinct xxx)只產生一個reduce的優化。0x00 造成的原因由於使用了distinct，導致在map端的combine無法合併重複資料；對於這種count()全聚合操作時，即使設定了reduce task個數，set mapred.reduce.tasks=100；hi

Hive SQL優化之 Count Distinct

Hive是Hadoop的子專案，它提供了對資料的結構化管理和類SQL語言的查詢功能。SQL的互動方式極大程度地降低了Hadoop生態環境中資料處理的門檻，使用者不需要編寫程式，通過SQL語句就可以對資料進行分析和處理。目前很多計算需求都可以由Hive來完成，極大程度地降低

hive語句優化-通過groupby實現distinct

同事寫了個hive的sql語句，執行效率特別慢，跑了一個多小時程式只是map完了，reduce進行到20%。該Hive語句如下： select count(distinct ip) from(sel

Hive中的count(distinct)優化

問題描述 COUNT(DISTINCT xxx)在hive中很容易造成資料傾斜。針對這一情況，網上已有很多優化方法，這裡不再贅述。但有時，“資料傾斜”又幾乎是必然的。我們來舉個例子：假設表detail_sdk_session中記錄了訪問某網站M的客戶端會話資訊，即：

【Hive】優化策略

nap set 進行類型命令 part ado http 計劃 Hive對於表的操作大部分都是轉換為MR作業的形式，為了提高OLAP[online analysis process 在線分析處理]的效率，Hive自身給出了很多的優化策略 1. explain[解釋執行計

hive 引數優化之hive.auto.convert.join

Total MapReduce jobs = 1 14/08/24 20:29:11 WARN conf.Configuration: mapred.max.split.size is deprecated. Instead, use mapreduce.input.fileinputforma

Hive 的優化

1、group by 實現 distinct 原始語句： select count(distinct ip) from (select ip as ip from comprehensiv

Hive效能優化簡介（順便介紹了效能工具--ANALYZE）

ANALYZE關鍵字可以收集數值統計資訊。加速查詢，直接從統計資訊中拿，而不會再啟動mapreduce去查詢。用desc命令去查統計資訊。 Hive效能優化包含以下點： partition table 這是最好的優化，比如用年月日，部門

Hive總結篇及Hive的優化

概述 Hive學習也有一段時間了，今天來對Hive進行一個總結，談談自己的理解，作者還是個小白，有不對的地方請大家指出相互學習，共同進步。今天來談一談什麼是Hive，產生背景，優勢等一系列問題。什麼是Hive 老規矩：官網地址 Hive wiki. 先來談談

Hive的優化方法

1、join連線時的優化：當超過2個表進行join關聯操作時，如果 on 後面 JOIN 的 key 相同，不管有多少個表，都會則會合併為一個 Map-Reduce。 INSERT OVERWRITE TABLE test_users SELECT t.page

大資料Hive系列之Hive效能優化

一、介紹首先，我們來看看Hadoop的計算框架特性，在此特性下會衍生哪些問題？資料量大不是問題，資料傾斜是個問題。 jobs數比較多的作業執行效率相對比較低，比如即使有幾百行的表，如果多次關聯多次彙總，產生十幾個jobs，耗時很長。原因是map reduce作業初

Hive企業級優化

一、Fetch抓取 Fetch 抓取是指，Hive 中對某些情況的查詢可以不必使用 MapReduce 計算。例如： SELECT * FROM employees;在這種情況下，Hive 可以簡單地讀取 employee 對應的儲存目錄下的檔案，然後輸出查詢結果到控制檯。在 hive

Hive的優化歷程

公司的系統想要轉型，由我和專案經理兩個人來完成從傳統的資料庫向HIVE+HADOOP_+SPARK，用以滿足日益膨脹的大量資料。對於將資料儲存在Hive，進行了以下的優化: 1,Hive的引擎目前為止有三種，分別為MR,TEZ,SPRAK.由於公司用的是H

MySLQ查詢優化之distinct優化

原文地址：https://dev.mysql.com/doc/refman/5.7/en/distinct-optimization.html 譯文： 8.2.1.16 DISTINCT優化在許多情況下，DISTINCT與ORDER BY結合使用需要一個臨時表。DISTINC

Postgresql資料庫count(distinct)優化

基本資訊基本情況表共800W資料，從260W的結果集中計算出不同的案件數量(130萬)，需要執行20多秒原SQL內容 select count(distinct c_bh_aj) as ajcount from db_znspgl.

[Hive_8] Hive 設計優化

0. 說明　　在 Hive 中，資料庫是一個資料夾，表也是資料夾　　partition，是一個欄位，是檔案　　前提：在 Hive 進行 where 子句查詢的時候，會將條件語句和全表進行比對，搜尋出所需的資料，效能極差，partition 就是為了避免全表掃描

hive 引數優化記錄

HDFS非常容易儲存大資料檔案，如果Hive中存在過多的小檔案會給namecode帶來巨大的效能壓力。同時小檔案過多會影響JOB的執行，hadoop會將一個job轉換成多個task，即使對於每個小檔案也需要一個task去單獨處理，task作為一個獨立的jvm例項，其開啟和

Hive – Distinct 的實現

1. 第一步先在mapper計算部分值，會以count和uid作為key，如果是distinct並且之前已經出現過，則忽略這條計算。第一步是以組合為key，第二步是以count為key. 2. ReduceSink是在mapper.close()時才執行的，在GroupByOperator.close()時

Hive效能優化（全面）

1.介紹首先，我們來看看Hadoop的計算框架特性，在此特性下會衍生哪些問題？資料量大不是問題，

hive 一些優化

環境 hive1.2.1 + hadoop2.6.0 一.mapjoin優化原理：對於join操作，內連線中有一個表是小表，或者左連線時左表為小表時，自動將MR作業轉化為Map，即在map端進行資料join操作，而不是reduce端。在執行任務的本地，將小錶轉換為has

hive distinct優化

0x00 造成的原因

0x01 解決方式一（分治法）

0x10 解決方式二（隨機分組法）

相關推薦