Hive.GROUPING SETS

阿新 • • 發佈：2019-02-10

如果說聚合函式（Simple UDAF / Generic UDAF）是HQL聚合資料查詢或分析的中樞處理器，那GROUP BY可以說是聚合函式的神經了，GROUP BY收集和傳遞材料，然後交給聚合函式們去處理。這些材料的組織形式顯得尤為重要，它們表達著分析者想要的觀察維度或視角，管理著聚合函式們的操作物件。

而分析者經常想要在一次分析中從多個維度去獲得分析資料，對包含多個維度或多級層次的分析，上卷（roll up）或下鑽（drill down）一類就很有分析價值。

我們有時候可以從最細、最多的粒度去做一個查詢，然後把結果集匯入Excel這個資料分析利器，用資料透檢視標進行“上卷”分析；但有時候也行不通，比如說UV這種需要去重的資料，在Excel裡用匯總方式進行上卷，就不是純粹的UV概念了。

所以，對這種情形，在查詢過程中，我們就需要獲得已經下鑽和上卷的資料；如果只有GROUP BY子句，那我們可以寫出按各個維度或層次進行GROUP BY的查詢語句，然後再通過UNION子句把結果集拼湊起來，但是這樣的查詢語句顯得冗長、笨拙。

為此，HQL像其它很多SQL實現一樣，為我們提供了GROUPINGSETS子句來簡化查詢語句的編寫，以下官方CWiki文件很清晰地表達了GROUPING SETS的功能：

Aggregate Query with GROUPING SETS	Equivalent Aggregate Query with GROUP BY
`SELECT a, b, SUM (c) FROM tab1 GROUP BY a, b GROUPING SETS ( (a,b) )`	`SELECT a, b, SUM(c) FROM tab1 GROUP BY a, b`
`SELECT a, b, SUM( c ) FROM tab1 GROUP BY a, b GROUPING SETS ( (a,b), a)`	SELECT a, b, SUM( c ) FROM tab1 GROUP BY a, b UNION SELECT a, null, SUM( c ) FROM tab1 GROUP BY a
`SELECT a,b, SUM( c ) FROM tab1 GROUP BY a, b GROUPING SETS (a,b)`	SELECT a, null, SUM( c ) FROM tab1 GROUP BY a UNION SELECT null, b, SUM( c ) FROM tab1 GROUP BY b
`SELECT a, b, SUM( c ) FROM tab1 GROUP BY a, b GROUPING SETS ( (a, b), a, b, ( ) )`	SELECT a, b, SUM( c ) FROM tab1 GROUP BY a, b UNION SELECT a, null, SUM( c ) FROM tab1 GROUP BY a, null UNION SELECT null, b, SUM( c ) FROM tab1 GROUP BY null, b UNION SELECT null, null, SUM( c ) FROM tab1

因為涉及UNION操作，所以為了遵循UNION對參與合併的資料集合的要求，GROUPING SETS會把在單個GROUP BY邏輯中沒有參與GROUP BY的那一列置為NULL值，使它成為常量佔位列。這樣聚合出來的結果，未被GROUP BY的列將顯示為NULL。

但是這樣的處理也會引起一個歧義性問題，如果我們分析的表有一些列沒有NOT NULL約束，那原始資料中，未被GROUP BY的列可能原本就會出現一些NULL值，這樣，GROUPING SETS出來的結果，我們沒有辦法去區分該列顯示的NULL值是原始資料出現的NULL值聚合的結果，還是你因為這列沒有參與GROUP BY而被置為NULL值的結果。

為了解決這個歧義問題，HQL又為我們提供了一個Grouping__ID函式（請注意函式名中的下劃線是兩個！）；這個函式沒有引數，在有GROUPING SETS子句的情況下，把它直接放在SELECT子句中，像其它列一樣，獨佔一列。它返回的結果是一個看起來像整形數值型別，其實是字串的值，這個值使用了點陣圖策略（bitvector，位向量），即它的二進位制形式中的每1位標示著對應列是否參與GROUP BY，如果某一列參與了GROUP BY，對應位就被置為1，否則為0，根據這個位向量值和對應列是否顯示為NULL，我們就可以解決上面提到的歧義問題了。

這樣一來，Grouping__ID函式返回值的範圍由查詢的欄位數（除去聚合函式產生的列）決定，如果比如有3列，那位向量為3位，最大值為7。CWiki文件提供了下面的示例：

有下面一個表資料：

Column1 (key)	Column2 (value)
1	NULL
1	1
2	2
3	3
3	NULL
4	5

我們用這樣的查詢語句去執行查詢：

SELECT key, value, GROUPING__ID, count(*) from T1 GROUP BY key,value WITH ROLLUP

將得到如下查詢結果：

NULL	NULL	0	6
1	NULL	1	2
1	NULL	3	1
1	1	3	1
2	NULL	1	1
2	2	3	1
3	NULL	1	2
3	NULL	3	1
3	3	3	1
4	NULL	1	1
4	5	3	1

官方文件沒有明確說明這個位向量和各列的高低位對應關係，但是從示例我們可以看到，這個位向量的低位對應SELECT子句中的第1列（非聚合列），高位對應最後1列（非聚合列）。

上面的查詢用到了WITH ROLLUP子句，它對應SQL中的上卷操作，其實它就是GROUPINGSETS的特例，對應上面第一個表格中的第4種情形；根據官方的CWiki文件解釋，GROUP BY 子句加上ROLLUP 子句可用於計算從一個維度進行層級聚合的操作：

GROUP BY a, b, c with ROLLUP assumes that the hierarchy is"a" drilling down to "b" drilling down to "c".

類似地還有WITH CUBE子句，對應SQL中的CUBE操作，它完成對欄位列中的所有可能組合（全序集？）進行GROUP BY的功能，正如官方CWiki文件的解釋：

GROUP BY a, b, c WITH CUBE 等同於
GROUP BY a, b, c GROUPING SETS ( (a, b, c), (a, b), (b, c), (a, c),(a), (b), (c), ( ))

GROUPING SETS增強了GROUP BY的查詢表達能力，ROLLUP和CUBE又增強了GROUPING SETS的查詢表達能力，這樣一來，GROUP BY的形態也變得多樣化了，讓我們能夠在查詢階段就實現更多的分析角度。

還需留意的是：Hive從0.10.0版本才開始有GROUPING SETS的。

hive grouping sets 等聚合函數

union _id 說明 from div sele gpo 函數 grouping 函數說明： grouping sets 在一個 group by 查詢中，根據不同的維度組合進行聚合，等價於將不同維度的 group by 結果集進行 union allcube 根據

Hive grouping sets 的bug:ParseException line 7:22 missing ) at ',' near '<EOF>'

今天遇到了一個問題，當使用grouping sets 時，一直報錯如下： ParseException line 7:22 missing ) at ',' near '<EOF>' line 7:31 extraneous input ')' expecti

Hive.GROUPING SETS的“陷阱”

之前整理了一下Hive 0.10版引進的GROUPING SETS子句特性，並作了簡單的句法使用體驗和資料驗證。但是當時沒有注意到稍微複雜一點的情況，然後，在實際使用過程中，妥妥地就中了一槍。這一槍發生在有JOIN操作的時候，情況是這樣的：我要對

Hive.GROUPING SETS

如果說聚合函式（Simple UDAF / Generic UDAF）是HQL聚合資料查詢或分析的中樞處理器，那GROUP BY可以說是聚合函式的神經了，GROUP BY收集和傳遞材料，然後交給聚合函式們去處理。這些材料的組織形式顯得尤為重要，它們表達著分析者想要的觀察維度或

Hive grouping sets 的bug:ParseException line 7:22 missing ) at ',' near ''

今天遇到了一個問題，當使用grouping sets 時，一直報錯如下：ParseException line 7:22 missing ) at ',' near '<EOF>'line

hive中grouping sets的使用

set hive.new.job.grouping.set.cardinality = 30; 這條設定的意義在於告知直譯器，group by之前，每條資料複製量在30份以內。 grouping sets是一種將多個group by 邏輯寫在一個sql語句中的便利寫法。 demo：

[轉]詳解Oracle高級分組函數(ROLLUP, CUBE, GROUPING SETS)

-a set tail serve net 操作 toc mit highlight 原文地址:http://blog.csdn.net/u014558001/article/details/42387929 本文主要講解 ROLLUP, CUBE, GROUPING S

介紹一種非常好用匯總數據的方式GROUPING SETS

介紹 http serve 使用 art 說了指定 ron 分析介紹　　對於任何人而言，用T-SQL語句來寫聚會查詢都是工作中重要的一環。我們大家也都很熟悉GROUP BY子句來實現聚合表達式，但是如果打算在一個結果集中包含多種不同的匯總結果，可能會比較麻煩。我將舉

GROUP BY GROUPING SETS

GROUPING SETS 子句是 SELECT 語句的 GROUP BY 子句的擴充套件。通過 GROUPING SETS 子句，您可採用多種方式對結果分組，而不必使用多個 SELECT 語句來實現這一目的。這就意味著，能夠減少響應時間並提高效能。例如，以下兩條查詢語句在語義上是等效的。不過，第二個查詢

Oracle的rollup、cube、grouping sets函式

Oracle的group by除了基本用法以外，還有3種擴充套件用法，分別是rollup、cube、grouping sets。 1 rollup 假設有一個表test，有A、B、C、D、E5列。如果使用group by rollup(A,B,C)，首先會對(A、B、

Hive的靜態分區和動態分區

操作 mage 分區 ive 作者 over rom for top 作者：Syn良子出處：http://www.cnblogs.com/cssdongl/p/6831884.html 轉載請註明出處雖然之前已經用過很多次hive的分區表，但是還是找時間快速回顧總結一下

Hive入門知識

不支持應用設計行數數據常用 net 倉庫 oal 報錯 Hive 是建立在 Hadoop 上的數據倉庫基礎構架，它提供了一系列的工具，可以用來進行數據提取轉化加載（ETL），這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。由於 Hive 是針

Hive和Hbase的區別

缺點每一個 oop 設備 actions 利用計數映射編寫 1. 兩者分別是什麽？ Apache Hive是一個構建在Hadoop基礎設施之上的數據倉庫。通過Hive可以使用HQL語言查詢存放在HDFS上的數據。HQL是一種類SQL語言，這種語言最終被轉化為M

hive-0.11.0安裝方法具體解釋

col home 模式 tables 文件 create time his 拷貝先決條件： 1)java環境，須要安裝java1.6以上版本號 2)hadoop環境，Hadoop-1.2.1的安裝方法參考 hadoop-1.2.1安裝方法具體解釋本

8.4Solr API使用(Result Grouping分組查詢)

src adding offset resp iteye status jpg pan border 轉載請出自出處：http://eksliang.iteye.com/blog/2169458 一、概述分組統計查詢不同於分組統計（Facet）,facet只是簡單統計記錄

spark-local 模式提示 /tmp/hive hdfs 權限不夠的問題

spark 大數據 hadoop spark版本為2.0 在spark 在 local 模式下啟動，有時會報/tmp/hive hdfs 權限不夠的問題，但是我們並沒有將hdfs-site.xml配置文件放到我們的項目中，spark的文件應該會存在本地電腦上，但是為什麽會報這個錯誤呢？這個問

ElasticSearch和Hive做整合

oop 執行 nod last space property style pan mil 1、上傳elasticsearh-hadoop的jar包到server1-hadoop-namenode-01上在server1-hadoop-namenode-01上執行：

hive 報錯/tmp/hive on HDFS should be writable. Current permissions are: rwx--x--x

per popu family 問題啟動 article miss 錯誤 art 啟動hive時報例如以下錯誤：/tmp/hive on HDFS should be writable. Current permissions are: rwx--x--x 這是/

解決kylin報錯 ClassCastException org.apache.hadoop.hive.ql.exec.ConditionalTask cannot be cast to org.apache.hadoop.hive.ql.exec.mr.MapRedTask

conf lan exe hive oop ann 關於 .exe map 方法：去掉參數SET hive.auto.convert.join=true; 從配置文件$KYLIN_HOME/conf/kylin_hive_conf.xml刪掉或 kylin-gui的cu

排查Hive報錯：org.apache.hadoop.hive.serde2.SerDeException: java.io.IOException: Start of Array expected

arr .json span 問題 catalog pan 不支持 led open CREATE TABLE json_nested_test ( count string, usage string, pkg map<string

Hive.GROUPING SETS

相關推薦