[一起學Hive]之九-Hive的查詢語句SELECT

阿新 • • 發佈：2019-02-04

八、Hive的查詢語句SELECT

在所有的資料庫系統中，SELECT語句是使用最多，也最複雜的一塊，Hive中的查詢語句SELECT支援的語法當然也比較複雜，本文只能盡力去介紹。

8.1 基礎查詢語法

Hive中的SELECT基礎語法和標準SQL語法基本一致，支援WHERE、DISTINCT、GROUP BY、ORDER BY、HAVING、LIMIT、子查詢等；
語法如下：

[WITH CommonTableExpression(,CommonTableExpression)*]
SELECT [ALL | DISTINCT] select_expr, select_expr,...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[CLUSTER BY col_list
|[DISTRIBUTE BY col_list][SORT BY col_list]
]
[LIMIT number]

下面介紹Hive中比較特殊的一些查詢語法。

8.2 ORDER BY和SORT BY

ORDER BY用於全域性排序，就是對指定的所有排序鍵進行全域性排序，使用ORDER BY的查詢語句，最後會用一個Reduce Task來完成全域性排序。
SORT BY用於分割槽內排序，即每個Reduce任務內排序。
看下面的例子：
原表資料為：

hive>select*from lxw1234_com;
OK
5
3
6
2
9
8
1

使用ORDER BY

hive>select*from lxw1234_com order by id;
1
2
3
5
6
8
9

使用SORT BY

hive> set mapred.reduce.tasks=2;
hive> select * from lxw1234_com sort by id;
2
5
6
9
1
3
8

設定了2個reduce，從結果可以看出，每個reduce內做了排序。
如果reduce數為1，那麼ORDER BY和SORT BY的結果是一樣的：

hive>set mapred

.reduce.tasks=1;
hive>select*from lxw1234_com sort by id;
1
2
3
5
6
8
9

真實業務環境中，我們的需求大多需要使用ORDER BY全域性排序來完成。

8.3 DISTRIBUTE BY和CLUSTER BY

distribute by：按照指定的欄位或表示式對資料進行劃分，輸出到對應的Reduce或者檔案中。
cluster by：除了兼具distribute by的功能，還兼具sort by的排序功能。

##distribute by

hive>set mapred.reduce.tasks=2;
hive>INSERT overwrite LOCAL directory '/tmp/lxw1234/'
SELECT id FROM lxw1234_com
distribute BY id;

執行後在本地的/tmp/lxw1234目錄中生成了000000_0和000001_0兩個檔案：
cat 000000_0
8
2
6
cat 000001_0 ##id%2=1的記錄
1
9
3
5

##cluster by

hive>set mapred.reduce.tasks=2;
hive> INSERT overwrite LOCAL directory '/tmp/lxw1234/'
SELECT id FROM lxw1234_com
CLUSTER BY id;
cat 000000_0
2
6
8
cat 000001_0
1
3
5
9

注意：使用cluster by之後，每個檔案中的id都進行了排序，而distribute by沒有。

8.4 子查詢

子查詢和標準SQL中的子查詢語法和用法基本一致，需要注意的是，Hive中如果是從一個子查詢進行SELECT查詢，那麼子查詢必須設定一個別名。

SELECT col
FROM (
SELECT a+b AS col
FROM t1
) t2

另外，從Hive0.13開始，在WHERE子句中也支援子查詢，比如：

SELECT *
FROM A
WHERE A.a IN (SELECT foo FROM B);
SELECT A
FROM T1
WHERE EXISTS (SELECT B FROM T2 WHERE T1.X = T2.Y)

還有一種將子查詢作為一個表的語法，叫做Common Table Expression（CTE）：

with q1 as(select*from src where key='5'),
q2 as(select*from src s2 where key ='4')
select*from q1 union all select*from q2;
with q1 as(select key, value from src where key ='5')
from q1
insert overwrite table s1
select*;

8.5 虛擬列

Hive查詢中有兩個虛擬列：
INPUT__FILE__NAME：資料對應的HDFS檔名；
BLOCK__OFFSET__INSIDE__FILE：該行記錄在檔案中的偏移量；

hive>select id,INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE from lxw1234_com;
5 hdfs://cdh5/tmp/lxw1234/1.txt 0
3 hdfs://cdh5/tmp/lxw1234/1.txt 2
6 hdfs://cdh5/tmp/lxw1234/1.txt 4
2 hdfs://cdh5/tmp/lxw1234/1.txt 6
9 hdfs://cdh5/tmp/lxw1234/1.txt 8
8 hdfs://cdh5/tmp/lxw1234/1.txt 10
1 hdfs://cdh5/tmp/lxw1234/1.txt 12

[一起學Hive]之九-Hive的查詢語句SELECT

八、Hive的查詢語句SELECT 在所有的資料庫系統中，SELECT語句是使用最多，也最複雜的一塊，Hive中的查詢語句SELECT支援的語法當然也比較複雜，本文只能盡力去介紹。 8.1 基礎查詢語法 Hive中的SELECT基礎語法和標準SQL語法基本一致，支援

Hive之Show、Describe語句使用

1.表及分割槽格式化資訊包含儲存位置、分隔符格式、建立時間等資訊。describe formatted table_name [PARTITION(partition_desc)]; describe formatted recommend_data_view partition (pt_d

大資料之九 Hive

Hive簡介 Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的資料檔案對映成一張資料庫表,並提供類SQL（HQL）查詢功能，適用於離線的批量資料計算 Hive本身不儲存和計算資料，它完全依賴於HDFS和MapReduce，它的表其實就是一個Hadoo

跟KingDZ學HTML5之九 HTML5新的 Input 種類

nth 搜索選擇 utc body style 簡單滾動 top 好了，我們這節課講解的可能有些難以測試，因為目前很多瀏覽器都不支持，這些新增加的標簽，我也只能，盡可能的去找支持的瀏覽器給大家測試展示效果。 HTML5中新增加了很多 Input 的種類。 1.<

跟大叔一起學Linux之shell第二節shell的變量

大叔變量shell的變量功能變量是shell中很重要的一個玩意，我們知道Linux是多用戶、多任務環境，每個人登錄系統時都能取得一個shell，每個人都能夠使用bash執行mail這個命令來獲取自己的郵件，問題是bash是如何得知你的郵件信箱是哪一個？這就需要變量這個玩意了。1、什麽是變量？簡單

跟我一起學Spark之——RDD Join中寬依賴與窄依賴的判斷

1.規律　　　如果JoinAPI之前被呼叫的RDD API是寬依賴(存在shuffle), 而且兩個join的RDD的分割槽數量一致，join結果的rdd分割槽數量也一樣，這個時候join api是窄依賴　　除此之外的，rdd 的join api是寬依賴 2.Join的理解　

跟我一起學Spark之——《Spark快速大資料分析》pdf版下載

連結：https://pan.baidu.com/s/1vjQCJLyiXzIj6gnCCDyv3g 提取碼：ib01 國慶第四天，去逛了半天的王府井書店，五層出電梯右邊最裡面，倒數第三排《資料結構》，找到了一本很不錯的書《Spark快速大資料分析》，試讀了下，我很喜歡，也很適合

跟我一起學Spark之——Windows10下spark2.3.0本地開發環境搭建-親測

相關元件版本： JDK1.8.0_171，hadoop-2.7.6，Spark-2.3.0，Scala-2.11.8，Maven-3.5.3，ideaIC-2018.1.4.exe，spark-2.3.0-bin-hadoop2.7 1.1 JDK1.8.0_171 a.&n

跟我一起學MongoDB之——視覺化工具Compass的簡單使用

首先官方為大家介紹了一下MongoDB Compass的主要功能： 1.對資料的視覺化 2.插入、修改、刪除 3.除錯、優化進入Compass首先出現連線介面如下（此處我使用的是我操作時候的介面狀態）直接使用預設None無賬戶連線了嘻嘻嘻點選綠色CONNEC

我們一起學shell之三：shell變數講解

今天我們來學習shell變數相關的內容。在實際工作中，無論linux下還是windows下，變數都是實時使用並且相關的。在linux伺服器下，我們檢視環境變數或系統變數使用的常用命令： env或set env顯示使用者環境變數，set顯示Shell預先定義好的變數以及使用者變

我們一起學shell之四：變數引用及符號內容

在前面的內容講解中，有的童鞋說他有些命令還不太理解是什麼意思，希望我能講解下相應命令的用法等內容，那，由於本人時間有限，沒法在單獨去講解指令碼中的命令了，那大家可以參考我的另外一個系列《Linux基礎命令系列》https://blog.csdn.net/xzm5708796/article

一起學Android之Layout

本文簡述在Android開發中佈局的簡單應用，屬於基礎知識，僅供學習分享使用。概述在Android UI開發中，佈局型別主要有兩種：LinearLayout(線性佈局)和RelativeLayout(相對佈局)，兩種佈局型別各有各的優勢與使用場景。 LinearLayout（線性佈局）線性佈局允

一起學Android之Intent

本文簡述在Android開發中Intent的常見應用，僅供學習分享使用。什麼是Intent? 　　Intent負責對應用中一次操作的動作、動作涉及資料、附加資料進行描述，Android則根據此Intent的描述，負責找到對應的元件，將 Intent傳遞給呼叫的元件，並完成元件的呼叫。因此，Intent在

一起學JAVA之《spring boot》03

一、導航本節內容簡介： 1. spring boot 配置檔案，使用@SpringBootApplication註解 2. spring boot 修改Java版本和專案編碼 3. 一個標準的spring boot 程式碼結構

跟我一起學C++之從C到C++（bool型別）

bool型別 C++新增型別，表示邏輯真與假 1.邏輯型也稱布林型，其取值為true（邏輯真）和false（邏輯假），儲存位元組數在不同編譯系統中可能有所不同，VC++中為1個位元組。 2.宣告方式：boolresult;result=true; 3.可以當作整數用（tru

我們一起學docker之二：安裝及配置、檔案講解

文章目錄 1.安裝docker環境 2.docker狀態查詢 3.服務啟動停止命令 4.docker虛擬網絡卡 5.docker配置檔案講解 6.docker 日誌檢視(基於docker服務)

跟我一起學Spark之——資料分割槽

前言控制資料分佈以獲得最少的網路傳輸可以極大地提升整體效能。如果給定RDD只需要被掃描一次（例如大小表join中的小表），我們完全沒有必要對其預先進行分割槽處理，只有當資料

一起學Android之ToggleButton和Switch

本文以一個簡單的小例子，簡述在Android開發中ToggleButton（開關按鈕）和Switch（開關）的簡單使用，僅供學習分享使用。概述 ToggleButton是一個有兩種狀態（checked/unchecked）的按鈕，經常用於開/關等場景中，預設文字顯示（ON/OFF），Switch 是一個

跟我一起學C++之從C到C++（結構體記憶體對齊）

1.什麼是記憶體對齊（1）編譯器為每個“資料單元”按排在某個合適的位置上。（2） C、C++語言非常靈活，它允許你干涉“記憶體對齊”。也就是可以人為的設定編譯器的對齊方式。 2.為什麼要對齊效能原因：在對齊的地址上訪問資料快。如果是位元組對齊方式

和菜鳥一起學c之gcc編譯過程及其常用編譯選項

上篇文章，知道了，C程式碼編譯後存放在記憶體中的位置，那麼C程式碼的整個編譯過程又是怎樣的呢？一條命令gcc hello.c就可以編譯成可執行程式a.out，然後./a.out之後就可以

[一起學Hive]之九-Hive的查詢語句SELECT

八、Hive的查詢語句SELECT

8.1 基礎查詢語法

8.2 ORDER BY和SORT BY

8.3 DISTRIBUTE BY和CLUSTER BY

8.4 子查詢

8.5 虛擬列

相關推薦