Hive之資料查詢

阿新 • • 發佈：2019-01-22

一，排序和聚合
對於排序有兩種方式，一種是order by 一種是sort by
order by 會對所有的資料進行排序，所以最後會只有一個reducer來處理，如果資料量非常大，效率會非常差勁
sort by是部分排序，只是對一個reducer的資料進行排序

FROM records2
SELECT year, temperature
DISTRIBUTE BY year
SORT BY year ASC, temperature DESC;
1949 111
1949 78
1950 22
1950 0
1950 -11

關鍵字DISTRIBUTE主要是控制特定的行會分發到同一個reducer裡面去處理，這樣後面再進行聚合操作就很方便。

二，連線查詢

hive> SELECT * FROM sales; -- name 購買者的名字，id購買的商品id
Joe 2
Hank 4 
Ali 0
Eve 3
Hank 2
hive> SELECT * FROM things; --name 商品名稱 id 商品id
2 Tie
4 Coat
3 Hat
1 Scarf

1，內連線

hive> SELECT sales.*, things.*
> FROM sales JOIN things ON (sales.id = things.id);

SELECT sales.*, things.*
FROM sales, things
WHERE sales.id = things.id;

需要注意的是對於MySQL和Oracel裡面常用的等值連線方式，hive是不支援的。

2，外連線

hive> SELECT sales.*, things.*
> FROM sales LEFT OUTER JOIN things ON (sales.id = things.id);
 
Ali    0   NULL  NULL
Joe    2   2    Tie
Hank   2   2    Tie
Eve    3   3    Hat
Hank   4   4    Coat
 
hive> SELECT sales.*, things.*
> FROM sales RIGHT OUTER JOIN things ON (sales.id = things.id);
 
NULL  NULL 1    Scarf
Joe    2   2    Tie
Hank   2   2    Tie
Eve    3   3    Hat
Hank   4   4    Coat
 
hive> SELECT sales.*, things.*
> FROM sales FULL OUTER JOIN things ON (sales.id = things.id);
 
Ali    0   NULL  NULL
NULL  NULL 1    Scarf
Joe    2   2    Tie
Hank   2   2    Tie
Eve    3   3    Hat
Hank   4   4    Coat

3，Semi joins

先來看一個查詢：

SELECT *
FROM things
WHERE things.id IN (SELECT id from sales);
 
注意：hive不支援這種在in中使用子查詢的語法，但是下面的查詢是同樣的意思
hive> SELECT *
> FROM things LEFT SEMI JOIN sales ON (sales.id = things.id);

但是使用SEMI JOIN有一定的限制，就是右邊的表不允許出現在select中只能出現在on從句中

4，子查詢
對於子查詢hive有一些限制，只能在from裡面使用子查詢
例如：
select total from
(select c1+c2 as total from table) my_sub_query;
子查詢必須指定一個名字

Hive之資料查詢

一，排序和聚合對於排序有兩種方式，一種是order by 一種是sort by order by 會對所有的資料進行排序，所以最後會只有一個reducer來處理，如果資料量非常大，效率會非常差勁 sort by是部分排序，只是對一個reducer的資料進行排序 FROM records2 SELECT

Hive之資料型別

基礎資料型別與java資料型別一致整型 TINYINT — 微整型，只佔用1個位元組，只能儲存0-255的整數。 SMALLINT– 小整型，佔用2個位元組，儲存範圍–32768 到 32767。 INT– 整型，佔用4個位元組，儲存範圍-2147483648到214748364

Hive之資料傾斜的原因和解決方法

資料傾斜在做Shuffle階段的優化過程中，遇到了資料傾斜的問題，造成了對一些情況下優化效果不明顯。主要是因為在Job完成後的所得到的Counters是整個Job的總和，優化是基於這些Counters得出的平均值，而由於資料傾斜的原因造成map處理資料量的差異過大，使得這些

資料庫系統概論學習筆記（四）：SQL的簡單應用之資料查詢

嗯……最實用的部分，其他都可以不會，唯獨這個必須熟練吧 —— 資料查詢這篇筆記主要是例子，使用的例子是《筆記（三）》中定義的學生選課關係。使用的SQL語句可能與教材上有些出入，因為我使用的是MySQL 5.7，對SQL語言支援可能會有些許差異。

Hadoop-練習利用hive進行資料查詢

1 準備測試資料問題1：求各個部門的總工資問題2：求各個部門的人數和平均工資問題3：求每個部門最早進入公司的員工姓名問題4：求各個城市的員工的總工資問題5：列出工資比上司高的員工姓名及其工資問題6：列出工資比公司平均工資要高的員工姓名及其工資問題7：列

SpringBoot高階篇JdbcTemplate之資料查詢上篇

前面一篇介紹如何使用JdbcTemplate實現插入資料，接下來進入實際業務中，最常見的查詢篇。由於查詢的姿勢實在太多，對內容進行

php資料查詢之基礎查詢

---恢復內容開始--- 資料查詢語言（Data Query Language）基本查詢語法形式： select [all | distinct ] 欄位或者表示式列表 [from子句] [where子句] [group by 子句] [having 子句] [order by

Hive命令之三：hive的資料匯入匯出

Hive 資料的匯入匯出：一 Hive資料匯出 1、匯出資料到本地檔案系統： insert overwrite local directory '/software/data/data1' select * f

python資料查詢操作之一場缺少db.commit()引發的血案……

---恢復內容開始--- 最近大作業用到了python操作資料庫的內容。涉及的庫是pymmysql，我就不詳細介紹這個庫的操作了，直接奔入主題--->開整　背景：涉及程式中一個實時檢視資料表中state欄位==1的功能,我把這個功能單

（六）Hive SQL之資料型別和儲存格式

（六）Hive SQL之資料型別和儲存格式目錄一、資料型別 1、基本資料型別 2、複雜型別二、儲存格式（1）textfile （2）SequenceFile

Hive-5-Hive SQL之資料型別和儲存格式

原文地址：https://www.cnblogs.com/qingyunzong/p/8733924.html 一、資料型別 1.1、基本資料型別 Hive 支援關係型資料中大多數基本資料型別，和其他的SQL語言一樣，這些都是保留字。需要注意的是所有的這些資料型別都是對Java中介面的實

資料查詢之連線查詢、子查詢和聯合查詢

一、連線查詢基本含義：將兩個以上的表（資料來源），連線起來成為一個數據源。基本形式：from 表1 [連線方式] join 表2 [on 連線條件] join 為連線查詢關鍵字--必須 [連線方式] [on 連線條件]為可選性交叉連線：&nb

一步一步學MySQL----16 多表資料記錄查詢之子查詢

16.1 為什麼使用子查詢日常工作中，經常會用到多表查詢，而在進行多表查詢時，首先會對兩個表進行笛卡爾積操作，然後再選取符合匹配條件的資料記錄。在進行笛卡爾積操作的時候，會生成兩個資料表中資料記錄數的乘積條資料記錄。如果這兩個表的資料記錄比較大，則在進行笛卡爾積操作時就會造

一步一步學MySQL----15 多表資料記錄查詢之合併查詢

在MySQL中通過關鍵字 union來實現並操作，即可以通過 union將多個select語句查詢合併在一起組成新的關係。下面的例項基於資料庫company，有如下兩張表：（1）計算機系的學生表：cstudent （2）音樂系的學生表：mstuden

java資料結構之折半查詢

折半查詢，也稱二分法查詢、二分搜尋，是一種在有序陣列中查詢某一特定元素的搜尋演算法，這裡強調有序表明這種演算法的特定使用場景；搜素過程為，從陣列中間元素開始，如果中間元素正好是要查詢的元素，則搜素過程結束；如果某一特定元素大於或者小於中間元素，則在陣列大於或小於中間元素的那一半中

Python3&資料結構之二分查詢

#實現一個二分查詢 #輸入：一個順序表list和要找的元素 #輸出：待查詢的元素的位置 def binary_search(list,item): low = 0 high = len(list) - 1 while low <= high: mid

在cm安裝的大資料管理平臺中整合impala之後讀取hive表中的資料的設定（hue當中執行impala的資料查詢）

今天裝了CM叢集，在叢集當中集成了impala，hive。然後一直覺得認為impala自動共享hive的元資料，最後發現好像並不是這樣的，需要經過一個同步元資料的操作才能實現資料的同步。具體的做法如下：（1）安裝好hive和impala，然後在hive當中建立目標資料庫，建立一張表

劍指offer之陣列中的資料查詢

題目描述在一個二維陣列中（每個一維陣列的長度相同），每一行都按照從左到右遞增的順序排序，每一列都按照從上到下遞增的順序排序。請完成一個函式，輸入這樣的一個二維陣列和一個整數，判斷陣列中是否含有該整數。

大資料hive之啟動報錯：system:java.io.tmpdir

解決方法：在hive下建立個tmpdir目錄在hive-site.xml中新增以下內容 <property> <name>system:java.io.tmpdir</name> <value&

QBC資料查詢 ——hibernate之查詢語句

敘：之前介紹過hibernate的HQL（hibernate query language）的查詢資料方式，現在我學習記錄一下關於hibernate的另一個查詢資料的方式–QBC，QBC資料查詢全稱是（Query By Criteria資料查詢），下面是我學習的筆記~ QBC資

Hive之資料查詢

相關推薦