Hive總結2（分割槽+分桶+查詢）

阿新 • • 發佈：2019-01-11

Hive是一個數據倉庫，儲存的半結構化資料文字。

Hive不支援：事務，不支援索引（但可以通過分桶實現快速的查詢，hash）

類似的分佈的nosql（Not Only Sql資料庫：hbase - Phoinex(鳳凰)

Hive的功能，就是做mapreduce。

分割槽：

就是在可控制的情況下，將資料放到不同的目錄下。

減小查詢的範圍。並不能加快查詢的速度。還是要查詢所有隻是分了一個目錄。

Stud.txt > mary=cp 目錄下

分桶就是hash儲存。Id = > where id=S001

將資料根據hashcode值進行分開儲存

查詢時對id進行hash得出結果，就知道放到了那個檔案下，提高查詢的速度。

用外部表的方式管理，保證元資料不會丟失。

1.分割槽

通過partition by(欄位名欄位型別) - 分割槽最後會形成一個目錄。

分割槽的欄位，不在源資料中出現，但是表的一部分

1.1建立一個分割槽表

hive> create table stud01(

> id string,

> name string,

> age int

> )

> partitioned by (grade string)

> row format delimited

> fields terminated by '\t';

1.2匯入資料

在匯入資料時，必須要通過partition提定分割槽的值：

hive> load data local inpath '${env:HOME}/stud.txt' into table stud01 partition(grade='2009');

1.3查詢分割槽資料

對於分割槽，可能每一個分割槽中的資料都非常的多：

分割槽查詢限制：預設情況下，在查詢時，可以不用帶分割槽的條件

使用者配置：

在使用者目錄下建立.hiverc值為：

hive.mapred.mode=nonstrict

修改成strict就必須要查詢時有分割槽的條件，修改成nonstrict可以不用寫：

hive>select * from stu01 where grade ="2009"

在 Hive-site.xml配置，可以統一使用。

1.4檢視分割槽

hive>show partitions stu01;

1.5建立多級目錄

hive> create table stud01(

> id string,

> name string,

> age int

> )

> partitioned by (grade string，major string)

> row format delimited

> fields terminated by '\t';

1.6動態分割槽

如果使用load匯入資料，則分割槽的值，是使用者硬編碼指定，且無法動態。

但是如果從一個表，向另一個表中匯入資料，則可以動態的建立分割槽，但是分割槽的欄位，必須是最後一個欄位。

查詢是否支援動態的分割槽：

指定動態分割槽 mm=name;

hive> insert overwrite table stud03 partition(mm) select id,age,grade,major,name from stud02;

2.排序

3種關鍵字：

Order - 全排，速度比較慢，預設使用一個reducer。

Distribute by (..) 根據指定欄位的hash值%reduce個數放到不同的檔案中。

Distribute by (..) sort by(...) 排序，-部分排序（每一個reduce內部排序）。

Cluster by = distrubte + sort （部分排序）

2.1.全排序

hive> insert overwrite local directory '${env:HOME}/out001'

>row format delimited

>fields terminated by '\t'

>select name ,id ,age from stu01 order by (name) asc;

可以指定asc（升序）預設，或是desc（降序）

2.2.部分排序

hive> insert overwrite local directory 'home/keys/out002'

> select * from stud01 distribute by(id) sort by (name);

Cluster by (id) = distribute by(id) sort by(id)

3.分桶

關鍵字：distributed

3.1建立表

hive> create table stud02(

> id string,

> name string,

> age int

> )

> clustered by (id) into 3 buckets

> row format delimited

> fields terminated by '\t';

3.2檢視資料

hive> desc formatted stu002;

3.3匯入資料

如果一個表是分桶的，通過load匯入的資料，還是不會分桶的。

向一個分桶的表中的儲存資料，必須要使用 insert select ...從其他的資料表中查詢資料：

hive>insert overweite table stu002 select id,name,age from stu01 cluster by (id);

此時的表既排序又分桶。

4.儲存格式

行儲存和列儲存

資料

行儲存：

適合查詢所有的資料（快）

型別：textfile,squence,avro(json)

使用:mysql oracle

列儲存

適合查詢某一列的資料（快）

使用： orcfile,rcfile,parquet,hbase

4.1sequenceFile

匯入資料用insert不能用load，load是檔案copy不會寫成sequenceFile。

4.2avro

檢視檔案：：$ hdfs dfs -text '目錄'

4.3orcfile/rcfile二進位制檔案

hive> create table stud_orcfile(

> id string,

> name string,

> age int

> )

> stored as orcfile

row format delimited 文字檔案，順序檔案需要指定，二進位制不需要

4.4parquet

hive> create table stud_parquet(

> id string,

> name string,

> age int

> )

> stored as parquet;

5.view

邏輯表，裡面沒有資料。不支援load資料。主要功能簡化查詢，封裝查詢，許可權。

它的資料就來一個查詢

hive> create view v1 as select id,name,age from stu01；

show tables 可以顯示v1；

對於沒有指定別名的列會預設為_c0

hive > create view v2 as select count(1),name from stu01；

查詢

hive> select '_c0',name from v2; //注意要加上單引號。不加不通過

hive > create view v2 as select count(1) as cnt,name from stu01；//指定列名

6.連線查詢

在hive中執行查詢時，有一個建議：

1：越小的表，在前面-進行快取

2：大的資料表，在後面進行mapreduce。

hive> select s.id as sid,s.name sname,b.id bid,b.name bname from stud_seq s left outer join books b on(s.id=b.sid);

hive> select s.id as sid,s.name sname,b.id bid,b.name bname from stud_seq s right outer join books b on(s.id=b.sid);

hive> select s.id as sid,s.name sname,b.id bid,b.name bname from stud_seq s full join outer books b on(s.id=b.sid);

7.子查詢

只支援非相關子查詢，不支援相關子查詢。

非相關子查詢：子查詢可以獨立執行的。

相關子查詢：子語句不能拿出來被單獨執行，有依賴關係。

SELECT * FROM stud WHERE id IN(SELECT sid FROM books GROUP BY sid HAVING COUNT(sid)=0);

SELECT sid FROM books GROUP BY sid HAVING COUNT(sid)=2;

SELECT * FROM stud WHERE (SELECT COUNT(1) FROM books WHERE books.sid=stud.id)=0;

SELECT COUNT(1) FROM books WHERE books.sid=stud.id

8.檢視執行計劃

通過explain + sql語句檢視sql的執行計劃

Hive總結2（分割槽+分桶+查詢）

Hive是一個數據倉庫，儲存的半結構化資料文字。 Hive不支援：事務，不支援索引（但可以通過分桶實現快速的查詢，hash）類似的分佈的nosql（Not Only Sql資料庫：hbase - Phoinex(鳳凰) Hive的功能，就是做mapred

SSH框架整合（實現分頁查詢）

SSH框架整合、分頁查詢案例之前已經寫過了SSM框架的分頁查詢案例，剛翻筆記時看到了以前寫過的SSH分頁查詢的功能的筆記，這裡就也再整理一下嘍，送給那些在學習SSH框架的同學，SSH框架因為用的Hibernate，所以與SSM有所不同，希望這個小案例能對大家有所幫助。<

Hive（二）--分割槽分桶，內部表外部表

1.簡述 Hive是hadoop生態圈中實現資料倉庫的一項技術。雖然hadoop和hdfs的設計侷限了Hive所能勝任的工作，但是hive仍然是目前網際網路中最適合資料蒼鷺的應用技術。不論從“品相還是舉止”，hive都像一個關係型資料庫。使用者對資料庫、表和列這類術語比較熟悉的話，那麼掌握h

深入理解 Hive 分割槽分桶（Inceptor）

為何分割槽分桶我們知道傳統的DBMS系統一般都具有表分割槽的功能，通過表分割槽能夠在特定的區域檢索資料，減少掃描成本，在一定程度上提高查詢效率，當然我們還可以通過進一步在分割槽上建立索引進一步提升查詢效率。在此就不贅述了。在Hive數倉中也有分割槽分桶的概念，在邏

HIVE的四種排序，以及分割槽分桶

Hive的四種排序 order by order by 會對輸入做全域性排序，因此只有一個reducer（多個reducer無法保證全域性有序）只有一個reducer，會導致當輸入規模比較大時，需要較長的時間。

hive分割槽分桶操作及載入資料

轉載來自：http://www.codeweblog.com/hive-%E5%9F%BA%E7%A1%80-1-%E5%88%86%E5%8C%BA-%E6%A1%B6-sort-merge-bucket-join/ Hive 已是目前業界最為通用、廉價的構建大資料

Hive 分割槽分桶使用

為了對錶進行合理的管理以及提高查詢效率，Hive可以將表組織成“分割槽”。　分割槽是表的部分列的集合，可以為頻繁使用的資料建立分割槽，這樣查詢分割槽中的資料時就不需要掃描全表，這對於提高查詢效率很有幫助。分割槽是一種根據“分割槽列”（partition column）的值對錶進行粗略

hive分割槽分桶

[TOC] ## 1、分割槽如果一個表中資料很多，我們查詢時就很慢，耗費大量時間，如果要查詢其中部分資料該怎麼辦呢，這時我們引入分割槽的概念。 Hive 中的分割槽表分為兩種：靜態分割槽和動態分割槽。 ### 1.1、靜態分割槽可以根據 PARTITIONED BY 建立分割槽表。一個表可以

POJ3264（分桶法）

def push iostream close hid cst body 技術 space 題目思路直接，用分桶法管理每一塊的最大值和最小值就可以 #include<cstdio> #include<cmath> #include<iost

Ajax總結-2（關於前後端通訊請求，最詳細的解讀）

關於什麼是ajax，在第一次總結中也寫過，第一次總結是看了一篇2013年的一個視訊，然後這一次的總結是今年看的一篇文章。一.什麼是Ajax Ajax(Asynchronous JavaScript and XML),可以理解為JavaScript執行非同步網路

Hadoop2.5.2集群部署（完全分布式）

tex 免密碼登錄文件復制 job src 時間配置環境 8.0 上進環境介紹硬件環境 CPU 4 MEM 4G 磁盤 60G 軟件環境 OS:centos6.5版本 64位 Hadoop：hadoop2.5.2 64位 JDK: JDK 1.8.0_91 主機

eclipse中搭建springboot學習（11）---JPA使用4（分頁查詢）

StudentScoreService新增方法 /** * 分頁查詢無查詢條件 * * @param page

p3168 [CQOI2015]任務查詢系統（差分+主席樹）

恕我才學淺薄，一開始想到的是樹狀陣列+線段樹，然後看了題解才第一次見到了差分這種神奇的科技仔細想想，主席樹的本質不就是字首和嘛，加上一個差分也是可以的，沒想到真是罪過罪過對時間維護一個差分在Si處+Ki，在Ti+1處-Ki 用主席樹維護插入的數即可不是很複雜就是程式碼寫了好長時間而且越debug越像題

python小總結2（time,os）

一、時間模組 1.1 Time time.time():獲取時間戳,結果為一個浮點數 time.gtime():獲取時間的元組形式 time.localtime():獲取的是當地時間 time.mktime():將元組形式轉換為時間戳 time.ctime():將時間戳轉換為字串 time.st

程式設計總結2（12.9）

第六章迴圈控制結構一、知識 1.條件控制的迴圈（特別地：標誌變數控制的迴圈）計數控制的迴圈 2.用於結構化程式設計的三種基本結構 ①順序結構 ②選擇結構 ③迴圈結構其中迴圈結構分為當型迴圈結構

unittest單元測試框架之unittest 框架的總結2（八）

unittest 下的屬性 1.Unittest.TestCase:所有測試用例類繼承的基本類 2.Unittest.main():將一個單元測試模組變為可直接執行的測試指令碼 If __name__ == “__main__”: Unittest.main() 3.U

Hive 之內/外表與分割槽表/桶表區別

內表：刪表刪資料（hdfs上的檔案資料）外表：刪表不刪資料（hdfs上的檔案資料）內表建立表時沒加external，預設是內表所有的 Table 資料（不包括 Ext

索引查詢（索引查詢、分塊查詢） C語言實現

1、基本概念索引查詢又稱分級查詢。索引儲存的基本思想是：首先把一個集合或線性表（他們對應為主表）按照一定的函式關係或條件劃分成若干個邏輯上的子表，為每個子表分別建立一個索引項，由所有這些索引項構成主表的一個索引表，然後，可採用順序或連結的方式來儲存索引表和每個子表。

JDBC學習總結2（dao模式）更新中

011.dao模式 1.dao模式； data access object; 一個典型的dao模式應該包括的部分有； vo:值物件；value object dao介面：封裝的是所有資

mysql資料庫基礎學習總結2（DML）

007.DML之insert 1.DML 資料操作語言； DML操作的主體是表中的資料（記錄）,操作分為四種（CURD） insert,update,delete,select;2.insert 語句 &

Hive總結2（分割槽+分桶+查詢）

1.分割槽

1.1建立一個分割槽表

1.2匯入資料

1.3查詢分割槽資料

1.4檢視分割槽

1.5建立多級目錄

1.6動態分割槽

2.排序

2.1.全排序

2.2.部分排序

3.分桶

3.1建立表

hive> create table stud02(

3.2檢視資料

3.3匯入資料

4.儲存格式

行儲存：

列儲存

4.1sequenceFile

4.2avro

4.3orcfile/rcfile二進位制檔案

4.4parquet

5.view

6.連線查詢

7.子查詢

8.檢視執行計劃

相關推薦