Hive中的分桶概念的學習以及示例分析學習

阿新 • • 發佈：2018-12-11

我們學習一下分桶表，其實分割槽和分桶這兩個概念對於初學者來說是比較難理解的。但對於理解了的人來說，發現又是如此簡單。

我們先建立一個分桶表，並嘗試直接上傳一個數據

create table student4(sno int,sname string,sex string,sage int, sdept string) clustered by(sno) into 3 buckets row format delimited fields terminated by ',';
set hive.enforce.bucketing = true;強制分桶。
load data local inpath '/home/hadoop/hivedata/students.txt' overwrite into table student4;

我們看到雖然設定了強制分桶，但實際student表下面只有一個students一個檔案。分桶也就是分割槽，分割槽數量等於檔案數，所以上面方法並沒有分桶。

現在，我們用插入的方法給另外一個分桶表傳入同樣資料

create table student4(sno int,sname string,sex string,sage int, sdept string) clustered by(sno) into 3 buckets row format delimited fields terminated by ',';
set hive.enforce.bucketing = true;強制分桶。
load data local inpath '/home/hadoop/hivedata/students.txt' overwrite into table student4;
我們看到雖然設定了強制分桶，但實際STUDENT表下面只有一個STUDENTS一個檔案。
分桶也就是分割槽，分割槽數量等於檔案數，所以上面方法並沒有分桶。
#建立第2個分桶表
create table stu_buck(sno int,sname string,sex string,sage int,sdept string)
clustered by(sno) 
sorted by(sno DESC)
into 4 buckets
row format delimited
fields terminated by ',';

#設定變數,設定分桶為true, 設定reduce數量是分桶的數量個數
set hive.enforce.bucketing = true;
set mapreduce.job.reduces=4;
#開會往建立的分通表插入資料(插入資料需要是已分桶, 且排序的)
#可以使用distribute by(sno) sort by(sno asc)   或是排序和分桶的欄位相同的時候使用Cluster by(欄位)
#注意使用cluster by  就等同於分桶+排序(sort)
insert into table stu_buck
select sno,sname,sex,sage,sdept from student distribute by(sno) sort by(sno asc);

Query ID = root_20171109145012_7088af00-9356-46e6-a988-f1fc5f6d2e13
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 4
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
Starting Job = job_1510197346181_0014, Tracking URL = http://server71:8088/proxy/application_1510197346181_0014/
Kill Command = /usr/local/hadoop/bin/hadoop job  -kill job_1510197346181_0014
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 4
2017-11-09 14:50:59,642 Stage-1 map = 0%,  reduce = 0%
2017-11-09 14:51:38,682 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 5.04 sec
2017-11-09 14:52:31,935 Stage-1 map = 100%,  reduce = 50%, Cumulative CPU 7.91 sec
2017-11-09 14:52:33,467 Stage-1 map = 100%,  reduce = 67%, Cumulative CPU 15.51 sec
2017-11-09 14:52:39,420 Stage-1 map = 100%,  reduce = 83%, Cumulative CPU 22.5 sec
2017-11-09 14:52:40,953 Stage-1 map = 100%,  reduce = 92%, Cumulative CPU 25.86 sec
2017-11-09 14:52:42,243 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 28.01 sec
MapReduce Total cumulative CPU time: 28 seconds 10 msec
Ended Job = job_1510197346181_0014
Loading data to table default.stu_buck
Table default.stu_buck stats: [numFiles=4, numRows=22, totalSize=527, rawDataSize=505]
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1  Reduce: 4   Cumulative CPU: 28.01 sec   HDFS Read: 18642 HDFS Write: 819 SUCCESS
Total MapReduce CPU Time Spent: 28 seconds 10 msec
OK
Time taken: 153.794 seconds

我們設定reduce的數量為4，學過mapreduce的人應該知道reduce數等於分割槽數，也等於處理的檔案數量。

把表或分區劃分成bucket有兩個理由

1，更快，桶為表加上額外結構，連結相同列劃分了桶的表，可以使用map-side join更加高效。

2，取樣sampling更高效。沒有分割槽的話需要掃描整個資料集。

hive> create table bucketed_user (id int,name string)

> clustered by (id) sorted by (id asc) into 4 buckets;

重點1：CLUSTERED BY來指定劃分桶所用列和劃分桶的個數。HIVE對key的hash值除bucket個數取餘數，保證資料均勻隨機分佈在所有bucket裡。

重點2:SORTED BY對桶中的一個或多個列另外排序

總結：我們發現其實桶的概念就是MapReduce的分割槽的概念，兩者完全相同。物理上每個桶就是目錄裡的一個檔案，一個作業產生的桶（輸出檔案）數量和reduce任務個數相同。

而分割槽表的概念，則是新的概念。分割槽代表了資料的倉庫，也就是資料夾目錄。每個資料夾下面可以放不同的資料檔案。通過資料夾可以查詢裡面存放的檔案。但資料夾本身和資料的內容毫無關係。

桶則是按照資料內容的某個值進行分桶，把一個大檔案雜湊稱為一個個小檔案。

這些小檔案可以單獨排序。如果另外一個表也按照同樣的規則分成了一個個小檔案。兩個表join的時候，就不必要掃描整個表，只需要匹配相同分桶的資料即可。效率當然大大提升。

同樣，對資料抽樣的時候，也不需要掃描整個檔案。只需要對每個分割槽按照相同規則抽取一部分資料即可。

轉載於：

Hive中的分桶概念的學習以及示例分析學習

我們學習一下分桶表，其實分割槽和分桶這兩個概念對於初學者來說是比較難理解的。但對於理解了的人來說，發現又是如此簡單。我們先建立一個分桶表，並嘗試直接上傳一個數據 create table student4(sno int,sname string,sex strin

hive中的桶表，以及高效的join方式

hive中的join策略大概可以分為三種前面2種的話都是經常會用到，說下第三種桶 join 桶（SMB）物理上，每個桶就是表(或分割槽）目錄裡的一個檔案。 smb的設計是為了解決大表和大表之間的join的。簡單的說下她的思想：大表

Hive的分桶

creat table hive student from create tin string ble 含義：實質是將數據分成不同的文件。hive中的分桶和hadoop中的reduce個數相同。　　首先設置采用分桶：　　　　hive>set hive.enforc

Hive的分桶管理和分割槽

分桶管理： https://blog.csdn.net/freefish_yzx/article/details/77150714 分桶和分割槽： https://blog.csdn.net/lzm1340458776/article/details/43085423 下面這篇文章解釋了

Hive的分桶表和抽樣查詢（附帶案例，分桶和分表的區別）

目錄總結：分桶表：分桶和分割槽的區別：抽樣查詢：總結：總結： ①分桶為抽樣查詢而生，分桶表的建立使用【clustered by （分桶欄位）into 桶的個數 buckets】，往分桶表中匯入資料的時候，需要藉助第三張表select tabl

深入理解 Hive 分割槽分桶（Inceptor）

為何分割槽分桶我們知道傳統的DBMS系統一般都具有表分割槽的功能，通過表分割槽能夠在特定的區域檢索資料，減少掃描成本，在一定程度上提高查詢效率，當然我們還可以通過進一步在分割槽上建立索引進一步提升查詢效率。在此就不贅述了。在Hive數倉中也有分割槽分桶的概念，在邏

大資料012-Hive的分桶詳解

Hive分桶通俗點來說就是將表（或者分割槽，也就是hdfs上的目錄而真正的資料是儲存在該目錄下的檔案）中檔案分成幾個檔案去儲存。比如表buck(目錄，裡面存放了某個檔案如sz.data)檔案中本來是1000000條資料，由於在處理大規模資料集時，在開發和修改查詢的階段，如果能在資料集的一小部分資料上

hive分割槽分桶操作及載入資料

轉載來自：http://www.codeweblog.com/hive-%E5%9F%BA%E7%A1%80-1-%E5%88%86%E5%8C%BA-%E6%A1%B6-sort-merge-bucket-join/ Hive 已是目前業界最為通用、廉價的構建大資料

CSS3中Transition屬性詳解以及示例分享

1、transition-property的語法[css] transition-property :all(所有屬性改變) || [attr] (指定要運動的樣式)|| none(沒有屬性改變) 　　2、transition-property的屬性值　　(1)

Hive 分割槽分桶使用

為了對錶進行合理的管理以及提高查詢效率，Hive可以將表組織成“分割槽”。　分割槽是表的部分列的集合，可以為頻繁使用的資料建立分割槽，這樣查詢分割槽中的資料時就不需要掃描全表，這對於提高查詢效率很有幫助。分割槽是一種根據“分割槽列”（partition column）的值對錶進行粗略

hive分割槽分桶

[TOC] ## 1、分割槽如果一個表中資料很多，我們查詢時就很慢，耗費大量時間，如果要查詢其中部分資料該怎麼辦呢，這時我們引入分割槽的概念。 Hive 中的分割槽表分為兩種：靜態分割槽和動態分割槽。 ### 1.1、靜態分割槽可以根據 PARTITIONED BY 建立分割槽表。一個表可以

HashMap的學習以及原始碼分析

Hashmap HashMap繼承AbstractMap類，實現了Map介面（由下圖可見），在java集合中，它是一個基本的儲存資料的結構。他的底層是由陣列+連結串列構成，通過特定的雜湊函式從鍵（key）來定位值。 HashMap的結構形式大概如圖所示：構造雜湊函式

Hive中壓縮使用詳解與效能分析

HIVE底層是hdfs和mapreduce實現儲存和計算的。所以HIVE可以使用hadoop自帶的InputFormat和Outputformat實現從不同的資料來源讀取檔案和寫出不同格式的檔案到檔案系統中。同理，HIVE也可以使用hadoop配置的壓縮方

hive中使用自定義函式(UDF)實現分析函式row_number的功能

1. hive0.10及之前的版本沒有row_number這個函式，假設我們現在出現如下業務場景，現在我們在hdfs上有個log日誌檔案，為了方便敘述，該檔案只有2個欄位，第一個是使用者的id，第二個是當天登入的timestamp，現在我們需要求每個使用者最早登入的那條記錄（

HIVE分割槽以及分桶的簡單概念

1、Hive 分割槽表在Hive Select查詢中一般會掃描整個表內容，會消耗很多時間做沒必要的工作。有時候只需要掃描表中關心的一部分資料，因此建表時引入了partition概念。分割槽表指的是在建立表時指定的partition的分割槽空間。 Hive可以對資料按照某

能說一下你們專案中hive的庫表設計嗎---庫表設計三板斧---內外部表|分割槽和分桶|序列化和反序列化

資料倉庫的起源可以追溯到計算機與資訊系統發展的初期。它是資訊科技長期複雜演化的產物，並且直到今天這種演化仍然在繼續進行著。而資料倉庫容易讓人糊塗的地方在於它是一種體系結構，而不是一種技術。這點使得許多技術人員和風投都感到沮喪，因為他們希望的是打好成包的專業技術，而非

hive的三板斧：內部表和外部表、分割槽和分桶以及序列化/反序列化(SerDe)

hive的三板斧：內部表和外部表、分割槽和分桶以及序列化/反序列化(SerDe) Hive是Hadoop生態圈中實現資料倉庫的一項技術。雖然Hadoop和HDFS的設計侷限了Hive所能勝任的工作，但是Hive仍然是目前網際網路中最適合資料倉庫的應用技術。不論從“品相還是舉止

Hive的排序以及分桶抽樣查詢

排序全域性排序(Order by) :一個MapReduce 使用order by子句查詢 ASC(ascend):升序(預設) DESC(descend):降序 Order by子句在Select語句結尾查詢員工資訊按工資升序排列 select * fr

深度學習中IU、IoU(Intersection over Union)的概念理解以及python程式實現

Intersection over Union是一種測量在特定資料集中檢測相應物體準確度的一個標準。我們可以在很多物體檢測挑戰中，例如PASCAL VOC challenge中看多很多使用該標準的做法。通常我們在 HOG + Linear SVM objec

Hive中關於分割槽表的概念理解以及相關操作解釋

網上有篇關於hive的partition的使用講解的比較好，轉載了：一、背景 1、在Hive Select查詢中一般會掃描整個表內容，會消耗很多時間做沒必要的工作。有時候只需要掃描表中關心的一部分資料，因此建表時引入了partition概念。 2、分割槽表指的是在建立表時指

Hive中的分桶概念的學習以及示例分析學習

現在，我們用插入的方法給另外一個分桶表傳入同樣資料

相關推薦