Hive表的分割槽與分桶

阿新 • • 發佈：2018-12-27

1.Hive分割槽表

Hive使用select語句進行查詢的時候一般會掃描整個表內容，會消耗很多時間做沒必要的工作。Hive可以在建立表的時候指定分割槽空間，這樣在做查詢的時候就可以很好的提高查詢的效率。

建立分割槽表的語法：

create table tablename(
       name string
)partitioned by(key,type...);

示例

drop table if exists employees;
create table  if not exists employees(
       name string,
       salary float,
       subordinate array<string>,
       deductions map<string,float>,
       address struct<street:string,city:string,num:int>
) partitioned by (date_time string,type string)
row format delimited fields terminated by '\t'
collection items terminated by ','
map keys terminated by ':'
lines terminated by '\n'
stored as textfile
location '/hive/inner';

附：上述語句表示在建表時劃分了date_time和type兩個分割槽也叫雙分割槽，一個分割槽的話就叫單分割槽，上述語句執行完以後我們查看錶的結果會發現多了分割槽的兩個欄位。

desc employees;

結果如下：

注：在檔案系統中的表現為date_time為一個資料夾，type為date_time的子資料夾。

向分割槽表中插入資料(要指定分割槽)

hive> load data local inpath '/usr/local/src/employee_data' into table employees partition(date_time='2015-01_24',type='userInfo');
Copying data from file:/usr/local/src/employee_data
Copying file: file:/usr/local/src/employee_data
Loading data to table default.employees partition (date_time=2015-01_24, type=userInfo)
OK
Time taken: 0.22 seconds
hive>

資料插入後在檔案系統中顯示為：

注：從上圖中我們就可以發現type分割槽是作為子資料夾的形式存在的。

新增分割槽：

alter table employees add if not exists partition(date_time='2088-08-18',type='liaozhongmin');

注：我們可以先新增分割槽，再向對應的分割槽中新增資料。

檢視分割槽：

show partitions employees;

附：employees在這裡表示表名。

刪除不想要的分割槽

alter table employees drop if exists partition(date_time='2015-01_24',type='userInfo');

再次檢視分割槽：

2.Hive桶表

對於每一個表或者是分割槽，Hive可以進一步組織成桶，也就是說桶是更為細粒度的資料範圍劃分。Hive是針對某一列進行分桶。Hive採用對列值雜湊，然後除以桶的個數求餘的方式決定該條記錄存放在哪個桶中。分桶的好處是可以獲得更高的查詢處理效率。使取樣更高效。

示例：

create table bucketed_user(
  id int,
  name string
)
clustered by(id) sorted by(name) into 4 buckets
row format delimited fields terminated by '\t'
stored as textfile;

我們使用使用者id來確定如何劃分桶(Hive使用對值進行雜湊並將結果除於桶的個數取餘數的方式進行分桶)

另外一個要注意的問題是使用桶表的時候我們要開啟桶表：

set hive.enforce.bucketing = true;

現在我們將表employees中name和salary查詢出來再插入到這張表中：

insert overwrite table bucketed_user select salary,name from employees;

我們通過查詢語句可以檢視插進來的資料：

資料在檔案中的表現形式如下，分成了四個桶：

當從桶表中進行查詢時，hive會根據分桶的欄位進行計算分析出資料存放的桶中，然後直接到對應的桶中去取資料，這樣做就很好的提高了效率。

Hive表的分割槽與分桶

1.Hive分割槽表 Hive使用select語句進行查詢的時候一般會掃描整個表內容，會消耗很多時間做沒必要的工作。Hive可以在建立表的時候指定分割槽空間，這樣在做查詢的時候就可以很好的提高查詢的效

能說一下你們專案中hive的庫表設計嗎---庫表設計三板斧---內外部表|分割槽和分桶|序列化和反序列化

資料倉庫的起源可以追溯到計算機與資訊系統發展的初期。它是資訊科技長期複雜演化的產物，並且直到今天這種演化仍然在繼續進行著。而資料倉庫容易讓人糊塗的地方在於它是一種體系結構，而不是一種技術。這點使得許多技術人員和風投都感到沮喪，因為他們希望的是打好成包的專業技術，而非

hive的分割槽和分桶

1.Hive分割槽表 Hive使用select語句進行查詢的時候一般會掃描整個表內容，會消耗很多時間做沒必要的工作。Hive可以在建立表的時候指定分割槽空間，這樣在做查詢的時候就可以很好的提高查詢的效率。建立分割槽表的語法： create table tablen

Hive SQL(分割槽和分桶)

1.HIVE 分割槽表在 hive select 查詢中一般會掃描整個內容,消耗很多時間組沒必要的工作.有時候只需要掃描表中的一部分關心的資料,因此建表時引入了partition 概念. 分割槽表指的是在建立表時指定的partition的分割槽空間,Hive可以對資料按

Hive優化--分割槽表與分桶表

1. 根據業務特徵建立分割槽表使用分割槽表能有效地分隔資料，分割槽條件作為查詢條件時，減少掃描的資料量，加快查詢的效率。如果業務資料有明顯的時間、區域等維度的區分，同時有較多的對應維度的查詢條件時，建議按照相應維度進行一級或多級分割槽。2. 根據業務特徵建立

hive的三板斧：內部表和外部表、分割槽和分桶以及序列化/反序列化(SerDe)

hive的三板斧：內部表和外部表、分割槽和分桶以及序列化/反序列化(SerDe) Hive是Hadoop生態圈中實現資料倉庫的一項技術。雖然Hadoop和HDFS的設計侷限了Hive所能勝任的工作，但是Hive仍然是目前網際網路中最適合資料倉庫的應用技術。不論從“品相還是舉止

Hive常用函式和分桶表

Hive常用函式和分桶表一、字串常用函式二、分桶表　　分桶操作是更細粒度的分配方式，一張表可以同時分割槽和分桶，分桶的原理是根據指定的列的計算hash值模餘分桶數量後將資料分開存放。　　Hive的分桶實際上就是Hadoop的分割槽，有幾個桶，就用幾個reduce

HIVE分割槽以及分桶的簡單概念

1、Hive 分割槽表在Hive Select查詢中一般會掃描整個表內容，會消耗很多時間做沒必要的工作。有時候只需要掃描表中關心的一部分資料，因此建表時引入了partition概念。分割槽表指的是在建立表時指定的partition的分割槽空間。 Hive可以對資料按照某

HIVE—索引、分割槽和分桶的區別

一、索引 Hive支援索引，但是Hive的索引與關係型資料庫中的索引並不相同，比如，Hive不支援主鍵或者外來鍵。 Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如減少MapReduce任務中需要讀取的資料塊的數量。為什麼要建立索引？ Hive的索引目的是

Hive分割槽和分桶

Hive把表組織成分割槽（partition）。這是一種根據分割槽列（partition column，如日期）的值對錶進行粗略的劃分機制。使用分割槽可以加快資料分片（slice）的查詢速度。表或分割槽可以進一步劃分為桶（bucket）。它會為資料提供額外的結構以獲取更高

第二十一天 -- hive補充 -- hive分割槽、分桶 -- hive資料匯入匯出

第二十一天 – hive補充 – hive分割槽、分桶 – hive資料匯入匯出一、Hive基礎補充使用的表及表資料 dept CREATE TABLE dept( deptno int, dname string, loc strin

Hive中索引，分割槽，分桶的對比

一、索引Hive支援索引，但是Hive的索引與關係型資料庫中的索引並不相同，比如，Hive不支援主鍵或者外來鍵。Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如減少MapReduce任務中需要讀取的資料塊的數量。為什麼要建立索引？Hive的索引目的是提高Hiv

大資料Hive的案例、引數、動態分割槽、分桶、檢視、索引、執行方式、許可權管理、Hive的優化_03_03

一、案例：統計出掉線率最高的前10基站需求：統計出掉線率最高的前10基站資料： record_time：通話時間 imei：基站編號 cell：手機編號 drop_num：掉話的秒數duration：通話持續總秒數 1.建表 create table cell_mon

Hive動態分割槽與建表、插入資料操作

1、定義動態分割槽指不需要為不同的分割槽新增不同的插入語句，分割槽不確定，需要從資料中獲取。 set hive.exec.dynamic.partition=true;//使用動態分割槽 (可通過這個語句檢視：set hive.exec.dynamic.partition

把kafka資料從hbase遷移到hdfs，並按天載入到hive表(hbase與hadoop為不同叢集)

需求：由於我們用的阿里雲Hbase，按儲存收費，現在需要把kafka的資料直接同步到自己搭建的hadoop叢集上，(kafka和hadoop叢集在同一個區域網)，然後對接到hive表中去，表按每天做分割槽一、首先檢視kafka最小偏移量（offset） /usr/local/kafka/bin/k

Hive的排序以及分桶抽樣查詢

排序全域性排序(Order by) :一個MapReduce 使用order by子句查詢 ASC(ascend):升序(預設) DESC(descend):降序 Order by子句在Select語句結尾查詢員工資訊按工資升序排列 select * fr

shell定時建立Hive表分割槽

首先看一下hive 的help命令： [[email protected] hive]$ hive -h Missing argument for option: h usage: h

hive動態分割槽與靜態分割槽

HIVE分割槽，實際上是通過一個路徑來標識的，而不是在物理資料中。比如每天的資料，可能分割槽是pt=20121023這樣，那麼路徑中它就會變成：/hdfs/path/pt=20121023/data_files。通過路徑來標識的好處是，如果我們需要取特定分割槽的資料，只需要

直接將hdfs 加到hive表分割槽通過msck

/home/user_image/hadoop-2.7.2/bin/hadoop fs -mkdir hdfs://cluster/user/hive/warehouse/dm_userimage.db/f_userimage_messageinfo/etl_date=$ye

Oracle 11g表分割槽與索引分割槽(《Oracle從入門到精通》讀書筆記4)

一、概述分割槽表的用途和優點： 1. 降低故障引起的損失； 2. 均衡I/O，減少競爭； 3. 提高查詢速度，這一點在資料倉庫的TP查詢特別有用； *TP查詢：Transaction Processing，事務處理查詢？這點不太清楚、網上資料也少，沒查到二、建立表分

Hive表的分割槽與分桶

相關推薦