Hive 之內/外表與分割槽表/桶表區別

阿新 • • 發佈：2018-12-27

內表：刪表刪資料（hdfs上的檔案資料）
外表：刪表不刪資料（hdfs上的檔案資料）

內表
建立表時沒加external，預設是內表
- 所有的 Table 資料（不包括 External Table）都儲存在warehouse這個目錄中。
- 刪除表時，元資料與資料都會被刪除
- 建立過程和資料載入過程（這兩個過程可以在同一個語句中完成），在載入資料的過程中，實際資料會被移動到資料倉庫目錄中；之後對資料對訪問將會直接在資料倉庫目錄中完成。刪除表時，表中的資料和元資料將會被同時刪除
外表
包含External 的表叫外部表
- 刪除外部表只刪除metastore的元資料，不刪除hdfs中的表資料
- 外部表只有一個過程，載入資料和建立表同時完成，並不會移動到資料倉庫目錄中，只是與外部資料建立一個連結。當刪除一個外部表時，僅刪除該連結
- 指向已經在 HDFS 中存在的資料，可以建立 Partition
- 它和內部表在元資料的組織上是相同的，而實際資料的儲存則有較大的差異
分割槽表
加入分割槽避免Hive Select查詢中掃描整個表內容，會消耗很多時間做沒必要的工作。（例如每一天的日誌存放在一個分割槽中，這樣根據特定的日期查詢）

一個表可以擁有一個或者多個分割槽，每個分割槽以資料夾的形式單獨存在表文件夾的目錄下。
桶表
對於每一個表（table）或者分割槽， Hive可以進一步組織成桶，也就是說桶是更為細粒度的資料範圍劃分。Hive也是針對某一列進行桶的組織。Hive採用對列值雜湊，然後除以桶的個數求餘的方式決定該條記錄存放在哪個桶當中。

桶是以檔案的形式存放在表或者分割槽的目錄下。

把表（或者分割槽）組織成桶（Bucket）有兩個理由：
（1）獲得更高的查詢處理效率。桶為表加上了額外的結構，Hive 在處理有些查詢時能利用這個結構。具體而言，連線兩個在（包含連線列的）相同列上劃分了桶的表，可以使用 Map 端連線（Map-side join）高效的實現。比如JOIN操作。對於JOIN操作兩個表有一個相同的列，如果對這兩個表都進行了桶操作。那麼將儲存相同列值的桶進行JOIN操作就可以，可以大大較少JOIN的資料量。
（2）使取樣（sampling）更高效。在處理大規模資料集時，在開發和修改查詢的階段，如果能在資料集的一小部分資料上試執行查詢，會帶來很多方便。

Hive 之內/外表與分割槽表/桶表區別

內表：刪表刪資料（hdfs上的檔案資料）外表：刪表不刪資料（hdfs上的檔案資料）內表建立表時沒加external，預設是內表所有的 Table 資料（不包括 Ext

Hive（二）--分割槽分桶，內部表外部表

1.簡述 Hive是hadoop生態圈中實現資料倉庫的一項技術。雖然hadoop和hdfs的設計侷限了Hive所能勝任的工作，但是hive仍然是目前網際網路中最適合資料蒼鷺的應用技術。不論從“品相還是舉止”，hive都像一個關係型資料庫。使用者對資料庫、表和列這類術語比較熟悉的話，那麼掌握h

Hive筆記三之內部表,外部表,分割槽表,桶表

內部表也稱為受控表，表中的資料受表定義影響，表刪除後表中資料隨之刪除。在COLUMNS_V2表中TBL_TYPE顯示為MANAGED_TABLE 表刪除後實際上是從hdfs上將t1目錄移到回收站中，另外刪除TBLS表中的表定義資訊 hive> drop ta

Hive總結2（分割槽+分桶+查詢）

Hive是一個數據倉庫，儲存的半結構化資料文字。 Hive不支援：事務，不支援索引（但可以通過分桶實現快速的查詢，hash）類似的分佈的nosql（Not Only Sql資料庫：hbase - Phoinex(鳳凰) Hive的功能，就是做mapred

Hive優化--分割槽表與分桶表

1. 根據業務特徵建立分割槽表使用分割槽表能有效地分隔資料，分割槽條件作為查詢條件時，減少掃描的資料量，加快查詢的效率。如果業務資料有明顯的時間、區域等維度的區分，同時有較多的對應維度的查詢條件時，建議按照相應維度進行一級或多級分割槽。2. 根據業務特徵建立

Hive面試題:Hive分割槽表和分桶表的區別

分割槽在HDFS上的表現形式是一個目錄，分桶是一個單獨的檔案分割槽: 細化資料管理，直接讀對應目錄，縮小mapreduce程式要掃描的資料量分桶： 1、提高join查詢的效率（用分桶欄位做連線欄位）

一起學Hive——建立內部表、外部表、分割槽表和分桶表及匯入資料

Hive本身並不儲存資料，而是將資料儲存在Hadoop的HDFS中，表名對應HDFS中的目錄/檔案。根據資料的不同儲存方式，將Hive表分為外部表、內部表、分割槽表和分桶表四種資料模型。每種資料模型各有優缺點。通過create user命令建立user表時，會在HDFS中生成一個user目錄/檔案。外部表

HIVE 分割槽表分桶表

//分割槽表,優化手段之一，從目錄的層面控制搜尋資料的範圍。 //建立分割槽表. $hive>CREATE TABLE t3(id int,name string,age int) PARTITIONED BY (Year INT, Month INT)

資料倉庫和hive語句中的分割槽表和分桶表

資料倉庫中從各資料來源獲取資料以及在資料倉庫內的資料轉換和流動都可以認為是ETL（抽取Extra,轉化Transfer,裝載Load）的過程,ETL是資料倉庫的流水線.資料倉庫(data warehouse)與資料庫的區別:資料倉庫(data warehouse)--

Hive 7、Hive 的內表、外表、分割槽

1、Hive的內表 2、Hive的外表建立Hive 的外表，需要使用關鍵字 External： CREATE EXTERNAL TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_co

hive通過jdbc建立表，分割槽，桶

首先我們需要開啟hiveserver服務：hive --service hiveserver 然後我們和操作普通資料庫一樣，先載入驅動，然後建立連線，接著建立一個statement，然後執行查詢，然會結果集。程式碼如下（一定要寫對sql語句，要仔細，下面的需要注意的地方我已

hive中簡單介紹分割槽表(partition table)，含動態分割槽(dynamic partition)與靜態分割槽(static partition)

hive> insert overwrite table partition_test partition(stat_date='20110527',province='liaoning') select member_id,name from partition_test_input; WARNING

hive 分割槽表、桶表和外部表

1：分割槽表圖：建立分割槽表圖：匯入資料圖：在HDFS的顯示資訊分割槽欄位就是一個資料夾的標識圖：在多列上建立分割槽圖：匯入資料圖：在多列上建立分割槽後

Hive 系列（五）—— Hive 分割槽表和分桶表

一、分割槽表 1.1 概念 Hive 中的表對應為 HDFS 上的指定目錄，在查詢資料時候，預設會對全表進行掃描，這樣時間和效能的消耗都非常大。分割槽為 HDFS 上表目錄的子目錄，資料按照分割槽儲存在子目錄中。如果查詢的 where 字句的中包含分割槽條件，則直接從該分割槽去查詢，而不是掃描整個表目錄，合

hive：普通表外部表分割槽表

1. 普通表普通表的建立，如上所說，不講了。其中，一個表，就對應一個表名對應的檔案。 2. 外部表 EXTERNAL 關鍵字可以讓使用者建立一個外部表，在建表的同時指定一個指向實際資料的路徑（L

hive：資料模型—桶表

概述桶的概念，主要是為效能考慮，可以理解為對分割槽內列，進行再次劃分，提高效能。在底層，一個桶其實是一個檔案。如果桶劃分過多，會導致檔案數量暴增，一旦達到系統檔案數量的上限，就杯具了。哪種是最優數量，這個哥也不知道。桶表是對資料進行雜湊取值，然後放到不同檔案中儲存。資料載入到桶表時

mysql分表與分割槽、主從複製

1.分割槽的工作原理對使用者而言，分割槽表是一個獨立的邏輯表，但mysql底層將其分成了多個物理子表，每一個分割槽都是一個獨立的子檔案；分割槽不需要改動原先的sql語句。建立表時使用partition by子句定義每個分割槽存放的資料，執行查詢時，mysql優化器會過濾那些沒有我們

Hive常用函式和分桶表

Hive常用函式和分桶表一、字串常用函式二、分桶表　　分桶操作是更細粒度的分配方式，一張表可以同時分割槽和分桶，分桶的原理是根據指定的列的計算hash值模餘分桶數量後將資料分開存放。　　Hive的分桶實際上就是Hadoop的分割槽，有幾個桶，就用幾個reduce

## Hive分割槽、桶、與傾斜

Hive的分割槽 (1)在Hive Select 查詢中一般會掃描整個表內容，會消耗很多時間做沒必要的工作。有時候查詢只需要掃描表中關心的一部分資料，因此建表時引入partition概念。 (2)分割槽表指的是在建立表時指定的partition的分割槽空間

Hive的分桶表和抽樣查詢（附帶案例，分桶和分表的區別）

目錄總結：分桶表：分桶和分割槽的區別：抽樣查詢：總結：總結： ①分桶為抽樣查詢而生，分桶表的建立使用【clustered by （分桶欄位）into 桶的個數 buckets】，往分桶表中匯入資料的時候，需要藉助第三張表select tabl

Hive 之內/外表 與 分割槽表/桶表區別

相關推薦

Hive 之內/外表與分割槽表/桶表區別