Hive中的分割槽表

阿新 • • 發佈：2018-12-04

①建立分割槽表的時候，指定非表字段的分割槽欄位，使用partitioned by ；②向分割槽表中插入資料的時候，在表名的後面要加上partition（分割槽欄位名=分割槽欄位值）③如果一個表是分割槽表，那麼該分割槽表在HDFS上是一個以表名為名的路徑，那麼同時，該路徑下還有分割槽的路徑，以分割槽欄位=分割槽欄位值的形式命名。④使用where來進行分割槽查詢。⑤alter add多個用空格，alter drop 多個用逗號。⑥：分割槽的目的是提高查詢效率

分割槽結構圖和原理：

分割槽表實際上就是對應一個HDFS檔案系統上的獨立的資料夾，該資料夾下是該分割槽所有的資料檔案。Hive中的分割槽就是分目錄，把一個大的資料集根據業務需要分割成小的資料集。在查詢時通過WHERE子句中的表示式選擇查詢所需要的指定的分割槽，這樣的查詢效率會提高很多。

分割槽表的目的是為了提高查詢效率。

上手案例實操：

1，建立分割槽表：分割槽的欄位不能是表中的欄位
create table stu_par(id int,name string)
partitioned by (month string)  
row format delimited
fields terminated by '\t';

使用下面的命令檢視該表分割槽的欄位
0: jdbc:hive2://hadoop108:10000> desc formatted stu_par;

2，向分割槽表中匯入資料：
 load data local inpath '/opt/module/hive/stu.txt' into table stu_par partition(month = '12');

0: jdbc:hive2://hadoop108:10000> select * from stu_par;
OK
+-------------+---------------+----------------+--+
| stu_par.id  | stu_par.name  | stu_par.month  |
+-------------+---------------+----------------+--+
| 1001        | zhangfei      | 12             |
| 1002        | liubei        | 12             |
| 1003        | guanyu        | 12             |
| 1004        | zhaoyun       | 12             |
| 1005        | caocao        | 12             |
| 1006        | zhouyu        | 12             |
+-------------+---------------+----------------+--+
發現分割槽的欄位資訊也作為表的欄位資訊顯示出來，所以分割槽欄位得名虛欄位。

3，繼續執行：
load data local inpath '/opt/module/hive/stu.txt' into table stu_par partition(month = '11');

load data local inpath '/opt/module/hive/stu.txt' into table stu_par partition(month = '10');

4，檢視HDFS中的表資訊：
0: jdbc:hive2://hadoop108:10000> !sh hadoop fs -ls /user/hive/warehouse/db_hive.db/stu_par
Found 3 items
drwxr-xr-x   - isea supergroup      0 2018-12-01 04:34 /user/hive/warehouse/db_hive.db/stu_par/month=10
drwxr-xr-x   - isea supergroup      0 2018-12-01 04:34 /user/hive/warehouse/db_hive.db/stu_par/month=11
drwxr-xr-x   - isea supergroup      0 2018-12-01 04:30 /user/hive/warehouse/db_hive.db/stu_par/month=12

可以看出分割槽表會根據分割槽的欄位和分割槽欄位值的形式，組成  欄位=欄位值 的形式形成一個資料夾，在該
資料夾下儲存著分割槽欄位的資訊

5，查詢某個分割槽的欄位使用where：
0: jdbc:hive2://hadoop108:10000> select * from stu_par where month = 10;
OK
+-------------+---------------+----------------+--+
| stu_par.id  | stu_par.name  | stu_par.month  |
+-------------+---------------+----------------+--+
| 1001        | zhangfei      | 10             |
| 1002        | liubei        | 10             |
| 1003        | guanyu        | 10             |
| 1004        | zhaoyun       | 10             |
| 1005        | caocao        | 10             |
| 1006        | zhouyu        | 10             |
+-------------+---------------+----------------+--+

6，查詢表的分割槽情況：
0: jdbc:hive2://hadoop108:10000> show partitions stu_par;
OK
+------------+--+
| partition  |
+------------+--+
| month=10   |
| month=11   |
| month=12   |
+------------+--+

6，多分割槽查詢可以使用union，要使用MapReduce：
select * from stu_par where month = 10
union
select * from stu_par where month = 11;

+---------+-----------+------------+--+
| _u2.id  | _u2.name  | _u2.month  |
+---------+-----------+------------+--+
| 1001    | zhangfei  | 10         |
| 1001    | zhangfei  | 11         |
| 1002    | liubei    | 10         |
| 1002    | liubei    | 11         |
| 1003    | guanyu    | 10         |
| 1003    | guanyu    | 11         |
| 1004    | zhaoyun   | 10         |
| 1004    | zhaoyun   | 11         |
| 1005    | caocao    | 10         |
| 1005    | caocao    | 11         |
| 1006    | zhouyu    | 10         |
| 1006    | zhouyu    | 11         |
+---------+-----------+------------+--+

7，增加，和刪除多個分割槽：增加空格，刪除逗號：
增加分割槽，多個
alter table stu_par add partition(month = '09') partition(month = '08');
刪除分割槽，多個
alter table stu_par drop partition(month = '09'),partition(month = '08');

8，建立多級分割槽，在HDFS上，二級分割槽將會是一級分割槽的子資料夾：
> load data local inpath '/opt/module/hive/stu.txt' into table stu_par2 partition(month = '12', day = '01');

0: jdbc:hive2://hadoop108:10000> select * from stu_par2;
OK
+--------------+----------------+-----------------+---------------+--+
| stu_par2.id  | stu_par2.name  | stu_par2.month  | stu_par2.day  |
+--------------+----------------+-----------------+---------------+--+
| 1001         | zhangfei       | 12              | 01            |
| 1002         | liubei         | 12              | 01            |
| 1003         | guanyu         | 12              | 01            |
| 1004         | zhaoyun        | 12              | 01            |
| 1005         | caocao         | 12              | 01            |
| 1006         | zhouyu         | 12              | 01            |
+--------------+----------------+-----------------+---------------+--+

增加分割槽，獲取分割槽資訊：
> alter table stu_par2 add partition(month = '12',day = '02');
0: jdbc:hive2://hadoop108:10000> show partitions stu_par2;
OK
+------------------+--+
|    partition     |
+------------------+--+
| month=12/day=01  |
| month=12/day=02  |
+------------------+--+

alter table stu_par2 add partition(month = '12',day = '02');
就是在Metastore中的partition表中添加了一個欄位的資訊，如下圖：

如下圖：

總結：

①建立分割槽表的時候，指定非表字段的分割槽欄位，使用partitioned by ；②向分割槽表中插入資料的時候，在表名的後面要加上partition（分割槽欄位名=分割槽欄位值）③如果一個表是分割槽表，那麼該分割槽表在HDFS上是一個以表名為名的路徑，那麼同時，該路徑下還有分割槽的路徑，以分割槽欄位=分割槽欄位值的形式命名。④使用where來進行分割槽查詢。⑤alter add多個用空格，alter drop 多個用逗號；⑥分割槽的目的是為了提高查詢效率

Hive中分割槽表及陷阱

分割槽表分割槽表實際就是對應hdfs檔案系統上的的獨立的資料夾，該檔案是夾下是該分割槽所有資料檔案。分割槽可以理解為分類，通過分類把不同型別的資料放到不同的目錄下。分類的標準就是分割槽欄位，可以一個，也可以多個。分割槽表的意義在於優化查詢。查詢時儘量利用分割槽欄位。如果不使用分割槽欄位，就會全部掃描。在查詢是

hive中管理表（內部表）和外部表的區別是什麼，及分割槽表使用場景

⑴區別： ①Hive建立內部表時（預設建立內部表），會將資料移動到資料倉庫指向的路徑；建立外部表（需要加關鍵字external），僅記錄資料所在的路徑，不對資料的位置做任何改變； ⑵Hive刪除表時，內部表的元資料和資料會被一起刪除，而外部表只刪除元資料，不刪除資料；

hive中刪除表的錯誤Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException

成了 ret jar tor java-5 drop meta org -c hive使用drop table 表名刪除表時報錯，return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException

Hive: 建立分割槽表（partition表）及分割槽表匯入csv文字檔案資料

2018.11.21 文章目錄前言方法前言某專案生產環境中的Hive是按月份分割槽，而測試環境的沒有分割槽，導致部分功能無法驗證。方法基本思路：分別建立兩個表，一張是分割槽表，另一

hive新建分割槽表

hive新建分割槽表語句如下： create table table_name (col1_name string comment '備註1', col2_name string comment '備註2', col3_name string comment '備註3', col4_name string

大資料開發之Hive篇----分割槽表的構建

在hive當中為什麼要分割槽呢？就是要提高我們的查詢速度，那麼它是怎麼提高查詢速度的呢？首先，分割槽是指根據某個或幾個欄位來將資料表格切分成多個板塊，根據你所指定的欄位，這個欄位裡面有多少個值，我們就將分割槽建成多少個。所以，分割槽其實是在表這個單位下的下一個單位。因此，在H

【七】Spark SQL命令和Spark shell命令操作hive中的表

1.把hive的配置檔案hive-site.xml複製到spark/conf下。 2.啟動的時候帶上MySQL的連線驅動 Spark-shell命令使用 spark-shell是通過得到sparksession然後呼叫sql方法執行hive的sql。 cd /app/

hive中建立表命令

情況1:設定分割槽： DROP TABLE IF EXISTS adm_investor_activity; CREATE TABLE IF NOT EXISTS adm_investor_activity( investor_id bigint comment '投資人id'

Hive 中內部表與外部表的區別與建立方法

先來說下Hive中內部表與外部表的區別：1）建立表時：建立內部表時，會將資料移動到資料倉庫指向的路徑；若建立外部表，僅記錄資料所在的路徑，不對資料的位置做任何改變。 2）刪除表時：在刪除表的時候，內部表的元資料和資料會被一起刪除，而外部表只刪除元資料，不刪除資料。這樣外部表

Hive學習筆記 --- Hive建立分割槽表

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

通過spark sql建立HIVE的分割槽表

今天需要通過匯入文字中的資料到HIVE資料庫，而且因為預設該表的資料會比較大，所以採用分割槽表的設計方案。將表按地區和日期分割槽。在這個過程出現過一些BUG，記錄以便後期檢視。 spark.sql("use oracledb") spark.sql("CREATE TABL

Hive優化--分割槽表與分桶表

1. 根據業務特徵建立分割槽表使用分割槽表能有效地分隔資料，分割槽條件作為查詢條件時，減少掃描的資料量，加快查詢的效率。如果業務資料有明顯的時間、區域等維度的區分，同時有較多的對應維度的查詢條件時，建議按照相應維度進行一級或多級分割槽。2. 根據業務特徵建立

HIve中分割槽資料關聯的三種方式

之前的分割槽表都是先建立表然後載入資料到分割槽表中，然後就會在HDFS自動建立相關的目錄儲存資料，但是這裡反過來做，先在HDFS中建立相應的目錄，然後把資料直接上傳到這個目錄下，具體如下所示先在HDFS中建立存放資料的目錄 dfs -mkdir -p /user/hiv

hive修改分割槽表

新增分割槽 ALTER TABLE table_name ADD PARTITION (partCol = 'value1') location 'loc1'; //示例 ALTER TABLE t

Hive外部分割槽表載入flume打到hdfs上檔案，讀不到.tmp檔案

flume打到hdfs上時，按照檔案大小生成檔案，在達到指定大小之前資料都是以.tmp檔案形式儲存在hdfs上，hive外部表也會載入這些檔案，但是當檔案完成後.tmp會消失，這時候hive會報找不到檔案的錯誤。解決方法是自己寫hive的pathfilter類，hive載入資料的時候把tmp檔案過濾

Hive中建立表的各種方式以及區別詳解

3.新表中會將原表的分割槽當做欄位出現在新表中。> describe formatted mytest_tmp1 ; OK col_name data_type comment # col_name

Hive靜態分割槽表

Hive的分割槽表分為動態分割槽和靜態分割槽，分割槽表的使用能夠為巨量表查詢效能的提高提供幫助。靜態分割槽在資料載入前需要事先將分割槽建好，使用起來稍顯複雜，而動態表可以根據資料自動建立分割槽，但同時花費了巨大的效能代價。如果分割槽是可以確定的話，一定不要用動態分割

hive內部分割槽表(ORC格式)新增欄位後出現的問題

hive內部分割槽表(ORC格式)在新增欄位後出現的問題：1、在新增欄位後的分割槽內查詢資料正常2、在新增欄位前的分割槽內查詢資料異常3、分割槽刪不掉，一直卡著不動出現原因：當我們修改hive表結構以後，mysql中元資料庫中的SDS中該hive表對應的CD_ID會改變，但是

將HDFS中的檔案對映為Hive中的表

上一篇文章中已經將伺服器本地檔案上傳到HDFS指定資料夾中，現在要將檔案中的內容存入Hive對應的表中，步驟如下。 su hive //切換到hive使用者 create table tes

Hive如何根據表中某個欄位動態分割槽

使用hive儲存資料時，需要對做分割槽，如果從kafka接收資料，將每天的資料儲存一個分割槽（按天分割槽），儲存分割槽時需要根據某個欄位做動態分割槽，而不是傻傻的將資料寫到某一個臨時目錄最後倒入到某一個分割槽，這是靜態分割槽。 Hive動態分割槽步驟如下： 1、建立某一個源表模擬資料來源並

Hive中的分割槽表

總結：

分割槽結構圖和原理：

上手案例實操：

總結：

相關推薦