hive分割槽表詳細介紹

阿新 • • 發佈：2019-01-05

一，什麼是分割槽表以及作用

資料分割槽的概念以及存在很久了，通常使用分割槽來水平分散壓力，將資料從物理上移到和使用最頻繁的使用者更近的地方，以及實現其目的。 hive中有分割槽表的概念，我們可以看到分割槽具重要效能優勢，而且分割槽表還可以將資料以一種符合邏輯的方式進行組織，比如分層儲存

分割槽表分別有靜態分割槽和動態分割槽

二、靜態分割槽

1，建立靜態分割槽格式:
create table employees
 (
 name   string,
 salary  float,
 subordinated array<string>,
 deductions map<string,float>,
 address  struct<street:string,city:string,state:string,zip:int>
 )
 partitioned by (country string,state string)
 row format delimited
 fields terminated by "\t"
 collection items terminated by ","
 map keys terminated by ":"
 lines terminated by "\n"
 stored as textfile; 
建立成果後發現他的儲存路徑和普通的內部表的路徑是一樣的而且多了分割槽表的欄位，因為我們建立的分割槽表並沒內容，事實上，除非需要優化查詢效能，否則實現表的使用者不需要關係"欄位是否是分割槽欄位"

2，然後我們新增分割槽表
alter table employees add  partition (country="china",state="Asia");
檢視分割槽表資訊: show partitions employees;

hdfs上的路徑:/user/hive/warehouse/zxz.db/employees/country=china/state=Asia 他們都是以目錄及子目錄形式儲存的

3，插入資料:
格式:
INSERT INTO TABLE tablename [PARTITION (partcol1[=val1], partcol2[=val2] ...)] VALUES values_row [, values_row …];

格式2：（推薦使用）
load data local inpath '/home/had/data1.txt' into table employees partition (country =china,state=Asia)
4,利用分割槽表查詢：(一般分割槽表都是利用where語句查詢的)

5，CTAS語句和like
建立表，攜帶資料
create table employees1 as select * from employees1
建立表，攜帶表結構
create table employees2 like employees
6,外部分割槽表:

外部表同樣可以使用分割槽，事實上，使用者會發現，只是管理大型生產資料集最常見的情況，這種結合給使用者提供一個和其他工具共享資料的方式，同時也可以優化查詢效能
create external table employees_ex
 (
 name   string,
 salary  float,
 subordinated array<string>,
 deductions map<string,float>,
 address  struct<street:string,city:string,state:string,zip:int>
 )
 partitioned by (country string,state string)
 row format delimited
 fields terminated by "\t"
 collection items terminated by ","
 map keys terminated by ":"
 lines terminated by "\n"
 stored as textfile;   
 location "/user/had/data/"    //他其實和普通的靜態分割槽表一樣就是多了一個external關鍵字
這樣我們就可以把資料路徑改變而不影響資料的丟失，這是內部分割槽表遠遠不能做的事情:
1,(因為我們建立的是外部表)所有我們可以把表資料放到hdfs上的隨便一個地方這裡自動資料載入到/user/had/data/下(當然我們之前在外部表上指定了路徑)
load data local inpath '/home/had/data.txt' into table employees_ex partition (country="china",state="Asia");
2,如果我們載入的資料要分離一些舊資料的時候就可以hadoop的distcp命令來copy資料到某個路徑
hadoop distcp /user/had/data/country=china/state=Asia 
              /user/had/data_old/country=china/state=Asia
3,修改表，把移走的資料的路徑在hive裡修改
alter table employees partition(country="china",state="Asia") set location '/user/had/data_old/country=china/state=Asia'
4,使用hdfs的rm命令刪除之前路徑的資料
hdfs dfs -rmr /user/had/data/country=china/state=Asia
這樣我們就完成一次資料遷移

如果覺得突然忘記了資料的位置使用使用下面的方式檢視
describe extend employees_ex partition (country="china",state="Asia");
7,刪除分割槽表

alter table employees drop partition(country="china",state="Asia");

8,眾多的修改語句
1，把一個分割槽打包成一個har包
  alter table employees archive partition (country="china",state="Asia")
2, 把一個分割槽har包還原成原來的分割槽
  alter table employees unarchive partition (country="china",state="Asia")
3, 保護分割槽防止被刪除
   alter table employees partition (country="china",state="Asia") enable no_drop
4,保護分割槽防止被查詢
    alter table employees partition (country="china",state="Asia") enable offline
5，允許分割槽刪除和查詢
   alter table employees partition (country="china",state="Asia") disable no_drop
   alter table employees partition (country="china",state="Asia") disable offline
9，通過查詢語句向表中插入資料

insert overwrite/into table copy_employees partition （country="china",state="Asia"） select * from employees es where es.country="china" and es.state ="Asia"

三、動態分割槽:

為什麼要使用動態分割槽呢，我們舉個例子，假如中國有50個省，每個省有50個市，每個市都有100個區，那我們都要使用靜態分割槽要使用多久才能搞完。所有我們要使用動態分割槽。

動態分割槽預設是沒有開啟。開啟後預設是以嚴格模式執行的，在這種模式下需要至少一個分割槽欄位是靜態的。這有助於阻止因設計錯誤導致導致查詢差生大量的分割槽。列如：使用者可能錯誤使用時間戳作為分割槽表字段。然後導致每秒都對應一個分割槽！這樣我們也可以採用相應的措施:
關閉嚴格分割槽模式
		動態分割槽模式時是嚴格模式，也就是至少有一個靜態分割槽。
		set hive.exec.dynamic.partition.mode=nonstrict	//分割槽模式，預設nostrict
		set hive.exec.dynamic.partition=true			//開啟動態分割槽,預設true
		set hive.exec.max.dynamic.partitions=1000		//最大動態分割槽數,預設1000
1,建立一個普通動態分割槽表:
create table if not exists  zxz_5(
 name string,
 nid int,
 phone string,
 ntime date
 ) 
 partitioned by (year int,month int) 
 row format delimited 
 fields terminated by "|"
 lines terminated by "\n"
 stored as textfile;
現在還看不出來有什麼不一樣
insert overwrite table  zxz_5 partition (year,month) select name,nid,phone,ntime,year(ntime) as year ,month(ntime) as month from zxz_dy;

zxz_5這個表裡面存放著資料。
我們利用year，和month函式來獲取ntime列的年和月來作為分割槽，這個是靠我們查詢到資料來分割槽是不是很舒服
來我們看看他自動分割槽的格式

hive分割槽表詳細介紹

一，什麼是分割槽表以及作用資料分割槽的概念以及存在很久了，通常使用分割槽來水平分散壓力，將資料從物理上移到和使用最頻繁的使用者更近的地方，以及實現其目的。

大資料（二十）：hive分割槽表、修改表語句與資料的匯入匯出

一、分割槽表分割槽表實際上就是對應一個HDFS檔案系統上的一個獨立的資料夾，該資料夾下是該分割槽所有的資料檔案，hive中的分割槽就是分目錄，把一個大的資料集更具業務需求分割成小的資料集。在查詢時通過where子句中的

帶你瞭解什麼是Activiti工作流，Activiti工作流資料庫表詳細介紹（23張表）

帶你五分鐘瞭解工作流什麼是工作流說到工作流,一圖勝萬言。工作流 Georgakopoulos給出的工作流定義是：工作流是將一組任務組織起來以完成某個經營過程：定義了任務的觸發順序和觸發條件，每個任務可以由一個或多個軟體系統完成，也可以由一個或一組人完成，還可以由一個或多個

Hive 分割槽表初始化歷史分割槽操作

在新建一張分割槽表或者對老分割槽表更改表結構後希望能保留老的分割槽的資料，因此就需要對新建的分割槽表進行初始化重刷歷史分割槽資料操作。一、初始化重新整理方法1 事實表和維表均取最新分割槽資料，以事實表的業務動作事實發生日期作為歷史分割槽的分割槽欄位值。參考下面這段hive指令碼

Hive -分割槽表

1.建立一個分割槽表 hive (default)> create table order_partition(orderNumber string,event_time string)PARTITIONED BY(event_month string) row format de

Hive面試題:Hive分割槽表和分桶表的區別

分割槽在HDFS上的表現形式是一個目錄，分桶是一個單獨的檔案分割槽: 細化資料管理，直接讀對應目錄，縮小mapreduce程式要掃描的資料量分桶： 1、提高join查詢的效率（用分桶欄位做連線欄位）

大資料離線---Hive的表操作介紹

這次我們主要針對hive的操作表做簡單的介紹：託管表和外部表分割槽和桶這2個部分做簡介 Hive表格邏輯上有儲存的資料和描述表格中資料形式的相關元資料組成。資料一般儲存在HDFS上，也可以存放在本地檔案系統中。元資料存放在關係資料庫中。 1. 託管表

HIVE --- 分割槽表

建立分割槽表建立表時，新增partitioned by欄位，如下： create table table_name ( id int, dtDontQuery string, name stri

HIVE 分割槽表分桶表

//分割槽表,優化手段之一，從目錄的層面控制搜尋資料的範圍。 //建立分割槽表. $hive>CREATE TABLE t3(id int,name string,age int) PARTITIONED BY (Year INT, Month INT)

spark streaming 接收kafka資料寫入Hive分割槽表

直接上程式碼 object KafkaToHive{ def main(args: Array[String]){ val sparkConf = new SparkConf().setAppName("KafkaToHive") val sc = new SparkConte

如何每日增量載入資料到Hive分割槽表

載入資料資料載入到Hive分割槽表（兩個分割槽，日期（20181129 ）和小時（10））中每日載入前一天的日誌檔案資料到表db_track.track_log 1. 資料儲存資料日誌檔案，放入某個目錄下,每天日誌檔案放入同一個目錄 eg: 20181129 - 目錄名稱日誌

HIVE分割槽表新增欄位後新增欄位值為空,需要帶分割槽加欄位

在分割槽表裡增加欄位後，向分割槽表插入資料有兩種情況： 1.分割槽在修改表結構前存在 2.分割槽在修改表結構前不存在對於第二種情況，即加欄位後跑的分割槽，bug不存在針對第一種情形，執行alter table HIVE_TALBLE add columns(ttzz string); 查分割槽資料新增

hive分割槽表幾大注意事項

分割槽表： 1.問題的引入 1).bf_log /usr/hive/warehouse 20170910.log 20170922.log 我想分析某一天的資料,如果按照以上的就會掃描全表,從而增加了資料庫的壓力,引入了

【Hive】Hive分割槽表詳解

本篇主要演示分割槽表的建立、插入、動態分割槽等內容。一實驗環境1 Hive環境0: jdbc:hive2://localhost:10000/hive> select version() ver

hive分割槽表的建立+外部表

hive表的建立： 1.外部表+分割槽表 create externaltable hive_2018

spark 將dataframe資料寫入Hive分割槽表

從spark1.2 到spark1.3，spark SQL中的SchemaRDD變為了DataFrame，DataFrame相對於SchemaRDD有了較大改變，同時提供了更多好用且方便的API。 DataFrame將資料寫入hive中時，預設的是hive預設資料庫，in

Hive分割槽表建立、分類

一、分割槽表建立與說明必須在表定義時建立partition a、單分割槽建表語句：create table day_table (id int, content string) partitioned by (dt string);單分割槽表，按天分割槽，在表結構

hive 分割槽表簡單梳理

環境相關： OS：CentOS release 6.9 IP：192.168.77.10 hadoop-2.6.0-cdh5.7.1 hive-1.1.0-cdh

Hive分割槽表的分割槽操作

為了對錶進行合理的管理以及提高查詢效率，Hive可以將表組織成“分割槽”。一個分割槽實際上就是表下的一個目錄，一個表可以在多個維度上進行分割槽，分割槽之間的關係就是目錄樹的關係。1、建立分割槽表通過PARTITIONED BY子句指定，分割槽的順序決定了誰是父目錄，誰是子目錄

Hive分割槽表增刪改查

1 分割槽表分割槽表實際上就是對應一個HDFS檔案系統上的獨立的資料夾，該資料夾下是該分割槽所有的資料檔案。Hive中的分割槽就是分目錄，把一個大的資料集根據業務需要分割成小的資料集。在查詢時通過WHERE子句中的表示式選擇查詢所需要的指定的分割槽，這樣的查詢效率會提高很多。 1.1 分割

hive分割槽表詳細介紹

一，什麼是分割槽表以及作用

二、 靜態分割槽

三、動態分割槽:

相關推薦

二、靜態分割槽