Hive DML ，分割槽表

阿新 • • 發佈：2018-11-16

1.Hive構建在Hadoop之上的資料倉庫
sql ==> Hive ==> MapReduce
但是有些簡單基本的hive不呼叫mapreduce，就是不帶分組的

2.分組函式：出現在select中的欄位，要麼出現在group by子句中，要麼出現在聚合函式中。

3.count(1) and count(欄位)
兩者的主要區別是
（1） count(1) 會統計表中的所有的記錄數，包含欄位為null 的記錄。
（2） count(欄位) 會統計該欄位在表中出現的次數，忽略欄位為null 的情況。即不統計欄位為null 的記錄。

4.(case when then else end ) 類似if-else，返回一列then
的結果.
union all 堆疊

5.看hive裡有哪些函式

hive (default)> show functions;

desc function extended xxx 檢視函式功能

轉換某個欄位的型別，如果轉換失敗，返回值就是null

cast(value as TYPE)

擷取一段字串，開始位置，擷取長度

substr(str,pos,len)

返回以.分割的連線

concat_ws('.','www','asd') 返回www.asd

返回長度,字串數字都可以

length()

把陣列分隔為多行

explode（）

拆分，以a，d兩種分割符

split('asd.sdf','[a,d]')

用.分割的話要

hive (default)> select split('asd.asd','\\.');
OK
["asd","asd" ]

6.用hive函式完成一個wordcount

資料
asd，dsa，asd
asd，das

create table ruoze_wc(
sentence string
);

select word, count(1) as c
from
(
select explode(split(sentence,",")) as word from ruoze_wc
) t group by word
order by c desc;

split之後成了
[‘asd’,‘dsa’,‘asd’]
[‘asd’,‘das’]

explode後變成5行1列的形式

7.建立和陣列相關的表

1,doudou,化學:物理:數學:語文
2,dasheng,化學:數學:生物:生理:衛生
3,rachel,化學:語文:英語:體育:生物

create table ruoze_student(
id int,
name string,
subjects array<string>  數組裡裝string
)row format delimited fields terminated by ','
COLLECTION ITEMS TERMINATED BY ':';   陣列集合用：分割



load data local inpath '/home/hadoop/data/student.txt' into table ruoze_student;

hive (default)> select * from ruoze_student;
OK
1	doudou	["化學","物理","數學","語文"]
2	dasheng	["化學","數學","生物","生理","衛生"]
3	rachel	["化學","語文","英語","體育","生物"]

8.分割槽表

分割槽表：一個表按照某些欄位進行分割槽
解決問題：全盤掃描慢，分割槽定位掃描快

create table order_partition(
orderNumber string,
event_time string
)PARTITIONED BY(event_month string)   按照event_month分割槽
row format delimited fields terminated by '\t';

指定分割槽載入，資料表會多個分割槽列

load data local inpath '/home/hadoop/data/order.txt' into table order_partition PARTITION (event_month='2014-05');

如果報錯，key太長，需要修改字符集，在mysql裡改

use ruoze_d5;
alter table PARTITIONS convert to character set latin1;
alter table PARTITION_KEYS convert to character set latin1;

手動hdfs dfs 建立partitions分割槽，會找不到元資料，需要
MSCK REPAIR 分割槽表，這要刷所有分割槽，效能低，不用。

增加分割槽的辦法：

alter table order_partition add partition(event_month='2014-07');

檢視一個表的分割槽：

show partitions order_partition;

檢視如何建立的表

show create table xxx；

9.多級分割槽表

create table order_mulit_partition(
orderNumber string,
event_time string
)PARTITIONED BY(event_month string, step string)
row format delimited fields terminated by '\t';

load data local inpath '/home/hadoop/data/order.txt' into table order_mulit_partition PARTITION (event_month='2014-05',step='1');

10.動態分割槽

需求，按照deptno欄位寫進分割槽表裡

CREATE TABLE `ruoze_emp_partition`(
  `empno` int, 
  `ename` string, 
  `job` string, 
  `mgr` int, 
  `hiredate` string, 
  `sal` double, 
  `comm` double)
partitioned by(`deptno` int)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t';

靜態匯入

insert into table ruoze_emp_partition PARTITION(deptno=10)
select empno,ename,job,mgr,hiredate,sal,comm from ruoze_emp where deptno=10;

假如有1000個deptno，豈不是要寫1000個匯入

動態匯入

分割槽欄位deptno要寫在最後，1句解決。

insert overwrite table ruoze_emp_partition PARTITION(deptno)
select empno,ename,job,mgr,hiredate,sal,comm,deptno from ruoze_emp;

啟動動態分割槽功能

hive> set hive.exec.dynamic.partition=true;

Hive DML ，分割槽表

1.Hive構建在Hadoop之上的資料倉庫 sql ==> Hive ==> MapReduce 但是有些簡單基本的hive不呼叫mapreduce，就是不帶分組的 2.分組函式：出現在select中的欄位，要麼出現在group by子句中，要麼出現在聚合函式中。 3.

Hive學習筆記 --- Hive中建立分割槽表，並且查詢資料

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

Hive資料載入（內部表，外部表，分割槽表）

內表資料載入建立表時載入 create table newtable as select col1,col2 from oldtable hive> create table te

Hive中的分割槽表

目錄總結：分割槽結構圖和原理：上手案例實操：總結：總結： ①建立分割槽表的時候，指定非表字段的分割槽欄位，使用partitioned by ；②向分割槽表中插入資料的時候，在表名的後面要加上partition（分割槽欄位名=分割槽欄位值）

Hive中關於分割槽表的概念理解以及相關操作解釋

網上有篇關於hive的partition的使用講解的比較好，轉載了：一、背景 1、在Hive Select查詢中一般會掃描整個表內容，會消耗很多時間做沒必要的工作。有時候只需要掃描表中關心的一部分資料，因此建表時引入了partition概念。 2、分割槽表指的是在建立表時指

oracle資料庫表空間，使用者許可權，分割槽表建立基礎知識（一

--sys管理員使用者登入 conn sys/222818 as sysdba alter user Libaobao account lock;--解鎖新建使用者 alter user Libaobao account unlock; --鎖定新建使用者 --刪除該新建使用者 drop user

在hive中建立分割槽表,再關聯到hdfs有關位置,而不需匯入資料到hive表

【需求】有時候我們不想匯入資料到hive中，而是通過在hive中建立關聯表的方式查詢hdfs上的資料，之後就能通過hive客戶端或者spark應用程式獲取hive的資料了。【原理】由於在hdfs中已存入了我們提前整理好的結構化資料(例如每條記錄都是以逗號分隔)，那麼在hive

Hive中靜態分割槽表 & 動態分割槽表

概念的引入在Web系的統日誌表中，當我們的操作很多時，通常所會採取的辦法是：每一次操作都要記錄一條日誌，而這些日誌很多都是按日/月進行分割槽的；如果不這樣做，到時候查起表來回非常非常大。假設有以下分割槽： CLICK_LOG_20180801 CLI

Hive建立外部分割槽表

drop table if exists employee; create external table employee ( name string, salar

Hive 建立外部分割槽表並載入資料以及如何分桶

第一建立資料庫並自定義路徑如 /sogou/500w hive> create database sogou location '/sogou/500w' ; 進入改表中建立表 hive> use

SparkSQL寫資料到Hive的動態分割槽表

object HiveTableHelper extends Logging { def hiveTableInit(sc: SparkContext): HiveContext = {

主引導扇區（MBR），分割槽表（DPT）及活動分割槽(DBR)

主引導扇區：硬碟的0柱面、0磁頭、1扇區（也叫主引導記錄MBR），大小為512Byte。分割槽表（DPT）：位於主引導分割槽，從偏移01BEH開始到偏移01FDH結束的64位元組。活動分割槽DBR：DBR（DOS BOOT RECORD，原意為DOS引導記錄），位於柱面0

Hive基本操作，DDL操作(建立表，修改表，顯示命令)，DML操作(Load Insert Select),Hive Join,Hive Shell引數(內建運算子、內建函式)等

1. Hive基本操作 1.1 DDL操作1.1.1 建立表建表語法 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

Hive（二）--分割槽分桶，內部表外部表

1.簡述 Hive是hadoop生態圈中實現資料倉庫的一項技術。雖然hadoop和hdfs的設計侷限了Hive所能勝任的工作，但是hive仍然是目前網際網路中最適合資料蒼鷺的應用技術。不論從“品相還是舉止”，hive都像一個關係型資料庫。使用者對資料庫、表和列這類術語比較熟悉的話，那麼掌握h

Hive/Shell 建立Hive 庫，表指令碼，Hive 動態增加分割槽指令碼

最近工作中使用到了Hive, 並對Hive 的資料庫，表完成建立。建立的表為分割槽表，也涉及到了分割槽表的按天動態增加分割槽。程式碼組織結構：建立資料庫：create_dmp.hql-- dmp 資料庫儲存了dmp所需要的資料 CREATE DATABASE IF NO

hive通過jdbc建立表，分割槽，桶

首先我們需要開啟hiveserver服務：hive --service hiveserver 然後我們和操作普通資料庫一樣，先載入驅動，然後建立連線，接著建立一個statement，然後執行查詢，然會結果集。程式碼如下（一定要寫對sql語句，要仔細，下面的需要注意的地方我已

hive中簡單介紹分割槽表(partition table)，含動態分割槽(dynamic partition)與靜態分割槽(static partition)

hive> insert overwrite table partition_test partition(stat_date='20110527',province='liaoning') select member_id,name from partition_test_input; WARNING

hive中管理表（內部表）和外部表的區別是什麼，及分割槽表使用場景

⑴區別： ①Hive建立內部表時（預設建立內部表），會將資料移動到資料倉庫指向的路徑；建立外部表（需要加關鍵字external），僅記錄資料所在的路徑，不對資料的位置做任何改變； ⑵Hive刪除表時，內部表的元資料和資料會被一起刪除，而外部表只刪除元資料，不刪除資料；

匯入作業資料集total.csv到Hive中，用日期做為分割槽表的分割槽ID

hive> select * from t_reverse_repurchase where tradedate=='20130723' and securityid='204001' limit 10;OK145651 204001 2.65 104300 2.66 100

修改hive分割槽表，在分割槽列前增加一個欄位

本文主要為了測試，在有資料的分割槽表中增加新的一個非分割槽欄位後，新資料加入表中是否正常。原始資料 1;zhangsan 2;zhangsan 3;zhangsan 4;lisi 5;lisi 6;lisi 建立分割槽表 create table test(id int) partitioned by (

Hive DML ，分割槽表

8.分割槽表

10.動態分割槽

相關推薦