重溫大資料---Hive進階

阿新 • • 發佈：2018-12-22

這一塊的內容自我感覺算不上進階。除了一些看似需要死記硬背但實際上我並不會去背的東西，真沒啥好寫的。只能全當做筆記了。另外值得提一嘴的就是那個UDF，其實只要有那麼一點點Java基礎看起來就很簡單。不要因為程式設計兩個字就選擇性忽略了。單學習來講UDF程式設計還是很基礎的，在實際專案中視不同的需求可能會麻煩一點。但再難畢竟是Java老本行。

Hive關於庫的操作

一堆CDAUS：

create database db_hive_01 ;
create database if not exists db_hive_02 ;      //推薦這種寫法很標準
create database if not exists db_hive_03 location '/user/beifeng/hive/warehouse/db_hive_03.db' ;

show databases ;
show databases like 'db_hive*' ;

use db_hive ;

desc database db_hive_03 ;
desc database extended db_hive_03 ;           // 檢視拓展資訊
（資料庫刪除的同時資料庫的目錄也沒有了）
drop database db_hive_03 ;                          //有表存在就刪不了
drop database db_hive_03 cascade;            //級聯刪除，有表也能刪
drop database if exists db_hive_03 ;

這些是在是沒什麼好說的照搬筆記。

Hive關於表的操作

建立表 ?
1. 基礎的表建立格式
  create table IF NOT EXISTS default.xl_log_20181117(
  ip string COMMENT ‘remote ip address’//註釋 ,
  user string ,
  req_url string COMMENT ‘user request url’)
  COMMENT ‘BeiFeng Web Access Logs’
  ROW FORMAT DELIMITED FIELDS TERMINATED BY ’ ’ // 行分割
  STORED AS TEXTFILE ; //資料格式（預設如此可以不寫）
2. //載入資料到表裡面
  load data local inpath ‘/opt/datas/xl-log.txt’ into table default.bf_log_20150913;
3. //用查詢的資料建立一個新表
  create table IF NOT EXISTS default.xl_log_20150913_sa
  AS select ip,req_url from default.xl_log_20150913 ;
4. // 拷貝表結構建立一個新的表，引出一個分表的概念
  create table IF NOT EXISTS default.xl_log_20150913_sa
  like default.xl_log_20150913 ;
刪除表?

//建表
員工表
create table IF NOT EXISTS default.emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
部門表
create table IF NOT EXISTS default.dept(
deptno int,
dname string,
loc string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
//載入本地資料到表中
load data local inpath '/opt/datas/emp.txt' overwrite into table emp ;
load data local inpath '/opt/datas/dept.txt' overwrite into table dept ;

create table if not exists default.dept_cats
as select * from dept ;

//清除表的資料
truncate table dept_cats ;  

// 拷貝表結構建表
create table if not exists default.dept_like
like
default.dept ; 
//修改表名
alter table dept_like rename to dept_like_rename ;
//刪除表
drop table if exists dept_like_rename ;

Hive表的型別

1.管理表（manged_table）

內部表也稱之為MANAGED_TABLE；
預設儲存在/user/hive/warehouse下，也可以通過location指定；
刪除表時，會刪除表資料以及元資料；

2.託管表（external）

外部表稱之為EXTERNAL_TABLE；
在建立表時可以自己指定目錄位置(LOCATION)；
刪除表時，只會刪除元資料不會刪除表資料；

使用外部表的場景:上述特點中可以看出在使用外部表的情況下刪除表的時候是不會刪除表中資料的。同時可以指定自己的目錄，通常必須指定。這樣可供多部門使用。

例子?：

create EXTERNAL table IF NOT EXISTS default.emp_ext2(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
location '/user/beifeng/hive/warehouse/emp_ext2';

分割槽表

分割槽表實際上就是對應一個HDFS檔案系統上的獨立的資料夾，該資料夾下是該分割槽所有的資料檔案。Hive中的分割槽就是分目錄，把一個大的資料集根據業務需要分割成更下的資料集。

使用場景：如對日誌進行分析，可以按照時間進行分割槽，提高分析效率。分析10G資料和分析1G資料你說誰快？

例子?：

create EXTERNAL table IF NOT EXISTS default.emp_partition(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)                  //二級分割槽.
partitioned by (month string,day string)     //不能與列名重複
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;

load data local inpath '/opt/datas/emp.txt' into table default.emp_partition partition (month='201509',day='13') ;
此時HDFS目錄結構為：
/user/hive/warehouse/emp_partition/month=201509/day=13

select * from emp_partition where month = '201509' and day = '13' ;

//統計幾天的資料可以使用union
select * from emp_partition where month = '201509' and day = '14' union
select * from emp_partition where month = '201509' and day = '15' union
select * from emp_partition where month = '201509' and day = '16' ;

例子?：

create table IF NOT EXISTS default.dept_part(
deptno int,
dname string,
loc string
)
partitioned by (day string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

載入資料到表下面但是此時你沒有指定哪個分割槽，如果你去select你會發現查不出來資料。對此有一下兩種解決方案。

第一種方式
1.dfs -mkdir -p /user/hive/warehouse/dept_part/day=20150913 ;
  dfs -put /opt/datas/dept.txt /user/hive/warehouse/dept_part/day=20150913 ;	
2.hive (default)> msck repair table dept_part ;//修復表

第二種方式
1. dfs -mkdir -p /user/hive/warehouse/dept_part/day=20150914 ;
   dfs -put /opt/datas/dept.txt /user/hive/warehouse/dept_part/day=20150914 ;
2. alter table dept_part add partition(day='20150914');//（常用）

//檢視一個表的分割槽數
show partitions dept_part ;

Hive的資料遷移

載入資料

原始檔案儲存的位置
- 本地 local
- 檔案系統hdfs
對錶的資料是否覆蓋
- 覆蓋 overwrite
- 追加
分割槽表載入，特殊性
```
  partition (partcol1=val1,...)
```

1）載入本地檔案到hive表

load data local inpath ‘/opt/datas/emp.txt’ into table default.emp ;
2）載入hdfs檔案到hive中

load data inpath ‘/user/beifeng/hive/datas/emp.txt’ into table default.emp ;

3）載入資料覆蓋表中已有的資料

load data inpath ‘/user/beifeng/hive/datas/emp.txt’ overwrite into table default.emp ;
4）建立表時通過insert載入

create table default.emp_ci like emp ;
insert into table default.emp_ci select * from default.emp ;

5）建立表的時候通過location指定載入

create EXTERNAL table IF NOT EXISTS default.emp_ext2(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
location '/user/beifeng/hive/warehouse/emp_ext2';

匯出資料

1. insert overwrite local directory '/opt/datas/hive_exp_emp'
   select * from default.emp ;

2. insert overwrite local directory '/opt/datas/hive_exp_emp2'
	ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY '\n'
    select * from default.emp ;

3. bin/hive -e "select * from default.emp ;" > /opt/datas/exp_res.txt


4. insert overwrite directory '/user/beifeng/hive/hive_exp_emp'

   select * from default.emp ;
   
5. sqoop後面介紹

##Hive查詢

詳見官網

SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[CLUSTER BY col_list
  | [DISTRIBUTE BY col_list] [SORT BY col_list]
]
[LIMIT number]

select * from emp ;
select t.empno, t.ename, t.deptno from emp t ;

select * from emp limit 5 ;
select t.empno, t.ename, t.deptno from emp t where  t.sal between 800 and 1500 ;

select t.empno, t.ename, t.deptno from emp t where comm is null ;

select count(*) cnt from emp ;
select max(sal) max_sal from emp ;
select sum(sal) from emp ;
select avg(sal) from emp ;

 group by分組 /having 條件
 
group by
* 每個部門的平均工資
select t.deptno, avg(t.sal) avg_sal from emp t group by t.deptno ;
* 每個部門中每個崗位的最高薪水
select t.deptno, t.job, max(t.sal) avg_sal from emp t group by t.deptno, job ;

having
	* where 是針對單條記錄進行篩選
	* having 是針對分組結果進行篩選
求每個部門的平均薪水大於2000的部門
select deptno, avg(sal) from emp group by deptno ;
select deptno, avg(sal) avg_sal from emp group by deptno having avg_sal > 2000;

join連線
	兩個表進行連線
	m  n
	m表中一條記錄和n表中的一條記錄組成一條記錄
等值jion
	join ... on
select e.empno, e.ename, d.deptno, d.dname from emp e join dept d on e.deptno = d.deptno ;

左連線
left join
select e.empno, e.ename, d.deptno, d.dname  from emp e left join dept d on e.deptno = d.deptno ;

右連線
right join
select e.empno, e.ename, e.deptno, d.dname  from emp e right join dept d on e.deptno = d.deptno ;


全連線（左+右）
full join
select e.empno, e.ename, e.deptno, d.dname  from emp e full join dept d on e.deptno = d.deptno ;

Hive 資料遷移新特性（類似與Get操作）

Export 
	匯出，將Hive表中的資料，匯出到外部
Import
	匯入，將外部資料匯入Hive表中

EXPORT TABLE default.emp TO  '/user/beifeng/hive/export/emp_exp'（自動建立） ;

export_target_path：	//指的是HDFS上路徑
//建立時使用import匯入資料
create table db_hive.emp like default.emp ;
import table db_hive.emp from '/user/beifeng/hive/export/emp_exp';

Hive 資料排序

order by
	對全域性資料的一個排序，僅僅只有個reduce
	select * from emp order by empno desc ;

sort by
	對每一個reduce內部資料進行排序的，全域性結果集來說不是排序

	set mapreduce.job.reduces= 3;
	select * from emp sort by empno asc ;
	insert overwrite local directory '/opt/datas/sortby-res' select * from emp sort by empno asc ;

 distribute by
	分割槽partition
	類似於MapReduce中分割槽partition,對資料進行分割槽，結合sort by進行使用
	insert overwrite local directory '/opt/datas/distby-res' select * from emp distribute by deptno sort by empno asc ;

    注意事項：
	distribute by 必須要在sort by前面。

 cluster by
	當distribute by和sort by 欄位相同時，可以使用cluster by ;
	insert overwrite local directory '/opt/datas/cluster-res' select * from emp cluster by empno ;

Hive UDF程式設計

UDF全稱User Definition Function，使用者自定義函式。使用極其簡單。

程式設計步驟：

匯入依賴

 <dependencies>
 	<!-- Hadoop Client -->
 	<dependency>
 		<groupId>org.apache.hadoop</groupId>
 		<artifactId>hadoop-client</artifactId>
 		<version>${hadoop.version}</version>
 	</dependency>

 	<!-- Hive Client -->
 	<dependency>
 		<groupId>org.apache.hive</groupId>
 		<artifactId>hive-jdbc</artifactId>
 		<version>${hive.version}</version>
 	</dependency>
 	<dependency>
 		<groupId>org.apache.hive</groupId>
 		<artifactId>hive-exec</artifactId>
 		<version>${hive.version}</version>
 	</dependency>

 	<!-- Junit 4.x -->
 	<dependency>
 		<groupId>junit</groupId>
 		<artifactId>junit</artifactId>
 		<version>4.10</version>
 		<scope>test</scope>
 	</dependency>
 </dependencies>

繼承org.apache.hadoop.hive.ql.UDF
需要實現evaluate函式；evaluate函式支援過載；
public class LowerUDF extends UDF {
```
 public Text evaluate(Text str){
 	// validate 
 	if(null == str.toString()){
 		return null ;
 	}
 	// lower
 	return new Text (str.toString().toLowerCase())  ;
 }	
 public static void main(String[] args) {
 	System.out.println(new LowerUDF().evaluate(new Text("HIVE")));
 }
 }
```
如何執行
1. 方法一：
  add jar /opt/datas/hiveudf.jar ;//在hive執行下新增jar檔案
  create temporary function my_lower as “com.beifeng.senior.hive.udf.LowerUDF” ;//註冊臨時函式，指定用哪個類做處理
  select ename, my_lower(ename) lowername from emp limit 5 ;//呼叫函式
2. 方法二：
  CREATE FUNCTION self_lower AS ‘com.beifeng.senior.hive.udf.LowerUDF’ USING JAR ‘hdfs://hadoop-senior.ibeifeng.com:8020/user/beifeng/hive/jars/hiveudf.jar’; //把本地jar傳上去，改檔案路徑需要提前建立
  select ename, self_lower(ename) lowername from emp limit 5 ;

總結

卒！

重溫大資料---Hive進階

這一塊的內容自我感覺算不上進階。除了一些看似需要死記硬背但實際上我並不會去背的東西，真沒啥好寫的。只能全當做筆記了。另外值得提一嘴的就是那個UDF，其實只要有那麼一點點Java基礎看起來就很簡單。不要因為程式設計兩個字就選擇性忽略了。單學習來講UDF程式設計還

重溫大資料---Hive介紹與填坑配置

沿著前面的內容，接下來的文章就是關於Hive從基礎的搭建到高階應用的知識。鄙人在大二初學Hive的時候，只是覺得Hive和Mysql差不多，但是對於Hive為什麼叫做資料倉庫，以及Hive的UDF程式設計我並沒有太多思考。所以啊，為了混口飯吃遲早還是要還的。所幸目前算是明白了資料

重溫大資料---Hive初窺

沿著前面的內容，接下來的文章就是關於Hive的知識，從基礎的搭建到高階應用。大二初學Hive的時候，就覺得和Mysql差不多，但是對於Hive為什麼叫做資料倉庫，以及Hive的UDF程式設計我並沒有太多思考。直到目前算是明白了資料倉庫的含義。對Hive的使用有

大資料開發進階之HBase開發例項介紹

這周學習了HBase的開發例項，主要有一些HBase API的使用。（文中的程式碼，是經過實際執行有效的，只擷取片段，關於全部的可參考前一篇文章中全域性變數的設定,關於執行環境也與前一篇一樣）一、HBase基本操作 1.追加插入-Append 在原有的value中追加值，

重溫大資料---Hbase架構進階

這一講主要是對Hbase JavaApi使用的介紹，程式設計還是挺簡單的，重點在於理解程式設計實現的過程。其次深入講解了Hbase的架構。以及Hbase如何實現資料的遷移。 Hbase Java API Hbase提供了java開發的介面，可以使用java語

php技能樹---大神的進階之路

進行 think 文本編輯器性能優化 mysq bootstrap 同步機制小型連接 PHP7 迎來巨大的性能提升，又一次回到關註的焦點。根據這些年在開發圈子總結的LNMP程序猿發展軌跡，結合個人經驗體會，總結出很多程序員對未來的迷漫，特別對技術學習的盲目和慌亂，簡單

大資料Hive系列之Hive MapReduce

1. JOIN 1.1 join操作 INSERT OVERWRITE TABLE pv_users SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid);

大資料Hive系列之Hive常用SQL

1. hive匯出資料到hdfs 語法：export table 表名 to '輸出路徑'; 例子：export table cloud.customer to '/tmp/hive/customer'; 2. beeline連線 $ beeline 語法：beeline> !

大資料Hive系列之Hive使用者許可權管理

1. 角色 * 建立角色 create role role_name; * 顯示角色 show roles; * 刪除角色 drop role role_name; 2. 使用者 * 使用者進入admin角色許可權 set hive.users.in.admin.role;

大資料Hive系列之Hive API

Maven依賴配置 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://ma

4302 Interval GCD 0x40「資料結構進階」例題（線段樹，差分）

題意： 4302 Interval GCD 0x40「資料結構進階」例題描述給定一個長度為N的數列A，以及M條指令 (N≤5*10^5, M<=10^5)，每條指令可能是以下兩種之一： “C l r d”，表示把 A[l],A[l+1],…,A[r] 都加上 d。 “Q l

4301 Can you answer on these queries III 0x40「資料結構進階」例題（線段樹）

4301 Can you answer on these queries III 0x40「資料結構進階」例題描述給定長度為N的數列A，以及M條指令 (N≤500000, M≤100000)，每條指令可能是以下兩種之一： “2 x y”，把 A[x] 改成 y。 “1 x

python資料結構進階

文章目錄 namedtuple deque雙端佇列建立雙向佇列 append(往右邊新增一個元素) appendleft（往左邊新增一個元素） pickle 儲存佇列 dump(object, fi

大資料hive之啟動報錯：system:java.io.tmpdir

解決方法：在hive下建立個tmpdir目錄在hive-site.xml中新增以下內容 <property> <name>system:java.io.tmpdir</name> <value&

大資料----hive

1.Hive 是基於 Hadoop 的一個數據倉庫工具，可以將結構化的資料檔案對映為一張資料庫表，並提供類 SQL 查詢功能。本質是將 SQL 轉換為 MapReduce 程式。主要用途：用來做離線資料分析，比直接用 MapReduce 開發效率更高 2.離線專案在使用h

大資料hive之hive連線mysql並啟動，出現SSL警告，如何解決？

文章目錄 1. 問題 2. 如何解決？ 2.1 設定useSSL=false 2.2 設定useSSL = true 1. 問題 Hive能正常執行任務，但出現“WARN: E

資料結構進階——二叉樹，紅黑樹

基本定義：一個根節點下分兩個子節點的樹結構稱為二叉樹。A為根節點，B、C分別為左孩子和右孩子，E這種無孩子的結點成為葉子結點，A，B，D，G共4層。二叉樹存在的三種排序方式圖中也說明的很清晰了。先序：根->左->右；中序：左->根->右；後

資料結構進階一稀疏矩陣

稀疏矩陣一、稀疏矩陣的定義對於那些零元素數目遠遠多於非零元素數目，並且非零元素的分佈沒有規律的矩陣稱為稀疏矩陣（sparse）。人們無法給出稀疏矩陣的確切定義，一般都只是憑個人的直覺來理解這個概念，即矩

大資料Hive系列之Hive效能優化

一、介紹首先，我們來看看Hadoop的計算框架特性，在此特性下會衍生哪些問題？資料量大不是問題，資料傾斜是個問題。 jobs數比較多的作業執行效率相對比較低，比如即使有幾百行的表，如果多次關聯多次彙總，產生十幾個jobs，耗時很長。原因是map reduce作業初

Hive進階（二）

上次課複習： 1. hive的view非常簡單，只是元資料層面，所以hdfs下根本找不到的。 view主要用於複雜邏輯的隱藏 2. 側檢視行轉列專置 3. select 用於查詢後面可以跟where limit等條件多用Common Table Expr

重溫大資料---Hive進階

Hive關於庫的操作

Hive關於表的操作

Hive表的型別

分割槽表

Hive的資料遷移

Hive UDF程式設計

總結

相關推薦