Hive的基本原理與應用

阿新 • • 發佈：2019-02-09

Hive的基本原理與使用

本文轉自：http://tiechou.info/?p=33

簡介

Hive是基於Hadoop構建的一套資料倉庫分析系統，它提供了豐富的SQL查詢方式來分析儲存在Hadoop 分散式檔案系統中的資料。Hive可以將結構化的資料儲存在資料倉庫中，通過自己的SQL去查詢分析需要的內容，這套SQL簡稱Hive SQL。它與關係型資料庫的SQL略有不同，但支援了絕大多數的語句如DDL、DML 以及常見的聚合函式、連線查詢、條件查詢。

Hive在Hadoop的架構體系中承擔了一個SQL解析的過程，它提供了對外的入口來獲取使用者的指令然後對指令進行分析，解析出一個MapReduce程式組成可執行計劃，並按照該計劃生成對應的MapReduce任務提交給Hadoop叢集處理，獲取最終的結果。
安裝

Hive需要Hadoop的支援，也就是說在安裝Hive之前需要正確安裝Hadoop。一般我們會將Hive安裝到NameNode所在主機上，這裡假設使用root使用者進行安裝，Hive的安裝過程很簡單,網上有很多安裝方式：

`1`	`[[email protected]]` `# 去到hadoop的目錄，使用hadoop的專案根目錄`

`2`	`[[email protected]]` `cd` `/opt/hadoop`

`3`	`[[email protected]]` `# 下載專案包（去官網（http://hadoop.apache.org/）下載Hadoop專案）`

`4`	`[[email protected] ] wget http://www.apache.org/dist/hadoop/hive/hive-0.5.0/hive-0.5.0-dev.tar.gz`

`5`	`[[email protected]]` `# 解壓`

`6`	`[[email protected]]` `tar` `xzvf hive-0.5.0-dev.tar.gz`

`7`	`[[email protected]]` `# 進入目錄`

`8`	`[[email protected]]` `cd` `hive-0.5.0-dev`

`9`	`[[email protected]]` `# 與Hadoop的安裝一樣，我們應該習慣性的將安裝目錄寫入環境變數`

`10`	`[[email protected]]` `export` HIVE_HOME=``pwd``

`11`	`[[email protected]]` `# 也可以將環境變數設定到/etc/profile中`

配置

Hive的必要配置相當簡單，只需要宣告$HADOOP_HOME（請查閱《Hadoop安裝》文件）這個環境變數就行了。

Hive的核心配置檔案$HIVE_HOME/conf/hive-default.xml中有一些對Hive關鍵配置，一般我們不需要對期進行改動，如果你需要更改這個關鍵配置，請不要直接更改hive-default.xml這個檔案，在同一目錄下新建hive-site.xml檔案，然後將需要更改的屬性配置在這裡面即可，配置格式與hive-default.xml一樣。

在Hive官方文件中重點提到了Hive的日誌配置$HIVE_HOME/conf/hive-log4j.properties，雖然不是必要更改的配置檔案，但合理的設定會對我們有一定的幫助，具體配置方法可見官方文件。

使用

Hive提供了一個CLI（Command Line Interface）客戶端，我們可以通過CLI進行直觀的DDL、DML及SQL操作。以下是CLI使用示例：

`1`	`# 這裡建立了一個foo表,欄位以\001分隔,location指定對映檔案位置`

`2`	`create external table foo`

3 (

`4`	`uid bigint,`

`5`	`brand_value string`

6 )

`7`	`row` `format` `delimited fields terminated by` `'\001'`

`8`	`stored as textfile`

`9`	`location` `"/group/tbsc-dev/haowen/temp/shpsrch_bshop_brand_value_ssmerge_1011/";`

10

`11`	`# 插入資料到 foo表注意這些語句不要用tab縮排`

`12`	`INSERT OVERWRITE TABLE foo`

`13`	`select` `uid,value_data`

14 from

15 (

`16`	`select` `t1.uid,t2.value_data`

17 from

`18`	`shpsrch_bshop_brand_unfold_ssmerge_1011 t1`

`19`	`join` `sel_shpsrch__base_values t2`

`20`	`on t1.brand_id = t2.value_id and t2.ds=20101019`

21 ) a;

也可以在終端介面這樣使用

`1`	`echo` `"select * from foo where uid=153702175;"` `\| hive -u root -p root`

資料join

之前在資料join的時候遇到過這樣一個問題,就是當一個uid 對應多個品牌brand_id 的時候,即：
uid – brand_id1 = brand_id1 – brand_value1
uid – brand_id2 = :
uid – brand_id3 = :
這樣join之後的資料會出現：
uid – brand_value1
uid – brand_value1
這個樣子相同的多條記錄,出現數據重複的現象
如果資料量小的話,最簡單的除錯辦法是這樣：把所有的資料放在一個namenode上面跑

`1`	`hive -u root -p root <<EOF`

2

`3`	`# 指定reduced的任務數量`

`4`	`set` `mapred.reduce.tasks=1;`

`5`	`add` `file` `/data/tiechou/ssmerge/mod/mod_bshop_brand/script/brand_packed.pl;`

6 explain

`7`	`INSERT OVERWRITE TABLE foo`

`8`	`select` `transform(uid, value_data)`

`9`	`using` `'brand_packed.pl'`

`10`	`as uid,brand_value`

11 from

12 (

`13`	`select` `t1.uid,t2.value_data`

14 from

`15`	`shpsrch_bshop_brand_unfold_ssmerge_1011 t1`

`16`	`join` `sel_shpsrch__base_values t2`

`17`	`on t1.brand_id = t2.value_id and t2.ds=1 distribute by t1.uid`

18 ) a;

`19`	`set` `mapred.reduce.tasks=256;`

20 EOF

上面顯然不是最好的辦法,不過已經說明問題了,是相同uid被分到多個namenode上join引起的,其實hive是支援clusterBy? | distributeBy? sortBy? 的, clusterBy是 distributeBy? sortBy?的綜合

`1`	`hive -u root -p root <<EOF`

2

`3`	`add` `file` `/data/tiechou/ssmerge/mod/mod_bshop_brand/script/brand_packed.pl;`

`4`	`INSERT OVERWRITE TABLE foo`

`5`	`select` `transform(t3.uid,t3.value_data)`

`6`	`using` `'brand_packed.pl'`

`7`	`as uid,brand_value`

8 from(

`9`	`from shpsrch_bshop_brand_unfold_ssmerge_1011 t1join` `sel_shpsrch__base_values t2 on (t1.brand_id = t2.value_id and t2.ds=20101019)select` `t1.uid,t2.value_data distribute by t1.uid) t3;`

最後我們普及一下sql join,在網上找了一個很形象的說明:http://coolshell.cn/articles/3463.html

SQL的Join語法有很多inner的，有outer的，有left的，有時候，對於Select出來的結果集是什麼樣子有點不是很清楚。Coding Horror上有一篇文章（實在不清楚為什麼Coding Horror也被牆）通過文氏圖 Venn diagrams 解釋了SQL的Join。

假設我們有兩張表。

Table A 是左邊的表。

Table B 是右邊的表。

其各有四條記錄，其中有兩條記錄是相同的，如下所示：

id name id name

– —- — —-
1 Pirate 1 Rutabaga
2 Monkey 2 Pirate
3 Ninja 3 Darth Vader
4 Spaghetti 4 Ninja

下面讓我們來看看不同的Join會產生什麼樣的結果。

`1`	`SELECT * FROM TableA`

`2`	`INNER JOIN TableB`

`3`	`ON TableA.name = TableB.name`

Inner join

id name id name
– —- — —-
1 Pirate 2 Pirate
3 Ninja 4 Ninja
結果集: 是A和B的交集。

Full outer join

`1`	`SELECT * FROM TableA`

`2`	`FULL OUTER JOIN TableB`

`3`	`ON TableA.name = TableB.name`

id name id name
– —- — —-
1 Pirate 2 Pirate
2 Monkey null null
3 Ninja 4 Ninja
4 Spaghetti null null
null null 1 Rutabaga
null null 3 Darth Vader

結果集: 產生A和B的並集。但是需要注意的是，對於沒有匹配的記錄，則會以null做為值。

Left outer join

`1`	`SELECT * FROM TableA`

`2`	`LEFT OUTER JOIN TableB`

`3`	`ON TableA.name = TableB.name`

id name id name
– —- — —-
1 Pirate 2 Pirate
2 Monkey null null
3 Ninja 4 Ninja
4 Spaghetti null null

Left outer join 產生表A的完全集，而B表中匹配的則有值，沒有匹配的則以null值取代。

`1`	`SELECT * FROM TableA`

`2`	`LEFT OUTER JOIN TableB`

`3`	`ON TableA.name = TableB.name`

`4`	`WHERE TableB.id` `IS null`

hive 中實現方式

`1`	`select` `a_id from (`

`2`	`select` `a.id` `as a_id,b.del_id as b_id`

`3`	`from shop a left outer` `join` `del b`

`4`	`on a.id` `= b.del_id )c`

`5`	`where b_id is null;`

id name id name
– —- — —-
2 Monkey null null
4 Spaghetti null null

結果集: 產生在A表中有而在B表中沒有的集合。

`1`	`SELECT * FROM TableA`

`2`	`FULL OUTER JOIN TableB`

`3`	`ON TableA.name = TableB.name`

`4`	`WHERE TableA.id` `IS null`

`5`	`OR TableB.id` `IS null`

id name id name
– —- — —-
2 Monkey null null
4 Spaghetti null null
null null 1 Rutabaga
null null 3 Darth Vader

結果集: 產生A表和B表都沒有出現的資料集。

還需要註冊的是我們還有一個是“交差集” cross join, 這種Join沒有辦法用文式圖表示，因為其就是把表A和表B的資料進行一個N*M的組合，即笛卡爾積。表示式如下：

`1`	`SELECT * FROM TableA`

`2`	`CROSS JOIN TableB`

這個笛卡爾乘積會產生 4 x 4 = 16 條記錄，一般來說，我們很少用到這個語法。但是我們得小心，如果不是使用巢狀的select語句，一般系統都會產生笛卡爾乘積然再做過濾。這是對於效能來說是非常危險的，尤其是表很大的時候。

Hive的基本原理與應用

Hive的基本原理與應用

hive基本操作與應用

Zookeeper基本原理與應用場景

基礎演算法（二）：Kmeans聚類演算法的基本原理與應用

【網絡爬蟲入門02】HTTP客戶端庫Requests的基本原理與基礎應用

hive的基本操作與應用

防盜鏈的基本原理與實現

【CC2530入門教程-05】CC2530的串行接口原理與應用

交換機的基本原理與配置

路由器的基本原理與配置命令（靜態路由和默認路由）

SqlServer索引的原理與應用

分布式開源調度框架TBSchedule原理與應用

DMZ原理與應用

數據庫原理與應用基於SQL Server 2005pdf

docker第一天：docker的基本原理與安裝

雲計算--網絡原理與應用--20171115

跨站請求偽造攻擊的基本原理與防範

Base64編碼原理與應用

spring-AOP原理與應用

Nginx基本配置與應用

Hive的基本原理與應用

相關推薦