Hive的基本介紹以及常用函式

阿新 • • 發佈：2020-06-05

一、Hive的簡介:

　　Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映為一張表，並提供類SQL查詢功能。

優點：

1) 操作介面採用類SQL語法，提供快速開發的能力（簡單、容易上手）。

2) 避免了去寫MapReduce，減少開發人員的學習成本。

3) Hive的執行延遲比較高，因此Hive常用於資料分析，對實時性要求不高的場合。

4) Hive優勢在於處理大資料，對於處理小資料沒有優勢，因為Hive的執行延遲比較高。

5) Hive支援使用者自定義函式，使用者可以根據自己的需求來實現自己的函式。

缺點：

1）Hive的HQL表達能力有限
2）Hive的效率比較低

二、Hive的架構圖

三、Hive的資料型別

基本資料型別：
　　Hive資料型別    Java資料型別 
　　TINYINT    　　 byte    
　　SMALINT    　　 short    
　　INT            int    
　　BIGINT    　　　long    
　　BOOLEAN    　　 boolean  
　　FLOAT    　　　 float    
　　DOUBLE    　　  double    
　　STRING         string   
　　TIMESTAMP      時間型別    
　　BINARY         位元組陣列    
集合
　　STRUCT  和c語言中的struct類似，都可以通過“點”符號訪問元素內容。例如，如果某個列的資料型別是STRUCT{first STRING, last STRING},那麼第1個元素可以通過欄位.first來引用。    
　　　　　　struct()  例如struct<street:string, city:string>
　　MAP     MAP是一組鍵-值對元組集合，使用陣列表示法可以訪問資料。例如，如果某個列的資料型別是MAP，其中鍵->值對是’first’->’John’和’last’->’Doe’，那麼可以通過欄位名[‘last’]獲取最後一個元素    
　　　　　　map()  例如map<string, int>
　　ARRAY   陣列是一組具有相同型別和名稱的變數的集合。這些變數稱為陣列的元素，每個陣列元素都有一個編號，編號從零開始。例如，陣列值為[‘John’, ‘Doe’]，那麼第2個元素可以通過陣列名[1]進行引用。    
　　　　　　Array()  例如array<string>

四、管理表和外部表

　　預設建立的表為管理表，有時也被稱為內部表。當我們刪除一個管理表時，Hive也會刪除這個表中資料。管理表不適合和其他工具共享資料。　　

　　新增關鍵字external建立的表是外部表，所以Hive並非認為其完全擁有這份資料。刪除該表並不會刪除掉這份資料，不過描述表的元資料資訊會被刪除掉。

#查詢表的型別
desc formatted stu;
#修改內部表stu為外部表
alter table stuset tblproperties('EXTERNAL'='TRUE');
#修改外部表stu為內部表
alter table stuset tblproperties('EXTERNAL'='FALSE');
注意：('EXTERNAL'='TRUE')和('EXTERNAL'='FALSE')為固定寫法，區分大小寫！

清空表資料：

　管理表：truncate table stu;

　外部表：alter table stuset tblproperties('EXTERNAL'='FALSE'); 先改成內部表再執行清空：truncate table stu;

　　場景：每天將收集到的網站日誌定期流入HDFS文字檔案。在外部表（原始日誌表）的基礎上做大量的統計分析，用到的中間表、結果表使用內部表儲存，資料通過SELECT+INSERT進入內部表。

五、查詢常用函式

1，空欄位賦值

　　NVL( value，default_value)

2，when

　　case 欄位 when 值 then 替換值 else 替換值 end 同 if(boolean,值,另外值)

3，行轉列

CONCAT(string A/col, string B/col…)：返回輸入字串連線後的結果，支援任意個輸入字串; 
CONCAT_WS(separator, str1, str2,...)：它是一個特殊形式的 CONCAT()。第一個引數剩餘引數間的分隔符。分隔符可以是與剩餘引數一樣的字串。如果分隔符是 NULL，返回值也將為 NULL。這個函式會跳過分隔符引數後的任何 NULL 和空字串。分隔符將被加到被連線的字串之間;
COLLECT_SET(col)：函式只接受基本資料型別，它的主要作用是將某欄位的值進行去重彙總，產生array型別欄位。

4，列轉行

EXPLODE(col)：將hive一列中複雜的array或者map結構拆分成多行。
LATERAL VIEW
用法：LATERAL VIEW udtf(expression) tableAlias AS columnAlias
解釋：用於和split, explode等UDTF一起使用，它能夠將一列資料拆成多行資料，在此基礎上可以對拆分後的資料進行聚合。

5，視窗函式

OVER()：指定分析函式工作的資料視窗大小，這個資料視窗大小可能會隨著行的變而變化。
CURRENT ROW：當前行
n PRECEDING：往前n行資料
n FOLLOWING：往後n行資料
UNBOUNDED：起點，UNBOUNDED PRECEDING 表示從前面的起點， UNBOUNDED FOLLOWING表示到後面的終點
LAG(col,n,default_val)：往前第n行資料
LEAD(col,n, default_val)：往後第n行資料
NTILE(n)：把有序分割槽中的行分發到指定資料的組中，各個組有編號，編號從1開始，對於每一行，NTILE返回此行所屬的組的編號。注意：n必須為int型別。

6，Rank

RANK() 排序相同時會重複，總數不會變
DENSE_RANK() 排序相同時會重複，總數會減少
ROW_NUMBER() 會根據順序計算

7，時間

#均只適合yyyy-MM-dd HH:mm:ss格式的時間，當然時分秒可以省略
date_format:格式化時間select date_format('2020-06-04','yyyy-MM');2020-06
date_add:   時間跟天數相加select date_add('2020-06-04',5);2020-06-09
date_sub:   時間跟天數相減select date_sub('2020-06-04',5);2020-05-30
datediff:   兩個時間相減select datediff('2020-06-04','2020-05-10');25
year:       獲取年select year('2020-06-04');2020
month:      獲取月份select month('2020-06-04');04
day:        獲取日select day('2020-06-04');04

格式轉換
regexp_replace: 欄位,原格式,替換的格式;select regexp_replace('2020/05/04','/','-');2020-05-04

相關推薦

Hive的基本介紹以及常用函式

一、Hive的簡介: 　　Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映為一張表，並提供類SQL查詢功能。優點： 1) 操作介面採用類SQL語法，提供快速開發的能力（簡單、容易上手）。 2) 避免了去寫MapReduce，減少開發人員的學習成本。 3) Hive的執行延遲比較

數理統計基本介紹以及介紹總體、樣本和方差

img 分享圖片 In 分享 alt info 介紹技術分享樣本數理統計基本介紹以及介紹總體、樣本和方差

redis學習（二） redis資料結構介紹以及常用命令

redis資料結構介紹　　我們已經知道redis是一個基於key-value資料儲存的資料結構資料庫，這裡的key指的是string型別，而對應的value則可以是多樣的資料結構。其中包括下面五種型別：　　1.string 字串　　　string字串型別是redis最基礎的資料儲存型別。

基本使用與常用函式

基本使用 1）常量、變數 #常量不可改變 a = tf.constant(10) #變數值可以更新 b = tf.variable(tf.zeros([784,10])) 2）佔位符佔位符用來接收值 #定義兩個placehold

Vim的基本使用以及常用的命令

gg 移動到檔案開頭 G 移動到檔案結尾 dd 刪除當前行 yyp 複製一行 v 進入選擇模式,viw ，選擇一個單詞，如果選錯想退出按esc （選擇一行，按v然後按l） p 退出 p 複製 vi " [ ( 選中“”、【】、（）中的內容 va " [ ( 選中包括“”、【】、（）的內容 v 然

docker的介紹以及常用命令

sof -m sta 及其 item 虛擬化 -s 主機系統 ges 一、docker的介紹 1. Docker是什麽？ Docker 是一個開源的應用容器引擎，讓開發者可以打包他們的應用以及依賴包到一個可移植的容器中，然後發布到任何流行的Linux機器上，也可以實現虛擬化

JPA基本介紹以及使用

JPA即Java Persistence Architecture，Java持久化規範，從EJB2.x版本中原來的實體Bean分離出來的，EJB3.x中不再有實體Bean，而是將實體Bean放到JPA中來實現。可以說，JPA借鑑了Hibernate的設計，JPA的設計者就是Hibernate框架的作者。

STL vector用法介紹+ STL 常用函式用法

1 #include <iostream> 2 #include <deque> 3 4 using namespace std; 5 6 int main() 7 { 8 deque<int> d; 9 10 //尾部插入 11

關聯分析——基本概念以及常用術語

想必大家都聽說過啤酒和尿布的故事，這種爛大街的例子很好的反映出關聯分析的本質，這裡簡要提提這個所謂的啤酒和尿布。有好事人兒發現週末的夜晚，家庭婦男為了和球賽度過一個美麗的夜晚，需要啤酒相伴，這個時候，一家之主兼政委主席——你的妻子卻還需要照顧孩子，“想看球賽沒問題，買啤酒順便買尿布”。對

演算法複雜度的評估以及常用函式的複雜度計算

一、評估演算法複雜度　　　　舉例：　　　　演算法複雜度為O(n)：　　　　　　　　　　演算法複雜度為O(n2)：　　　　　　　　　　演算法複雜度為O(1+2+...+n) ---> O(n2)：　　　　　　　　　　演算法複雜度為O(lgN): 　　　　　

oracle之DQL,DML以及常用函式（重點）

注意：oracle進行分組查詢統計，可先分組，再進行表關聯查詢，得到所有資訊。例如：查詢各部門中那些人工資最高（先分組查詢出部門最高的工資，將查詢結果作為一個結果表，進行表關聯查詢，得到關聯資訊，查詢出結果。 select ename, sal from emp joi

Java ExecutorService四種執行緒池基本介紹以及相關舉例

1、new Thread的弊端執行一個非同步任務你還只是如下new Thread嗎？ new Thread(new Runnable() { @Override public void run() { // TODO Auto-gene

matlab gui 以及常用函式

在matlab中,每一個物件都有一個數字來標識,叫做控制代碼.當每次建立一個物件時,matlab就為它建立一個唯一的控制代碼控制代碼中包含有該物件的相關資訊引數，可以在後續程式中進行操作，改變其中的引數，以便達到不同的效果例如：gcf 是返回當前被啟用的視窗的控制代碼。

不求甚解的深度學習教程(1)-邏輯迴歸基本概念以及代價函式

未來是人工智慧的時代！提到深度學習，邏輯迴歸是最經典的一個例子，也是很多教材的入門演算法（比如吳恩達的深度學習）。鑑於本人零基礎學習人工智慧的痛苦經歷，所以用通俗的語言把邏輯迴歸講清楚。深度學習本身核心知識是數學知識，涉及到線性代數、概率論，微積分等。體會到很多讀者都是像我一樣，已經把這些知識早就還給老師了

訊息佇列之非同步訊息基本概念以及ActiveMQ整合Spring常用用法介紹

一簡介（1）非同步訊息：所謂非同步訊息，跟RMI遠端呼叫、webservice呼叫是類似的，非同步訊息也是用於應用程式之間的通訊。但是它們之間的區別是： RMI、Hession/Burlap、webservice等遠端呼叫機制是同步的。也就是說，當客戶端呼叫遠端方法時，客戶端

設置MySQL數據庫密碼，連接數據庫以及基本操作的常用命令

MySQ常用操作一、更改MySQL的root用戶密碼 1、首次進入數據庫 [root@zlinux ~]# /usr/local/mysql/bin/mysql -uroot Welcome to the MySQL monitor. Commands end with ; or \g. Your MySQ

八周二次課 rsync工具介紹，常用參數選項以及和ssh同步

rsynclinux文件同步工具-rsyncrsync，它是一個同步工具。他非常實用，也非常重要。我們幾乎每天都要用它，比如傳輸文件，遠程備份數據。他也可以在本機備份，作用類似與命令cp，但又區別於cp。比如我們要拷貝一個文件A，將它命名為B。但A每小時更新一次，如果用cp命令將會很麻煩。這時我們用rsync

字典基本規則以及介紹

輸出字典介紹 ict pri 通過動態 div for dict 1.鍵值對 2.字典的value可以是任何值，比如列表，元組，字典等等 3.列表，字典不能作為字典的key，因為列表是動態的，可修改，而元組可以 4.字典是無序的，通過多次print確認是否每次輸出的

python網絡編程基礎--網絡的基本知識以及傳輸方式udp的基本介紹

正常檢查數據傳遞分配 p地址就是 tag ifconfig 軟件網絡編程：udp 要了解網絡編程,首先就要先了解什麽是網絡(了解):網絡的定義: 網絡就是指將具有獨立功能的多臺計算機通過通信線路連接起來，在網絡管理軟件及網絡通信協議下，實現資源共享和信息傳遞的虛擬

Hive 中的複合資料結構簡介以及一些函式的用法說明

目錄[-] 一、map、struct、array 這3種的用法： 1、Array的使用 2、Map 的使用 3、Struct 的使用 4、資料組合（不支援組合的複雜資料型別）二、hive中的一些不常見函式的用法： 1、array_contains （