Hive資料型別、 explode、自定義UDF

阿新 • • 發佈：2018-11-19

Hive資料型別、 explode、自定義UDF

一、基本型別
在這裡插入圖片描述
二、複雜型別

三、陣列型別 array
　　案例一、
　　元資料：
　　　100,200,300
　　　200,300,500
　　建表語句：create external table ex(vals array) row format delimited fields terminated by ‘\t’ collection items terminated by ‘,’ location ‘/ex’;
　　查詢語句：
　　　查詢每行陣列的個數　select size(vals) from ex;
　　　select vals[0] from ex;查詢的是第一行的資料。
　　注：hive 內建函式不具備查詢某個具體行的陣列元素。需要自定義函式來實現
　　案例二、
　　元資料：
　　　100,200,300 tom,jary
　　　200,300,500 rose,jack
　　建表語句：create external table ex1(info1 array,info2 array) row format delimited fields terminated by ‘\t’ collection items terminated by ‘,’ location
‘/ex’;
四、map型別

　　案例一、
　　元資料：
　　　tom,23
　　　rose,25
　　　jary,28
　　建表語句：
　　　create external table m1 (vals map<string,int>) row format delimited fields terminated by ‘\t’ map keys terminated by ‘,’ location ‘/map’;
　　如果是map型別，列分隔符必須是\t
　　查詢語句：select vals[‘tom’] from ex;
五、struct 型別（物件型別）
　　元資料：
　　　tom 23
　　　rose 22
　　　jary 26
　　建表語句：
　　　create external table ex (vals structname:string,age:int

)row format delimited collection items terminated by ‘,’ location ‘/m1’;
　　查詢語句：select vals.age from s1 where vals.name=‘tom’;
六、collect_set
　　collect_set 函式用於資料去重，並將結果形成陣列返回
七、 explode
　　explode 命令可以將行資料，按指定規則切分出多行
　　原資料：
　　　100,200,300
　　　200,300,500
　　建立表：：create external table ex1 (num string) location ‘/ex’;
　　注：用explode做行切分，注意表裡只有一列，並且行資料是string型別，因為只有字元型別才能做切分。
　　通過explode指令來做行切分：執行：select explode(split(num,’,’)) from ex1;
八、UDF

　　如果hive的內建函式不夠用，我們也可以自己定義函式來使用，這樣的函式稱為hive的使用者自定義函式，簡稱UDF。
　　實現步驟：
　　　1.新建java工程，匯入hive相關包，匯入hive相關的lib。
　　　2.建立類繼承UDF
　　　3.自己編寫一個evaluate方法，返回值和引數任意

import org.apache.hadoop.hive.ql.exec.UDF;

public class ToUpper extends UDF{
	public String evaluate(String str){
		return str.toUpperCase();
	｝
｝

4.為了能讓mapreduce處理，String要用Text處理。
　　5.將寫好的類打成jar包，上傳到linux中
　　6.在hive命令列下，向hive註冊UDF：add jar /xxxx/xxxx.jar
　　7.在hive命令列下，為當前udf起一個名字：create temporary function fname as ‘類的全路徑名’;
　　8.之後就可以在hql中使用該自定義函數了。

Hive資料型別、 explode、自定義UDF

Hive資料型別、 explode、自定義UDF

Hive資料型別、 explode、自定義UDF

SQL Server——保證資料的完整性（使用者自定義資料型別、使用規則、解除和刪除規則）

Python學習筆記 Day7 對資料型別的總結、input輸入及函式定義

zabbix的主動模式和被動模式、添加監控主機、添加自定義模板、處理圖形中的亂碼、自動發現

主動模式和被動模式、添加監控主機、添加自定義模板、自動發現

【zabbix系列教程】四、用戶自定義監控

Cookie、Session和自定義分頁

linux監控平臺搭建(2)主動和被動模式、添加監控主機、添加自定義模板、處理圖形亂碼、自動發現

zabbix主動模式與被動模式、添加監控主機、添加自定義模板

zabbix-添加主機、添加自定義模板、添加自動發現、自動發現設置網卡、圖形亂碼無法顯示中文處理

六十五、主動模式和被動模式、添加監控主機、添加自定義模板、處理圖形中的亂碼、自動發現

66.主動模式和被動模式、添加監控主機、添加自定義模板、處理圖形中的亂碼、自動發現

六十六、添加自定義監控項目、配置郵件告警、測試告警、不發郵件的問題處理

主動模式和被動模式、添加監控主機、添加自定義的模板、處理圖形中的亂碼、自動發現

Linux centosVMware 主動模式和被動模式、添加監控主機、添加自定義模板、處理圖形中的亂碼、自動發現

監控服務器cpu、磁盤、模板以及自定義key

Js:消息彈出框、獲取時間區間、時間格式、easyui datebox 自定義校驗、表單數據轉化json、控制兩個日期不能只填一個

主動模式和被動模式、添加監控主機、添加自定義模板、處理圖形中的亂碼、自動發現

Python cookie、session和自定義分頁

Cookie、Session和自定義分頁 Cookie、Session和自定義分頁

Hive資料型別、 explode、自定義UDF

Hive資料型別、 explode、自定義UDF

相關推薦