hive SQL的常用設定

阿新 • • 發佈：2021-01-15

遇到個情況，跑hive級聯insert資料報錯，可以嘗試換個hive計算引擎

1、配置mapreduce計算引擎
set hive.execution.engine=mr;

2、配置spark計算引擎
set hive.execution.engine=spark;

3、配置tez 計算引擎
set hive.execution.engine=tez;

hive的sql操作與musql些許區別，比如hive沒有group_concat,取而代之的是collect_set；hive不能使用子查詢等，以下是常用操作：

新增分割槽

ALTER TABLE table_name ADD PARTITION (partCol = 'value1') location 'loc1'; //示例

ALTER TABLE table_name ADD IF NOT EXISTS PARTITION (dt='20130101') LOCATION '/user/hadoop/warehouse/table_name/dt=20130101'; //一次新增一個分割槽

例：
ALTER TABLE $abc$ ADD IF NOT EXISTS PARTITION(p_provincecode=$abc.p_provincecode$,p_year=$abc.p_year$,p_month=$abc.p_month$) LOCATION '/hadoop路徑/p_provincecode=$abc.p_provincecode$/p_year=$abc.p_year$/p_month=$abc.p_month$/'

ALTER TABLE page_view ADD PARTITION (dt='2008-08-08', country='us') location '/path/to/us/part080808' PARTITION (dt='2008-08-09', country='us') location '/path/to/us/part080809'; //一次新增多個分割槽

刪除分割槽
ALTER TABLE login DROP IF EXISTS PARTITION (dt='2008-08-08');
ALTER TABLE page_view DROP IF EXISTS PARTITION (dt='2008-08-08', country='us');

修改分割槽
ALTER TABLE table_name PARTITION (dt='2008-08-08') SET LOCATION "new location";
ALTER TABLE table_name PARTITION (dt='2008-08-08') RENAME TO PARTITION (dt='20080808');

新增列(欄位)
ALTER TABLE table_name ADD COLUMNS (col_name STRING); //在所有存在的列後面，但是在分割槽列之前新增一列

修改列
CREATE TABLE test_change (a int, b int, c int);
/* will change column a's name to a1*/
ALTER TABLE test_change CHANGE a a1 INT;

修改列的順序
ALTER TABLE table_name CHANGE col_old_name col_new_name column_type AFTER column_name;

/* will change column a's name to a1, a's data type to string, and put it after column b. The new table's structure is: b int, a1 string, c int*/
ALTER TABLE test_change CHANGE a a1 STRING AFTER b;

/* will change column b's name to b1, and put it as the first column. The new table's structure is: b1 int, a int, c int*/
ALTER TABLE test_change CHANGE b b1 INT FIRST;

hive刪除欄位
ALTER TABLE wireless_union_data_export_part1 REPLACE COLUMNS();

修改表屬性
alter table table_name set TBLPROPERTIES ('EXTERNAL'='TRUE'); //內部錶轉外部表
alter table table_name set TBLPROPERTIES ('EXTERNAL'='FALSE'); //外部錶轉內部表

表的重新命名
ALTER TABLE table_name RENAME TO new_table_name

gbase修改欄位只能先刪掉欄位，然後再新增
gbase刪除欄位
alter table table_name drop 欄位名

gbase新增欄位
alter table table_name add COLUMN col_name STRING;

gbase清除表資料不刪除表
delete 表名

常用函式
1.isnull(string a) --如果a是null，返回flase，如果啊不為空，返回true
2.ROUND(double a)四捨五入bigint型別
CEILING --舍入到最大整數 3.33舍入到4 2.98舍入到3 -3.61舍入到-3
FLOOR() --舍入到最小整數 3.33舍入到3 2.98舍入到2 -3.61舍入到-4
3.map(key1, value1, key2, value2, …)通過指定的鍵/值對，建立一個map

4.cast(expr as <type>)型別轉換。例如將字元”1″轉換為整數:cast(’1′ as bigint)，如果轉換失敗返回NULL。
例：CAST(num*100 AS decimal(8,0)) as num

5.unix_timestamp()  --如果不帶引數的呼叫，返回一個Unix時間戳（從’1970- 01 – 0100:00:00′到現在的UTC秒數）
   --指定日期引數呼叫UNIX_TIMESTAMP（），它返回引數值’1970- 01 – 0100:00:00′到指定日期的秒數
unix_timestamp(string date, string pattern) --指定時間輸入格式，返回到1970年秒數：unix_timestamp(’2009-03-20′, ‘yyyy-MM-dd’) = 1237532400
from_unixtime(bigint unixtime[, string format])
例：select from_unixtime(1505750400,'%Y-%m-%d %H-%i-%S');
--UNIX_TIMESTAMP引數表示返回一個值’YYYY- MM – DD HH：MM：SS’或YYYYMMDDHHMMSS.uuuuuu格式，這取決於是否是在一個字串或數字語境中
to_date(string timestamp)   --返回時間中的年月日： to_date(“1970-01-01 00:00:00″) = “1970-01-01″
to_dates(string date) --給定一個日期date，返回一個天數（0年以來的天數）
year、month、day、hour、minute、second、weekofyear --日期轉年、轉月…………

hour --返回指定時間的小時，範圍為0-23
weekofyear(string date) --返回指定日期所在一年中的星期號，範圍0到53
datediff('string enddate','string startdate') --兩個時間引數的日期之差
DATEDIFF ( date-part, date-expression-1, date-expression-2 ) --返回兩個日期之間的間隔
date-part : year | quarter | month | week | day | hour | minute | second | millisecond
sec_to_time(秒) --將秒轉化成時間
time_to_sec(時間) --將時間轉化為秒
date_add(string startdate,int days) --給定時間，在此基礎上加上指定的時間段
date_sub(string startdate,int days) --給定時間，在此基礎上減去指定的時間段

6.CASE a WHEN b THEN c [WHEN d THEN e]* [ELSE f] END    --當a=b時,返回c；當a=d時，返回e，否則返回f
CASE WHEN a THEN b [WHEN c THEN d]* [ELSE e] END --當值為a時返回b,當值為c時返回d。否則返回e

7.concat(string A, string B…)   --連線多個字串，合併為一個字串，可以接受任意數量的輸入字串
--任何字元與null連線都是NULL
  concat_ws(string SEP, string A, string B…)   --帶分隔符字串連線函式
例如：select concat_ws('_','abc','def','gh') from lxw_dual;返回 abc_def_gh

行轉列，e.g. select concat_ws('_',collect_set(visitor_name))

8.upper(string A) 或者 ucase(string A)   --將文字字串轉換成字母全部大寫形式
9.lower(string A) 或者 lcase(string A)   --將文字字串轉換成字母全部小寫形式
10.trim(string A)   --刪除字串兩端的空格，字元之間的空格保留
ltrim --左邊去空格
rtrim --右邊去空格

11.like     --例如：a like b --如果字串A或者字串B為NULL，則返回NULL；如果字串A符合表示式B 的正則語法，則為TRUE；否則為FALSE。
--B中字元”_”表示任意單個字元，而字元”%”表示任意數量的字元。
例如：select aaaaaa like '%aaa%'

12.split(string str, string pat)   --將字串轉換為陣列，以pat為分隔

13.substr(string A, int start) 或者 substring(string A, int start) --字串擷取函式，
例：select substr(‘abcde’,3); --返回cde
例：select substring('ancdefghijklmn',4,8); --返回 defghijk

該子字串從指定的 beginIndex 處開始， endIndex:到指定的 endIndex-1處結束。

14.regexp_extract   --正則表示式解析函式通過下標返回正則表示式指定的部分
regexp_extract(str, regexp[, idx])
其中：
str是被解析的字串
regexp 是正則表示式
idx是返回結果取表示式的哪一部分預設值為1。
0表示把整個正則表示式對應的結果全部返回,1表示返回正則表示式中第一個() 對應的結果以此類推
例 from
(select distinct id, name, val from text_table
where p_provincecode=12345 and regexp_extract(lower(id),'(@id)$|(@num)(\\d*)$',0) <>''
)a
$ 匹配行結束符;
* 匹配0或多個正好在它之前的那個字元;重複零次或多次
\ 這是引用符，用來將這裡列出的這些元字元當作普通的字元來進行匹配;
| 將兩個匹配條件進行邏輯“或”（Or）運算;
\d 匹配數字。在hive這種寫正則表示式需要用\轉義,所以\\d
^ 匹配一行的開始
? 匹配0或1個正好在它之前的那個字元；重複零次或一次
. 匹配除換行符號外的任意字元

15.regexp_replace(string A, string B, string C)   --正則表示式替換函式字串A中的B字元被C字元替代
regexp_replace(trim(waitbegin), '/', '-')

unix_timestamp(concat_ws(':', regexp_replace(trim(ackbegin), '/', '-'), '00'))-unix_timestamp(concat_ws(':', regexp_replace(trim(waitbegin), '/', '-'), '00')) as wait_duration,

16.get_json_object(string json_string, string path)  --json解析函式解析json的字串json_string,返回path指定的內容。如果輸入的json字串無效，那麼返回NULL。

17.內建聚合函式 count、sum、avg、min、max

18.left semi join ... on ...--只打印左邊的表中的列，規律是如果主鍵在右邊表中存在，則列印，否則過濾掉
--相當於sql的in
--不會產生重複的多條記錄

19.collect_set --與group by組合能列轉行，相當於group_concat
20.SELECT COALESCE(NULL, NULL, GETDATE()) --由於兩個引數都為null，所以返回getdate（）函式的值，也就是當前時間。即返回第一個非空的值。由於這個函式是返回第一個非空的值，所以引數裡面必須最少有一個非空的值，如不是，將會報錯

sql：注意問題
1.hive中只有union 沒有union all
union --聯合兩張表（會自動去重，兩張表取出的欄位個數和型別必須一致）並集操作
union all --聯合兩張表的所有資料（不會去重，兩張表取出的欄位個數和型別必須一致）並集操作

2.ABS() --求絕對值

3.與over函式結合的幾個函式介紹
參考網址：http://blog.csdn.net/winer2008/article/details/4283539
row_number()over()、rank()over()和dense_rank()over()函式的使用
row_number() 是沒有重複值的排序(即使兩天記錄相等也是不重複的)，可以利用它來實現分頁
dense_rank() 是連續排序，兩個第二名仍然跟著第三名
rank() 是跳躍排序，兩個第二名下來就是第四名

row_number() OVER (PARTITION BY COL1 ORDER BY COL2)
--表示根據COL1分組，在分組內部根據 COL2排序，而此函式計算的值就表示每組內部排序後的順序編號（組內連續的唯一的)
例：row_number() over (partition BY stbid,userid ORDER BY timestamp) AS group_idx,

--over（order by salary range between 5 preceding and 5 following）：視窗範圍為當前行資料幅度減5加5後的範圍內的。
sum(s)over(order by s range between 2 preceding and 2 following) 表示加2或2的範圍內的求和

--over（order by salary rows between 5 preceding and 5 following）：視窗範圍為當前行前後各移動5行。
sum(s)over(order by s rows between 2 preceding and 2 following)表示在上下兩行之間的範圍內
4.group by 和 having
SELECT A COUNT(B) FROM TABLE GROUP BY A HAVING COUNT(B)>2
5.SemanticException Column xx Found in more than One Tables/Subqueries報錯

Hive中有兩張表中擁有同一個欄位名稱，在這兩個表做關聯的時候會報這個錯誤，

如

select a.c,   b.c,   c.name
from A b
left join (select count(1) as c,code from B group by code )b  on a.code=b.code
left join C c on a.code = c.code;

a.c 和c.name的c，hive下含義辨識不清楚，改為如下

select a.c,   b.c,   cc.name
from A b
left join (select count(1) as c,code from B group by code )b  on a.code=b.code
left join C cc on a.code = cc.code;

5.子查詢只能在from後或者where後

6.hive基本資料型別記錄

轉載：https://www.cnblogs.com/xiaoliu66007/p/9436087.html

hive SQL的常用設定

hive SQL的常用設定

企業常用Hive SQL配置

idea2020.1 常用設定圖文詳解

IntelliJ IDEA 常用設定(配置)吐血整理(首次安裝必需)

k8s不常用設定-禁止master排程

SQL Server 設定新使用者只能檢視並訪問特定資料庫

Hive SQL 優化面試題整理

UINavigationController 層級關係及一些常用設定

mave常用設定

python Matplotlib資料視覺化（2）：詳解三大容器物件與常用設定

《MSSQL2008進階教程》之四“SQL常用函式（二）”

Visual Studio 常用設定和快捷鍵

SQL Server設定sa使用者登入

Css媒體查詢以及常用設定

簡單瞭解SQL常用刪除語句原理區別

sql常用sql(查詢耗時sql、還原備份等)

IDEA的常用設定大全

OWASP Top 10 2017 SQL常用函式

Hive sql 常見資料傾斜(型別不匹配、複雜join條件)的分析解決

Hive SQL查詢引數優化

hive SQL的常用設定

相關推薦