hive: 空值、NULL判斷、空值的處理
hive中空值判斷基本分兩種
(1)NULL 與 \N
hive在底層資料中如何儲存和標識NULL,是由 alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N'); 引數控制的
比如:
1.設定 alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N');
則:底層資料儲存的是'\N',通過查詢顯示的是'NULL'
這時如果查詢為空值的欄位可通過 語句:a is null 或者 a='\\N'
2.設定 alter tablename SET SERDEPROPERTIES('serialization.null.format' = 'NULL');
則:底層資料儲存的是'NULL',通過查詢顯示的是'NULL'
這時如果查詢為空值的欄位可通過 語句:a is null 或者 a='NULL'
(2)'' 與 length(xx)=0
'' 表示的是欄位不為null且為空字串,此時用 a is null 是無法查詢這種值的,必須通過 a='' 或者 length(a)=0 查詢
hive 空值的處理
hive的使用中不可避免的需要對null、‘’(空字串)進行判斷識別。但是hive有別於傳統的資料庫。
下面一一說明:
(1)不同資料型別對空值的儲存規則
int與string型別資料儲存,null預設儲存為 \N;
string型別的資料如果為"",儲存則是"";
另外往int型別的欄位插入資料“”時,結果還是\N。
(2)不同資料型別,空值的查詢
對於int可以使用is null來判斷空;
而對於string型別,條件is null 查出來的是\N的資料;而條件 =’’,查詢出來的是""的資料。
例如:
查詢1:select b.id,b.name from b
結果1:
1 lisi
2
3 NULL
查詢2:select b.id,b.name from b where b.name isnull;
結果2:
3 NULL
查詢3:select b.id,b.name from b where b.name=’’;
結果3:
2
查詢4:select b.id,b.name from b where b.name=’’or b.name is null;
結果4:
2
3 NULL
查詢5:select b.id,b.name from b where b.name<>’’and b.name is not null;
結果5:
1 lisi
查詢6:select b.id,b.name from b where length(b.name)<>0and b.name is not null;
結果6:
1 lisi
結論:判斷空時要根據實際的儲存來進行判斷。在開發過程中如果需要對空進行判斷,一定得知道儲存的是哪種資料。
有個處理空的小技巧,Hive給出一種並非完美的解決方法——自定義底層用什麼字元來表示NULL:
使用:ALTER TABLE b SET SERDEPROPERTIES ('serialization.null.format'='');
這句話的意思是讓null和''等價,也就是讓null不顯示,因為null對開發來說不好操作,可能不同地方代表意義不同,而且轉碼可能也會有問題,所有用''代替。