hive解析json陣列
hive中解析一般的json是很容易的,get_json_object就可以了。
但如果欄位是json陣列,比如
[{"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"},{"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"}],
直接呼叫get_json_object返回空值。這樣的話對於不會寫UDF的同學來說,解析json陣列就變得很棘手,好在hive中自帶了explode函式,從而讓解析json陣列變得有可能了。這裡先介紹一下explode的使用方法。
explode(array)
select explode(array('A','B','C')) as col;
select tf.* from (select 0 from dual) t lateral view explode(array('A','B','C')) tf as col;
執行結果:
col
C
B
A
函式說明:explode的引數是陣列,提供了類似於列轉的功能;假如引數陣列長度為3,則返回的記錄會是3行,且每列為各個陣列項,如上。回到
[{"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"},
{"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"}],
怎麼解析出bssid?思路是通過explode把原資料變成2行資料
({"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"}和
{"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"}),
然後再使用get_json_object解析。
具體程式碼如下:
select ss.col
from (
select
split(regexp_replace(regexp_extract(
'[{"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"},
{"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"}]',
'^\\[(.+)\\]$' ,1),
'\\}\\,\\{', '\\}\\|\\|\\{'),
'\\|\\|'
) as str
from dual) pp
lateral view explode(pp.str) ss as col ;
執行結果:
col
{"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"}
{"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"}
說明:因為原資料是string(並不是真正的陣列型別)型別的,所以無法直接使用explode函式。
1.regexp_extract('xxx','^\\[(.+)\\]$',1) 這裡是把需要解析的json陣列去除左右中括號,需要注意的是這裡的中括號需要兩個轉義字元\\[。
2.regexp_replace('xxx','\\}\\,\\{', '\\}\\|\\|\\{') 把json陣列的逗號分隔符變成兩根豎線||,可以自定義分隔符只要不在json陣列項出現就可以。
3.使用split函式返回的陣列,分隔符為上面定義好的。
4.lateral view explode處理3中返回的陣列。
另外,hive中的json_tuple解析json比get_json_object更方便。
select ss.col,rr.appid,rr.ssid,rr.bssid
from (
select split(regexp_replace(regexp_extract('
[{"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"},
{"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"}]',
'^\\[(.+)\\]$',1),
'\\}\\,\\{', '\\}\\|\\|\\{'),
'\\|\\|'
) as str
from dual) pp
lateral view explode(pp.str) ss as col
lateral view json_tuple(ss.col,'appid','ssid','bssid') rr as appid,ssid,bssid;
執行結果:
col appid ssid bssid
{"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"}10003and-BusinessAC:9C:E4:04:EE:52
{"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"}\NMERCURY_05C46C:59:40:21:05:C4
json_tuple可以一次性解析多個欄位,而get_json_object一次只能解析一個欄位。
轉載自:https://my.oschina.net/u/3204727/blog/1785044