1. 程式人生 > >hive解析json陣列

hive解析json陣列

hive中解析一般的json是很容易的,get_json_object就可以了。

但如果欄位是json陣列,比如

[{"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"},{"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"}],

直接呼叫get_json_object返回空值。這樣的話對於不會寫UDF的同學來說,解析json陣列就變得很棘手,好在hive中自帶了explode函式,從而讓解析json陣列變得有可能了。這裡先介紹一下explode的使用方法。

explode(array)

select
explode(array('A','B','C')) as col; select tf.* from (select 0 from dual) t lateral view explode(array('A','B','C')) tf as col; 執行結果: col  C B A

函式說明:explode的引數是陣列,提供了類似於列轉的功能;假如引數陣列長度為3,則返回的記錄會是3行,且每列為各個陣列項,如上。回到 
[{"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"}, 
 {"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"}],
怎麼解析出bssid?思路是通過explode把原資料變成2行資料
({"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"}和
 {"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"}),

然後再使用get_json_object解析。
具體程式碼如下:
select ss.col
from (
      select 
      split(regexp_replace(regexp_extract(
                           '[{"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"}, 
                            {"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"}]',
                           '^\\[(.+)\\]$'
,1), '\\}\\,\\{', '\\}\\|\\|\\{'), '\\|\\|' ) as str from dual) pp lateral view explode(pp.str) ss as col ; 執行結果: col  {"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"} {"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"}


說明:因為原資料是string(並不是真正的陣列型別)型別的,所以無法直接使用explode函式。
1.regexp_extract('xxx','^\\[(.+)\\]$',1) 這裡是把需要解析的json陣列去除左右中括號,需要注意的是這裡的中括號需要兩個轉義字元\\[。
2.regexp_replace('xxx','\\}\\,\\{', '\\}\\|\\|\\{') 把json陣列的逗號分隔符變成兩根豎線||,可以自定義分隔符只要不在json陣列項出現就可以。
3.使用split函式返回的陣列,分隔符為上面定義好的。
4.lateral view explode處理3中返回的陣列。
另外,hive中的json_tuple解析json比get_json_object更方便。

select ss.col,rr.appid,rr.ssid,rr.bssid
from (
      select split(regexp_replace(regexp_extract('
                        [{"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"}, 
                        {"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"}]',
                        '^\\[(.+)\\]$',1),
             '\\}\\,\\{', '\\}\\|\\|\\{'),
       '\\|\\|'
     ) as str
from dual) pp
lateral view explode(pp.str) ss as col 
lateral view json_tuple(ss.col,'appid','ssid','bssid') rr as appid,ssid,bssid;

執行結果:
col appid ssid   bssid 
{"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"and-Business"}10003and-BusinessAC:9C:E4:04:EE:52
{"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"}\NMERCURY_05C46C:59:40:21:05:C4

json_tuple可以一次性解析多個欄位,而get_json_object一次只能解析一個欄位。

轉載自:https://my.oschina.net/u/3204727/blog/1785044