【Kylin實戰】Hive複雜資料型別與檢視

阿新 • • 發佈：2019-01-18

1. 引言

在分析廣告日誌時，會有這樣的多維分析需求：

曝光、點選使用者分別有多少？
標籤能覆蓋多少廣告使用者？
各個標籤（標註）類別能覆蓋的曝光、點選在各個DSP上所覆蓋的使用者數
……

廣告資料與標籤資料join之後，儲存orc file的schema如下：

create external table default.ad_tag
(
uid string
,dsp string
,view string
,click string
,tags array<struct<tag:string,label:string,src:string>>
)
partitioned by (day_time date)
stored as orc
location '/<path>/<to>';

使用者可能會有多個標籤，因此採用array<struct>資料型別來作為使用者的標籤欄位。可是，當用Kylin做多維分析時，會出現問題——Kylin只能匯入扁平化的Hive表，簡而言之，其不支援Hive的複雜資料型別，如array、struct、map等。為了解決這個問題，我們希望能從這張ad_tag表中抽象出一張扁平化的邏輯表，並且這張邏輯表的partition能跟ad_tag表保持同步更新。

2. 檢視

眾所周知，在RDBMS中，檢視（view）可用來抽象出邏輯表，比如，得到CS系所開設的所有課程及相關教師資訊：

create view as
    select course, teacher, building
    from teaches, teacher_table
    where teaches.teacher_id = teacher_table.teacher_id 
        and teaches.dept_name = 'CS'

在有一些資料庫解決方案中提供了物化檢視（materialize view），即物理儲存檢視。同RDBMS一樣，Hive也提供檢視，但檢視不能被物化。在Hive中建立檢視時，只是將該檢視的元資訊寫進metastore；只有在執行引用檢視語句時，才會觸發其select子句的執行。雖然Hive不能物化檢視，但提供了其等價解決方案——由一張表生成另外一張表：

create table
as select ...

這種類物化的方式，在建立表時會觸發select子句的執行，存在缺點：對於partition增量更新表，做不到view的partition與之同時更新。所以，對於我們的場景不太適用。

3. inline

如何在建立檢視時，將複雜資料型別平鋪開來呢？Hive內建UDTF做這種平鋪化（flatten）操作，但是UDTF並不能配合select用，而在lateral view子句中使用；比如，explode平鋪array：

select pageid, adid
from pageAds 
lateral view explode(adid_list) adTable as adid;

inline平鋪array<struct>：

select *
from test_bid 
lateral view inline(tags) tag_table_1;

4. Partition

資料在增量更新，對應地partition也在變化，建立的檢視也應同步partition的變化；並且，Kylin的增量cube是根據hive表的partition進行refresh的。因此，該檢視應保持與基礎表相同的partition。正好，Hive提供PartitionedView，為view新增partition。完整地建立檢視的命令如下：

create view if not exists ad_tag_view
partitioned on (day_time)
as
select uid, dsp, view, click, tag, label, src, day_time
from ad_tag lateral view inline(tags) tags_table;

經測試，在Kylin中讀取view沒問題，基礎表的增量更新，也會同步地反映到view中。至此，Kylin匯入複雜資料型別的Hive表問題已解決。此外，這篇文章《Kylin實踐之使用Hive檢視》介紹幾種不同場景下使用檢視的例子。

【Kylin實戰】Hive複雜資料型別與檢視

1. 引言

2. 檢視

3. inline

4. Partition

【Kylin實戰】Hive複雜資料型別與檢視

【Flutter 實戰】大量複雜資料持久化

【Java基礎】Java 基本資料型別

【Java-17】包裝類資料型別理解

【Java-26】Java時間資料型別問題

【Kylin實戰】郵件報表生成

【Redis學習】：set資料型別詳解

【Redis學習】：list資料型別詳解

【統計學】【2017.05】時間序列資料預測與分析

【ElasticSearch實戰】——ES常用查詢條件與mysql對比

【Numpy使用】numpy中的副本與檢視

hive筆記：複雜資料型別-map結構

【JavaScript】常用的資料型別的處理方式

【 C 】經典抽象資料型別（ADT）之記憶體分配

《瘋狂Java講義（第4版）》-----第3章【資料型別與運算子】

【C語言】typedef(自定義資料型別)與#define(巨集定義)用法比較

【NCNN原始碼分析】1.基本資料型別

【專案實戰】：Python ：視訊網站資料清洗整理和結論研究

Python學習【第4篇】：Python之可變資料型別與不可變資料型別可變資料型別和不可變資料型別

Hive支援的資料型別！基本資料型別！！複雜資料型別！！

【Kylin實戰】Hive複雜資料型別與檢視

1. 引言

2. 檢視

3. inline

4. Partition

相關推薦