從一道hive面試題的解決思路中理解hive應用

阿新 • • 發佈：2019-02-07

Hive面試題—理清hive應用思路

問題：有一張很大的表：TRLOG該表大概有2T左右。

TRLOG：
CREATE TABLE TRLOG
(PLATFORM string,
USER_ID int,
CLICK_TIME string,
CLICK_URL string)
row format delimited fields terminated by '\t';

資料：

PLATFORM          USER_ID              CLICK_TIME             CLICK_URL
WEB               12332321      2013-03-21 13:48:31.324       /home/
WEB               12332321      2013-03-21 13:48:32.954       /selectcat/er/
WEB               12332321      2013-03-21 13:48:46.365       /er/viewad/12.html
WEB               12332321      2013-03-21 13:48:53.651       /er/viewad/13.html
WEB               12332321      2013-03-21 13:49:13.435       /er/viewad/24.html
WEB               12332321      2013-03-21 13:49:35.876       /selectcat/che/
WEB               12332321      2013-03-21 13:49:56.398       /che/viewad/93.html
WEB               12332321      2013-03-21 13:50:03.143       /che/viewad/10.html
WEB               12332321      2013-03-21 13:50:34.265       /home/
WAP               32483923      2013-03-21 23:58:41.123       /m/home/
WAP               32483923      2013-03-21 23:59:16.123       /m/selectcat/fang/
WAP               32483923      2013-03-21 23:59:45.123       /m/fang/33.html
WAP               32483923      2013-03-22 00:00:23.984       /m/fang/54.html
WAP               32483923      2013-03-22 00:00:54.043       /m/selectcat/er/
WAP               32483923      2013-03-22 00:01:16.576       /m/er/49.html
……                  ……                ……                                  ……

現需要把上述資料處理為如下結構的表ALLOG：

CREATE TABLE ALLOG
(PLATFORM string,
 USER_ID int,
 SEQ int,
 FROM_URL string,
 TO_URL   string)
row format delimited fields terminated by '\t';

整理後的資料結構：

PLATFORM          USER_ID     SEQ             FROM_URL                      TO_URL
WEB               12332321     1               NULL                        /home/
WEB               12332321     2               /home/                      /selectcat/er/
WEB               12332321     3               /selectcat/er/              /er/viewad/12.html
WEB               12332321     4               /er/viewad/12.html          /er/viewad/13.html
WEB               12332321     5               /er/viewad/13.html          /er/viewad/24.html
WEB               12332321     6               /er/viewad/24.html          /selectcat/che/
WEB               12332321     7               /selectcat/che/             /che/viewad/93.html
WEB               12332321     8               /che/viewad/93.html         /che/viewad/10.html
WEB               12332321     9               /che/viewad/10.html         /home/
WAP               32483923     1               NULL                        /m/home/
WAP               32483923     2               /m/home/                    /m/selectcat/fang/
WAP               32483923     3               /m/selectcat/fang/          /m/fang/33.html
WAP               32483923     4               /m/fang/33.html             /m/fang/54.html
WAP               32483923     5               /m/fang/54.html             /m/selectcat/er/
WAP               32483923     6               /m/selectcat/er/             /m/er/49.html
……                  ……           ……                 ……                             ……

說明：PLATFORM和USER_ID還是代表平臺和使用者ID；SEQ欄位代表使用者按時間排序後的訪問順序，FROM_URL和TO_URL分別代表使用者從哪一頁跳轉到哪一頁。對於某個平臺上某個使用者的第一條訪問記錄，其FROM_URL是NULL（空值）。

解題要求：需要用兩種辦法做出來：

1、實現一個能加速上述處理過程的Hive Generic UDF，並給出使用此UDF實現ETL過程的Hive SQL。
2、實現基於純Hive SQL的ETL過程，從TRLOG表生成ALLOG表；（結果是一套hive SQL語句）。
說明：第一題效率一定要高，因為表有2TB，第二題無所謂，只要能用HIVE SQL實現就行。

**********解決思路******************

問題一：寫UDF簡單，只要自定義一個ROWNUMBER方法，載入到HIVE中就能出結果了。
下面是網友提供的一個JAVA寫的RowNumber方法（該方法用於獲取“SEQ”列的值(SEQ欄位代表使用者按時間排序後的訪問順序），僅供參考。

public class RowNumber extends org.apache.hadoop.hive.ql.exec.UDF {
 
    private static int MAX_VALUE = 50;
    private static String comparedColumn[] = new String[MAX_VALUE];
    private static int rowNum = 1;
 
    public int evaluate(Object... args) {
        String columnValue[] = new String[args.length];
        for (int i = 0; i < args.length; i++)
            columnValue[i] = args[i].toString();
        if (rowNum == 1)
        {
 
            for (int i = 0; i < columnValue.length; i++)
                comparedColumn[i] = columnValue[i];
        }
 
        for (int i = 0; i < columnValue.length; i++)
        {
 
            if (!comparedColumn[i].equals(columnValue[i]))
            {
                for (int j = 0; j < columnValue.length; j++)
                {
                    comparedColumn[j] = columnValue[j];
                }
                rowNum = 1;
                return rowNum++;
            }
        }
        return rowNum++;
    }
}

把上面這個JAVA類打包，編譯成JAR包，比如RowNumber.jar。然後放到Hive的機器上的相應目錄下。

然後在HIVE SHELL裡執行下面兩條語句：

add jar /root/RowNumber.jar; #把RowNumber.jar載入到HIVE的CLASSPATH中
create temporary function row_number as 'RowNumber';  
#在HIVE裡建立一個新函式，叫row_number ，引用的CLASS 就是JAVA程式碼裡的RowNumber類。

提示成功後，再執行下面這條HIVE SQL語句：

#INSERT OVERWRITE TABLE ALLOG 如果要寫入ALLOG表，可以把註釋去掉
SELECT t1.platform,t1.user_id,row_number(t1.user_id)seq,t2.click_url FROM_URL,t1.click_url TO_URL FROM
(select *,row_number(user_id)seq from trlog)t1
LEFT OUTER JOIN
(select *,row_number(user_id)seq from trlog)t2 
on t1.user_id = t2.user_id and t1.seq = t2.seq + 1;

成功實現！
疑問：第一題解決了，但有一點不明白T1\T2既然已經有了row_number(user_id)seq，為什麼在最外層還要套個row_number(user_id)seq？
牛人回答：第一題中的RN貌似是HIVE轉譯SQL的BUG，你可以把外層的ROW_NUMBER去掉，用T1的SEQ，就能發現問題了。具體情況還有待分析，有興趣可以去國外社群查查相關的BUG LIST。

問題解題思路二：

INSERT OVERWRITE TABLE ALLOG
SELECT t1.platform,t1.user_id,t1.seq,t2.click_url FROM_URL,t1.click_url TO_URL FROM
(SELECT platform,user_id,click_time,click_url,count(1) seq FROM (SELECT a.*,b.click_time click_time1,b.click_url click_url2  FROM trlog a left outer join trlog b on a.user_id = b.user_id)t WHERE click_time>=click_time1 GROUP BY platform,user_id,click_time,click_url)t1
LEFT OUTER JOIN
(SELECT platform,user_id,click_time,click_url,count(1) seq FROM (SELECT a.*,b.click_time click_time1,b.click_url click_url2  FROM trlog a left outer join trlog b on a.user_id = b.user_id)t WHERE click_time>=click_time1 GROUP BY platform,user_id,click_time,click_url )t2 
on t1.user_id = t2.user_id and t1.seq = t2.seq + 1;

分析說明：這個方法完全沒有效率可言，MapReduce JOB最少要跑5次，做實驗還行，跑生產環境就免了。

從一道hive面試題的解決思路中理解hive應用

從一道hive面試題的解決思路中理解hive應用

從一道簡單面試題來解讀JS中的閉包和作用域

#套路非常深的一道Java面試題，你中招了嗎？

一道python面試題: 輸出字串中對稱的子字串的最大長度(最長迴文)

從一道阿里面試題說起

Hive面試題：請寫出你在工作中自定義過的udf函式，簡述定義步驟

今天做到一道面試題：Android中程序的通訊方式

一道JS面試題所引發的"血案"，透過現象尋本質，再從本質看現象

一道hive面試題

一道Hive面試題：累積報表

一道hive面試題（窗口函數）

關於一道JS面試題的思考

一道Python面試題：給出d = [True, False, True, False, True]，請利用列表d，只用一句話返回列表[0,2,4]

java面試題全集（中）--Java Web和Web Service相關面試題

java面試題之----jdbc中使用的設計模式（橋接模式）

史上最難的一道Java面試題：分析篇

由字符串反轉(使用遞歸)引申出來一道Java面試題

一道Java面試題---（關於static）

從阿里巴巴面試題到java類載入機制

以後綴名為分類把檔案分別儲存到數組裡（朋友的一道簡單面試題）

從一道hive面試題的解決思路中理解hive應用

相關推薦