一例 Hive join 優化實戰

阿新 • • 發佈：2022-04-28

由於 hive 與傳統關係型資料庫面對的業務場景及底層技術架構都有著很大差異，因此，傳統資料庫領域的一些技能放到 Hive 中可能已不再適用。關於 hive 的優化與原理、應用的文章，前面也陸陸續續的介紹了一些，但大多都偏向理論層面，本文就介紹一個例項，從例項中一步步加深對 hive 調優的認識與意識。

1、需求

需求我做了簡化，很簡單，兩張表做個 join，求指定城市，每天的 pv，用傳統的 RDBMS SQL 寫出來就這樣的：

SELECT t.statdate,
       c.cname,
       count(t.cookieid)
FROM tmpdb.city c
JOIN ecdata.ext_trackflow t ON (t.area1= c.cname
                                OR t.area2 =c.cname
                                OR t.area3 = c.cname)
WHERE t.statdate>='20140818' and t.statdate<='20140824'
  AND platform='pc'
GROUP BY t.statdate,
         c.cname;

怎麼樣？根據 SQL 看懂需求沒問題吧？

2、非等值 join 問題

然後把這條 SQL 貼到 hive 中去執行，然後你會發現報錯了：

FAILED: SemanticException [Error 10019]: Line 5:32 OR not supported in JOIN currently 'cname'

這是因為 hive 受限於 MapReduce 演算法模型，只支援 equi-joins（等值 join），要實現上述的非等值 join，你可以採用笛卡兒積（ full Cartesian product ）來實現：

SELECT t.statdate,
       c.cname,
       count(t.cookieid)
FROM tmpdb.city c
JOIN ecdata.ext_trackflow t
WHERE t.statdate>='20140818'
  AND t.statdate<='20140824'
  AND platform='pc'
  AND (t.area1= c.cname
       OR t.area2 =c.cname
       OR t.area3 = c.cname)
GROUP BY t.statdate,
         c.cname;

然後再拿著這條語句執行下。

3、優化：reduce side join VS Cartesian product

如果你真的把這條語句放到 Hive 上執行，然後恰好你有張表還非常大，那麼恭喜你。。。叢集管理員估計會找你的麻煩了。。。

友情提示：笛卡兒積這種語句在 Hive 下慎用，大資料場景下的 m * n 對映結果你懂的。。。對此，Hive 特意提供了一個環境變數：hive.mapred.mode=strict; 防止笛卡兒積的執行：

FAILED: SemanticException [Error 10052]: In strict mode, cartesian product is not allowed. If you really want to perform the operation, set hive.mapred.mode=nonstrict

從 2 中的觀察得知我們在 on 後面跟 join 條件，走的是 reduce side join，如果你在 where 後跟則是走 Cartesian product，但是這裡單條 sql 又沒法實現 reduce side join，還有沒有其它辦法呢？

4、改寫非等值 join：union all

既然不允許非等值 join，那我們換一下思路，多個子查詢 union all，然後彙總：

SELECT dt,
       name,
       count(cid)
FROM
  (SELECT t.statdate dt,
          c.cname name,
          t.cookieid cid
   FROM tmpdb.city c
   JOIN ecdata.ext_trackflow t ON t.area1 =c.cname
   WHERE t.statdate>='20140818'
     AND t.statdate<='20140824'
     AND platform='pc'
   UNION ALL SELECT t.statdate dt,
                    c.cname name,
                    t.cookieid cid
   FROM tmpdb.city c
   JOIN ecdata.ext_trackflow t ON t.area2 =c.cname
   WHERE t.statdate>='20140818'
     AND t.statdate<='20140824'
     AND platform='pc'
   UNION ALL SELECT t.statdate dt,
                    c.cname name,
                    t.cookieid cid
   FROM tmpdb.city c
   JOIN ecdata.ext_trackflow t ON t.area3 =c.cname
   WHERE t.statdate>='20140818'
     AND t.statdate<='20140824'
     AND platform='pc') tmp_trackflow
GROUP BY dt,
         name;

5、優化：map side join

上述語句走的是 reduce side join，從我們的需求及業務得知，tmpdb.city 是一張字典表，資料量很小，因此我們可以試試把上述的語句改寫成 mapjoin：

SELECT dt,
       name,
       count(cid)
FROM
  (SELECT /*+ MAPJOIN(c) */ t.statdate dt,
                            c.cname name,
                            t.cookieid cid
   FROM tmpdb.city c
   JOIN ecdata.ext_trackflow t ON t.area1 =c.cname
   WHERE t.statdate>='20140818'
     AND t.statdate<='20140824'
     AND platform='pc'
   UNION ALL SELECT /*+ MAPJOIN(c) */ t.statdate dt,
                                      c.cname name,
                                      t.cookieid cid
   FROM tmpdb.city c
   JOIN ecdata.ext_trackflow t ON t.area2 =c.cname
   WHERE t.statdate>='20140818'
     AND t.statdate<='20140824'
     AND platform='pc'
   UNION ALL SELECT /*+ MAPJOIN(c) */ t.statdate dt,
                                      c.cname name,
                                      t.cookieid cid
   FROM tmpdb.city c
   JOIN ecdata.ext_trackflow t ON t.area3 =c.cname
   WHERE t.statdate>='20140818'
     AND t.statdate<='20140824'
     AND platform='pc') tmp_trackflow
GROUP BY dt,
         name;

6、優化無極限：開啟 parallel 和控制 reduce 個數

上述語句執行時，你可以看到執行計劃和狀態資訊，以及結合你的 union all 語句可知，三個 union 語句之間沒有依賴關係，其實是可以並行執行的：

explain SQL...
...
STAGE DEPENDENCIES:
  Stage-11 is a root stage
  Stage-1 depends on stages: Stage-11
  Stage-2 depends on stages: Stage-1
  Stage-3 depends on stages: Stage-2, Stage-6, Stage-9
  Stage-12 is a root stage
  Stage-5 depends on stages: Stage-12
  Stage-6 depends on stages: Stage-5
  Stage-13 is a root stage
  Stage-8 depends on stages: Stage-13
  Stage-9 depends on stages: Stage-8
  Stage-0 is a root stage
...

我們在 SQL 前加上如下環境變數選項：

set mapred.reduce.tasks=60;
set hive.exec.parallel=true;

讓執行計劃中的 Stage-11、Stage-12、Stage-13 並行執行，並控制好 reduce task 個數。

完整的語句如下：

hive -e "
SET mapred.reduce.tasks=60;


SET hive.exec.parallel=TRUE;


SELECT dt,
       name,
       count(cid)
FROM
  (SELECT /*+ MAPJOIN(c) */ t.statdate dt,
                            c.cname name,
                            t.cookieid cid
   FROM tmpdb.city c
   JOIN ecdata.ext_trackflow t ON t.area1 =c.cname
   WHERE t.statdate>='20140818'
     AND t.statdate<='20140824'
     AND platform='pc'
   UNION ALL SELECT /*+ MAPJOIN(c) */ t.statdate dt,
                                      c.cname name,
                                      t.cookieid cid
   FROM tmpdb.city c
   JOIN ecdata.ext_trackflow t ON t.area2 =c.cname
   WHERE t.statdate>='20140818'
     AND t.statdate<='20140824'
     AND platform='pc'
   UNION ALL SELECT /*+ MAPJOIN(c) */ t.statdate dt,
                                      c.cname name,
                                      t.cookieid cid
   FROM tmpdb.city c
   JOIN ecdata.ext_trackflow t ON t.area3 =c.cname
   WHERE t.statdate>='20140818'
     AND t.statdate<='20140824'
     AND platform='pc') tmp_trackflow
GROUP BY dt,
         name;

" > a1.txt

最後的優化效果是：2 中的語句三個小時沒出結果。。。5 比 4 快 8 倍左右，6 比 5 快 2 倍左右，最終 10min 出結果。

7、最後的問題：

在 6 的語句執行的時候你會發現，其掃描了三遍原始檔。而 hive 本身是對 union all 的 join 做了優化的，當多個 union all 子查詢同一張表時，只掃描一次原始檔，但這裡為什麼會三個子查詢各掃描一次呢？

可能是這裡的 union all 子查詢使用了 join 的緣故，導致 hive 的 union all 執行計劃優化失效了。

關於這塊怎麼能優化成只掃描一次原始檔，或者你有更好的優化方案，歡迎留言交流。

8、關於 hive 中的笛卡爾集（ full Cartesian product ）

在JION接連查詢中沒有ON連線key，而通過WHERE條件語句會產生笛卡爾集。 Hive本身是不支援笛卡爾集的，不能用select T1.*, T2.* from table1, table2這種語法。但有時候確實需要用到笛卡爾集的時候，可以用下面的語法來實現同樣的效果： select T1.*, T2.* from table1 T1 join table2 T2 where 1=1; 注意在Hive的Strict模式下不能用這種語法，因為這樣會產生笛卡爾集，而這種模式禁止產生笛卡爾集。需要先用set hive.mapred.mode=nonstrict;設為非strict模式就可以用了，或者將where改為on連線。 select T1.*, T2.* from table1 T1 join table2 T2 on T1.id=T2.id;

9、關於Strict Mode

Hive中的嚴格模式可以防止使用者發出（可以有問題）的查詢無意中造成不良的影響。將hive.mapred.mode設定成strict可以禁止三種類型的查詢： 1）、在一個分割槽表上，如果沒有在WHERE條件中指明具體的分割槽，那麼這是不允許的，換句話說，不允許在分割槽表上全表掃描。這種限制的原因是分割槽表通常會持非常大的資料集並且可能資料增長迅速，對這樣的一個大表做全表掃描會消耗大量資源，必須要再WHERE過濾條件中具體指明分割槽才可以執行成功的查詢。 2）、第二種是禁止執行有ORDER BY的排序要求但沒有LIMIT語句的HiveQL查詢。因為ORDER BY全域性查詢會導致有一個單一的reducer對所有的查詢結果排序，如果對大資料集做排序，這將導致不可預期的執行時間，必須要加上limit條件才可以執行成功的查詢。 3）、第三種是禁止產生笛卡爾集。在JION接連查詢中沒有ON連線key而通過WHERE條件語句會產生笛卡爾集，需要改為JOIN...ON語句。

10、Refer：

[1] Hive Query- Joining two tables on three joining conditions with OR operator

http://stackoverflow.com/questions/16272804/hive-query-joining-two-tables-on-three-joining-conditions-with-or-operator

[2] LanguageManual JoinOptimization

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinOptimization

[3] hive 執行計劃

http://yychao.iteye.com/blog/1749562

[4] Hive SQL解析/執行計劃生成流程分析

http://yanbohappy.sinaapp.com/?p=265

[5] 資料倉庫中的SQL效能優化（Hive篇）

http://www.zihou.me/html/2014/02/12/9207.html

[6] Hive優化以及執行原理

http://www.smartcitychina.cn/upload/2014-01/14012015376829.pdf

[7] Hive作業優化總結

http://my.oschina.net/yangzhiyuan/blog/262910

[8] Hive連線產生笛卡爾集

http://blog.javachen.com/2013/10/17/cartesian-product-in-hive-inner-join/#

一例 Hive join 優化實戰

1、需求

2、非等值 join 問題

3、優化：reduce side join VS Cartesian product

4、改寫非等值 join：union all

5、優化：map side join

6、優化無極限：開啟 parallel 和控制 reduce 個數

7、最後的問題：

8、關於 hive 中的笛卡爾集（ full Cartesian product ）

9、關於Strict Mode

10、Refer：

一例 Hive join 優化實戰

一次介面效能優化實戰

sql優化實戰把full join改為left join +union all(從5分鐘降為10秒)

Flink實戰（九十八）：flink-sql使用（十六）雙流join（一）雙流 join 場景應用

Mysql索引優化實戰一

SQL優化一例：通過改變分組條件（減少計算次數）來提高效率

告訴你一種精簡、優化程式碼的方式

百億級實時查詢優化實戰，讓你的Elasticsearch飛起來！

Mysql巧用join優化sql的方法詳解

一次資料庫效能優化測試，整理最全資料庫優化方案，還不快收藏

【踩坑日記】一次抓包排查實戰

一例基於vb.net的跨執行緒訪問winform元件的Parallel併發程式指令碼

Hive SQL 優化面試題整理

網站訪問速度優化實戰：CDN源/Nginx壓縮/全站CDN加速

記一次網頁載入優化

記憶體優化實戰

總結一次C++ 程式優化歷程

nginx效能改進一例

ESXi叢集配置一例（HP C7000+DELL EQlogic+HUAWEI 6700）轉載老管網路日誌

【直播】高效能MySQL優化實戰

一例 Hive join 優化實戰

1、需求

2、非等值 join 問題

3、優化：reduce side join VS Cartesian product

4、改寫非等值 join：union all

5、優化：map side join

6、優化無極限：開啟 parallel 和 控制 reduce 個數

7、最後的問題：

8、關於 hive 中的 笛卡爾集（ full Cartesian product ）

9、關於Strict Mode

10、Refer：

相關推薦

6、優化無極限：開啟 parallel 和控制 reduce 個數

8、關於 hive 中的笛卡爾集（ full Cartesian product ）