PostgreSQL利用遞迴優化求稀疏列唯一值的方法

阿新 • • 發佈：2021-01-21

在資料庫中經常會碰到一些表的列是稀疏列，只有很少的值，例如性別欄位，一般就只有2種不同的值。
但是當我們求這些稀疏列的唯一值時，如果表的資料量很大，速度還是會很慢。

例如：
建立測試表

bill=# create table t_sex (sex char(1),otherinfo text);
CREATE TABLE
bill=# insert into t_sex select 'm',generate_series(1,10000000)||'this is test';
INSERT 0 10000000
bill=# insert into t_sex select 'w',10000000)||'this is test';
INSERT 0 10000000

查詢：
可以看到下面的查詢速度很慢。

bill=# select count(distinct sex) from t_sex;
 count
-------
   2
(1 row)

Time: 8803.505 ms (00:08.804)
bill=# select sex from t_sex t group by sex;
 sex
-----
 m
 w
(2 rows)

Time: 1026.464 ms (00:01.026)

那麼我們對該欄位加上索引又是什麼情況呢？

速度依然沒有明顯

bill=# create index idx_sex_1 on t_sex(sex);
CREATE INDEX
bill=# select count(distinct sex) from t_sex;
 count
-------
   2
(1 row)

Time: 8502.460 ms (00:08.502)
bill=# select sex from t_sex t group by sex;
 sex
-----
 m
 w
(2 rows)

Time: 572.353 ms

的變化，可以看到執行計劃已經使用Index Only Scan了。

bill=# explain select count(distinct sex) from t_sex;
                     QUERY PLAN
----------------------------------------------------------------------------------------------
 Aggregate (cost=371996.44..371996.45 rows=1 width=8)
  -> Index Only Scan using idx_sex_1 on t_sex (cost=0.44..321996.44 rows=20000000 width=2)
(2 rows)

同樣的SQL我們看看在Oracle中效能如何？

建立測試表：

SQL> create table t_sex (sex char(1),otherinfo varchar2(100));

Table created.

SQL> insert into t_sex select 'm',rownum||'this is test' from dual connect by level <=10000000;

10000000 rows created.

SQL> commit;

Commit complete.

SQL> insert into t_sex select 'w',rownum||'this is test' from dual connect by level <=10000000;

10000000 rows created.

SQL> commit;

Commit complete.

效能測試：

SQL> set lines 1000 pages 2000
SQL> set autotrace on
SQL> set timing on

SQL> select count(distinct sex) from t_sex;

COUNT(DISTINCTSEX)
------------------
         2

Elapsed: 00:00:01.58

Execution Plan
----------------------------------------------------------
Plan hash value: 3915432945

----------------------------------------------------------------------------
| Id | Operation     | Name | Rows | Bytes | Cost (%CPU)| Time   |
----------------------------------------------------------------------------
|  0 | SELECT STATEMENT  |    |   1 |   3 | 20132  (1)| 00:00:01 |
|  1 | SORT GROUP BY   |    |   1 |   3 |      |     |
|  2 |  TABLE ACCESS FULL| T_SEX |  14M|  42M| 20132  (1)| 00:00:01 |
----------------------------------------------------------------------------

Note
-----
  - dynamic statistics used: dynamic sampling (level=2)


Statistics
----------------------------------------------------------
     0 recursive calls
     0 db block gets
   74074 consistent gets
     0 physical reads
     0 redo size
    552 bytes sent via SQL*Net to client
    608 bytes received via SQL*Net from client
     2 SQL*Net roundtrips to/from client
     1 sorts (memory)
     0 sorts (disk)
     1 rows processed

SQL> select sex from t_sex t group by sex;

SE
--
m
w

Elapsed: 00:00:01.08

Execution Plan
----------------------------------------------------------
Plan hash value: 3915432945

----------------------------------------------------------------------------
| Id | Operation     | Name | Rows | Bytes | Cost (%CPU)| Time   |
----------------------------------------------------------------------------
|  0 | SELECT STATEMENT  |    |  14M|  42M| 20558  (3)| 00:00:01 |
|  1 | SORT GROUP BY   |    |  14M|  42M| 20558  (3)| 00:00:01 |
|  2 |  TABLE ACCESS FULL| T_SEX |  14M|  42M| 20132  (1)| 00:00:01 |
----------------------------------------------------------------------------

Note
-----
  - dynamic statistics used: dynamic sampling (level=2)


Statistics
----------------------------------------------------------
     0 recursive calls
     0 db block gets
   74074 consistent gets
     0 physical reads
     0 redo size
    589 bytes sent via SQL*Net to client
    608 bytes received via SQL*Net from client
     2 SQL*Net roundtrips to/from client
     1 sorts (memory)
     0 sorts (disk)
     2 rows processed

可以看到Oracle的效能即使不加索引也明顯比PostgreSQL中要好。
那麼我們在PostgreSQL中是不是沒辦法繼續優化了呢？這種情況我們利用pg中的遞迴語句結合索引可以大幅提升效能。

SQL改寫：

bill=# with recursive tmp as (
bill(#  (
bill(#   select min(t.sex) as sex from t_sex t where t.sex is not null
bill(#  )
bill(#  union all
bill(#  (
bill(#   select (select min(t.sex) from t_sex t where t.sex > s.sex and t.sex is not null)
bill(#    from tmp s where s.sex is not null
bill(#  )
bill(# )
bill-# select count(distinct sex) from tmp;
 count
-------
   2
(1 row)

Time: 2.711 ms

檢視執行計劃：

bill=# explain with recursive tmp as (
bill(#  (
bill(#   select min(t.sex) as sex from t_sex t where t.sex is not null
bill(#  )
bill(#  union all
bill(#  (
bill(#   select (select min(t.sex) from t_sex t where t.sex > s.sex and t.sex is not null)
bill(#    from tmp s where s.sex is not null
bill(#  )
bill(# )
bill-# select count(distinct sex) from tmp;
                           QUERY PLAN
----------------------------------------------------------------------------------------------------------------------
 Aggregate (cost=53.62..53.63 rows=1 width=8)
  CTE tmp
   -> Recursive Union (cost=0.46..51.35 rows=101 width=32)
      -> Result (cost=0.46..0.47 rows=1 width=32)
         InitPlan 3 (returns $1)
          -> Limit (cost=0.44..0.46 rows=1 width=2)
             -> Index Only Scan using idx_sex_1 on t_sex t (cost=0.44..371996.44 rows=20000000 width=2)
                Index Cond: (sex IS NOT NULL)
      -> WorkTable Scan on tmp s (cost=0.00..4.89 rows=10 width=32)
         Filter: (sex IS NOT NULL)
  -> CTE Scan on tmp (cost=0.00..2.02 rows=101 width=32)
(11 rows)

Time: 1.371 ms

可以看到執行時間從原先的8000ms降低到了2ms，提升了幾千倍！

甚至對比Oracle，效能也是提升了很多。

但是需要注意的是：這種寫法僅僅是針對稀疏列，換成資料分佈廣泛的欄位，顯然效能是下降的,所以使用遞迴SQL不適合資料分佈廣泛的欄位的group by或者count(distinct)操作。

到此這篇關於PostgreSQL利用遞迴優化求稀疏列唯一值的文章就介紹到這了,更多相關PostgreSQL遞迴優化內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

PostgreSQL利用遞迴優化求稀疏列唯一值的方法

在資料庫中經常會碰到一些表的列是稀疏列，只有很少的值，例如性別欄位，一般就只有2種不同的值。

python利用遞迴方法實現求集合的冪集

什麼是集合的冪集? 就是原集合中所有的子集（bai包括全集du和空集）構成的集族。可數集是zhi最小的無限集；它的冪集和實數dao集一一對應（也稱同勢），是不可數集。

Python遞迴及尾遞迴優化操作例項分析

本文例項講述了Python遞迴及尾遞迴優化操作。分享給大家供大家參考，具體如下：

python遞迴函式求n的階乘,優缺點及遞迴次數設定方式

遞迴函式兩大特點： 1.能夠呼叫函式自身 2.至少有一個出口（結束函式自身呼叫）

遞迴優化與動態規劃

遞迴淺談談及遞迴問題，大家第一印象肯定是漢諾塔問題或者斐波那契數列問題，當然了，如果你是一位LeetCode愛好者，肯定遇到了許多遞迴問題或者遞迴的變形問題。遞迴問題的求解主要是把一個大問題分解為子問題，但在

遞迴：求所需的快遞員最少位數

題目簡介描述：有一快遞配送線路arr[], arr[i]=0時表示無需配送，arr[i]=1時表示需要配送。

利用遞迴實現連結串列的排序（歸併排序）

利用遞迴實現連結串列的排序（歸併排序）利用歸併排序，我們可以將時間複雜度降至O（nlogn), 並且我們是對連結串列進行排序，可以通過修改引用來更改節點順序，無需像陣列一樣開闢而外的空間。

Java 利用遞迴實現連結串列的歸併排序

利用歸併排序，我們可以將時間複雜度降至O（nlogn),並且我們是對連結串列進行排序，可以通過修改引用來更改節點順序，無需像陣列一樣開闢而外的空間。

vue-利用遞迴元件完成一個樹形元件

這裡寫一個利用利用遞迴元件完成一個樹形元件這裡利用ul>li的方式進行基礎

Java實現的利用遞迴和回溯解決Leetcode一道hard難度題

打卡Leetcode每日一題37. 解數獨。題目編寫一個程式，通過已填充的空格來解決數獨問題。一個數獨的解法需要遵循如下規則：

Python尾遞迴優化實現程式碼及原理詳解

在傳統的遞迴中，典型的模式是，你執行第一個遞迴呼叫，然後接著呼叫下一個遞迴來計算結果。這種方式中途你是得不到計算結果，知道所有的遞迴呼叫都返回。這樣雖然很大程度上簡潔了程式碼編寫，但是讓人很難它跟高效

php遞迴優化

php遞迴優化標籤（空格分隔）： php 通用PHP樹類 <?php /** * 通用的樹型類，可以生成任何樹型結構

尾遞迴優化

參考學習： https://www.ruanyifeng.com/blog/2015/04/tail-call.html https://zhuanlan.zhihu.com/p/36587160

JAVA利用遞迴刪除檔案程式碼例項

這篇文章主要介紹了JAVA利用遞迴刪除檔案程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

golang 斐波那契數列遞迴優化

package main import ( \"fmt\" \"time\" ) func main() { // 斐波那契數列 start := time.Now().UnixNano() nRes := fibo(30)

多層次遞迴優化-引用取樹

傳統的多層級結構取數時，我們多數使用遞迴解決問題，但遞迴取數有經驗的人都知道有幾個壞處：一是如果層級過多會導致取數時間非常久，二是資源一直得不到釋放，會佔用大量記憶體。本文旨在給大家分享一下通過引用傳

java利用遞迴實現類別樹示例程式碼

在瀏覽淘寶，京東等各大商場的時候會發現首頁一般都是商品分類，並且這個商品分類都是層級關係。下圖以天貓商場為例，分為了三層的樹狀結構！！！

利用遞迴函式實現5！。

技術標籤：# 刷題遞迴函式C語言利用遞迴函式實現5！。（溫馨提示5！= 5 * 4 * 3 * 2 * 1）

Java File 利用遞迴得到資料夾下所有檔案

技術標籤：Io流java程式人生後端windows大資料 Java File 利用遞迴得到資料夾下所有檔案

Kotlin尾遞迴優化

技術標籤：Kotlin學習kotlin遞迴演算法棧stackoverflow Kotlin尾遞迴優化尾呼叫（Tail Call）是函數語言程式設計的一個重要概念，本文介紹它的含義和用法。

PostgreSQL利用遞迴優化求稀疏列唯一值的方法

相關推薦