1. 程式人生 > >PostgreSQL給模糊搜尋加索引

PostgreSQL給模糊搜尋加索引

PostgrSQL有個模組叫pg_trgm,可以對字串來進行比較相似度,並通過加GIST或者GIN索引來達到提速的效果。在一般的RDBMS中這種需求都會進行全表掃描的,但是PG如果加了這個模組,在一定場景下就可以使用索引來提速了。

一、背景
我們有一個需求根據人員的拼音碼(或者藥品的拼音碼)進行搜尋,因為拼音碼不一定是全的,故通常給的方案是模糊搜尋,在拼音碼的首尾兩端各加一個百分號,但是效率通常很慢,一般情況下也不建議這麼做。

二、環境
OS:CentOS 6.5
DB:PostgreSQL 9.3

三、步驟
1.因為DB是通過原始碼編譯的,所以建立很簡單,只要新增一個擴充套件

his=# create extension pg_trgm;
CREATE EXTENSION

2.新增索引 在新增索引前,先比較一下兩者的查詢消耗和速度

his=# select count(1) from tbl_user;
  count  
---------
 1008215
(1 row)

his=# explain analyze select 1 from tbl_user where user_spell like '%CYL%';
                                                 QUERY PLAN                                      --------------------------------------------------------------------------------------------
 Seq Scan on tbl_user  (cost=0.00..35156.69 rows=82 width=0) (actual time=0.357..693.233 rows=1021 loops=1)
   Filter: ((user_spell)::text ~~ '%CYL%'::text)
   Rows Removed by Filter: 1007194
 Total runtime: 1193.699 ms
(4 rows)

--加了索引後的查詢,提高了近10倍

his=# create index idx_user_spell on tBL_user using gist (user gist_trgm_ops);
CREATE INDEX
his=# explain analyze  select 1 from tbl_user where user_spell like '%CYL%';
                                                          QUERY PLAN                             ---------------------------------------------------------------------------------------------
 Bitmap Heap Scan on tbl_user  (cost=4.92..319.11 rows=82 width=0) (actual time=117.652..120.849 rows=1021 loops=1)
   Recheck Cond: ((user_spell)::text ~~ '%CYL%'::text)
   Rows Removed by Index Recheck: 2
   ->  Bitmap Index Scan on idx_user_spell  (cost=0.00..4.90 rows=82 width=0) (actual time=117.291..117.291 rows=1023 loops=1)
         Index Cond: ((user_spell)::text ~~ '%CYL%'::text)
 Total runtime: 121.098 ms
(6 rows)

四、說明
可以看出來模糊搜尋也走了索引,速度有了很大提升,COST也減小很多。這個模組在官網上可以看到有幾個自帶的函式,主要示例如下:
1.similarity(text,text)
這個函式是用來比較兩個字串的相近程度的,取值範圍在0-1之間,完全相同為1,完全不同則為0

his=# select similarity('123','789');
 similarity 
------------
          0
(1 row)

his=# select similarity('123','123');
 similarity 
------------
          1
(1 row)

his=# select similarity('123','12345');
 similarity 
------------
        0.428571
(1 row)

--和相似度相反的是他的操作符<->,這個操作符表示的是兩組字串的一個距離,如果是一樣的,則是重合的,距離為0,如果完全不同,則為1,演算法實際就是1減去上面這個相似值,比如以下例子:
his=# select '123'<->'123','123'<->'12345','123'<->'678';
 ?column? | ?column? | ?column? 
----------+----------+----------
        0 | 0.571429 |        1
(1 row)

2.show_trgm(text) 這個函式返回的一串字元陣列,有點類似於全文檢索的分詞,可以用這個函式來做一些Debug

his=# select show_trgm('123'),show_trgm('1234');
        show_trgm        |          show_trgm          
-------------------------+-----------------------------
 {"  1"," 12",123,"23 "} | {"  1"," 12",123,234,"34 "}
(1 row)

--上面的相似度就是用的這個分詞分出來的,比如123和1234,相同的值有3個,總的不同值有6個,所以相似度是3/6=0.5

--這個函式可以看出對字元數字能有些進行切割,但是對漢字暫時還無能為力,有一定的限制
his=# select show_trgm('中國人民'),show_trgm('中國人民12');
 show_trgm |      show_trgm      
-----------+---------------------
 {}        | {"  1"," 12","12 "}
(1 row)

his=# select similarity('中國人','日本'),similarity('中國人','中國人');
 similarity | similarity 
------------+------------
          0 |          0
(1 row)

五、優點與不足
1.使用這個模組可以對需要使用模糊檢索字串的資料進行加索引提速
2.對字母或數字的相似度比較較為滿意,對漢字還不支援
3.如果模糊檢索的資料結果集較大,執行速度可能比較慢,比如只搜尋一個字母匹配的 %C%