PostgreSQL給模糊搜尋加索引
阿新 • • 發佈:2018-11-25
PostgrSQL有個模組叫pg_trgm,可以對字串來進行比較相似度,並通過加GIST或者GIN索引來達到提速的效果。在一般的RDBMS中這種需求都會進行全表掃描的,但是PG如果加了這個模組,在一定場景下就可以使用索引來提速了。
一、背景
我們有一個需求根據人員的拼音碼(或者藥品的拼音碼)進行搜尋,因為拼音碼不一定是全的,故通常給的方案是模糊搜尋,在拼音碼的首尾兩端各加一個百分號,但是效率通常很慢,一般情況下也不建議這麼做。
二、環境
OS:CentOS 6.5
DB:PostgreSQL 9.3
三、步驟
1.因為DB是通過原始碼編譯的,所以建立很簡單,只要新增一個擴充套件
his=# create extension pg_trgm;
CREATE EXTENSION
2.新增索引 在新增索引前,先比較一下兩者的查詢消耗和速度
his=# select count(1) from tbl_user; count --------- 1008215 (1 row) his=# explain analyze select 1 from tbl_user where user_spell like '%CYL%'; QUERY PLAN -------------------------------------------------------------------------------------------- Seq Scan on tbl_user (cost=0.00..35156.69 rows=82 width=0) (actual time=0.357..693.233 rows=1021 loops=1) Filter: ((user_spell)::text ~~ '%CYL%'::text) Rows Removed by Filter: 1007194 Total runtime: 1193.699 ms (4 rows)
--加了索引後的查詢,提高了近10倍
his=# create index idx_user_spell on tBL_user using gist (user gist_trgm_ops); CREATE INDEX his=# explain analyze select 1 from tbl_user where user_spell like '%CYL%'; QUERY PLAN --------------------------------------------------------------------------------------------- Bitmap Heap Scan on tbl_user (cost=4.92..319.11 rows=82 width=0) (actual time=117.652..120.849 rows=1021 loops=1) Recheck Cond: ((user_spell)::text ~~ '%CYL%'::text) Rows Removed by Index Recheck: 2 -> Bitmap Index Scan on idx_user_spell (cost=0.00..4.90 rows=82 width=0) (actual time=117.291..117.291 rows=1023 loops=1) Index Cond: ((user_spell)::text ~~ '%CYL%'::text) Total runtime: 121.098 ms (6 rows)
四、說明
可以看出來模糊搜尋也走了索引,速度有了很大提升,COST也減小很多。這個模組在官網上可以看到有幾個自帶的函式,主要示例如下:
1.similarity(text,text)
這個函式是用來比較兩個字串的相近程度的,取值範圍在0-1之間,完全相同為1,完全不同則為0
his=# select similarity('123','789');
similarity
------------
0
(1 row)
his=# select similarity('123','123');
similarity
------------
1
(1 row)
his=# select similarity('123','12345');
similarity
------------
0.428571
(1 row)
--和相似度相反的是他的操作符<->,這個操作符表示的是兩組字串的一個距離,如果是一樣的,則是重合的,距離為0,如果完全不同,則為1,演算法實際就是1減去上面這個相似值,比如以下例子:
his=# select '123'<->'123','123'<->'12345','123'<->'678';
?column? | ?column? | ?column?
----------+----------+----------
0 | 0.571429 | 1
(1 row)
2.show_trgm(text) 這個函式返回的一串字元陣列,有點類似於全文檢索的分詞,可以用這個函式來做一些Debug
his=# select show_trgm('123'),show_trgm('1234');
show_trgm | show_trgm
-------------------------+-----------------------------
{" 1"," 12",123,"23 "} | {" 1"," 12",123,234,"34 "}
(1 row)
--上面的相似度就是用的這個分詞分出來的,比如123和1234,相同的值有3個,總的不同值有6個,所以相似度是3/6=0.5
--這個函式可以看出對字元數字能有些進行切割,但是對漢字暫時還無能為力,有一定的限制
his=# select show_trgm('中國人民'),show_trgm('中國人民12');
show_trgm | show_trgm
-----------+---------------------
{} | {" 1"," 12","12 "}
(1 row)
his=# select similarity('中國人','日本'),similarity('中國人','中國人');
similarity | similarity
------------+------------
0 | 0
(1 row)
五、優點與不足
1.使用這個模組可以對需要使用模糊檢索字串的資料進行加索引提速
2.對字母或數字的相似度比較較為滿意,對漢字還不支援
3.如果模糊檢索的資料結果集較大,執行速度可能比較慢,比如只搜尋一個字母匹配的 %C%