MySQL全文索引實現簡單版搜尋引擎例項程式碼

阿新 • • 發佈：2020-01-09

前言

只有Innodb和myisam儲存引擎能用全文索引（innodb支援全文索引是從mysql5.6開始的）
char、varchar、text型別欄位能建立全文索引（fulltext index type）
全文索引的基於關鍵詞的，如何區分不同的關鍵詞了，就要用到分詞（stopword）
英文單詞用空格，逗號進行分詞；中文分詞不方便（一個句子不知道怎樣區分不同的關鍵詞）
內建分詞解析器ngram支援中文，日文，韓文（將句子分成固定數字的短語）
當對錶寫入大量資料時，寫入資料後再建立全文索引的速度更快（減少了維護索引的開銷）
全文索引的原理的倒排索引（一種資料結構），一般利用關聯陣列，在輔助表中儲存單詞與文件中所在位置的對映

使用

用MATCH() ... AGAINST 方式來進行搜尋

match()表示搜尋的是那個列，against表示要搜尋的是那個字串

檢視預設的分詞（以這些詞來區分不同的關鍵詞）；也可以自定義分詞，以這些詞來區分不同的關鍵詞

SELECT * FROM information_schema.INNODB_FT_DEFAULT_STOPWORD;

如

+-------+ 
| value | 
+-------+ 
| a   | 
| about | 
| an  | 
| are  | 
| as  | 
| at  | 
| be  | 
| by  | 
| com  | 
| de  | 
| en  | 
| for  | 
| from |

三種類型的全文搜尋方式

natural language search（自然語言搜尋）

通過MATCH AGAINST 傳遞某個特定的字串來進行檢，預設方式

boolean search（布林搜尋）

為檢索的字串增加操作符，如“+”表示必須包含，"-"不包含，"*" 表示萬用字元，即使傳遞的字串較小或出現在停詞中，也不會被過濾掉

query expansion search（查詢擴充套件搜尋）

搜尋字串用於執行自然語言搜尋，然後，搜尋返回的最相關行的單詞被新增到搜尋字串，並且再次進行搜尋，查詢將返回來自第二個搜尋的行

相關引數

配置相關引數

innodb_ft_min_token_size

預設3，表示最小3個字元作為一個關鍵詞，增大該值可減少全文索引的大小

innodb_ft_max_token_size

預設84，表示最大84個字元作為一個關鍵詞，限制該值可減少全文索引的大小

ngram_token_size

預設2，表示2個字元作為內建分詞解析器的一個關鍵詞，如對“abcd”建立全文索引，關鍵詞為'ab'，'bc'，'cd'
當使用ngram分詞解析器時，innodb_ft_min_token_size和innodb_ft_max_token_size 無效

注意這三個引數均不可動態修改，修改了這些引數，需重啟MySQL服務，並重新建立全文索引

測試innodb引擎使用全文索引

準備

1、目標

查詢文章中是否含有某個關鍵詞；一系列文章出現某個關鍵詞的次數
查詢文章的標題是否含有某個關鍵詞

2、設定以下引數減少磁碟IO壓力

SET GLOBAL sync_binlog=100;
SET GLOBAL innodb_flush_log_at_trx_commit=2;

3、匯入1kw 資料進行測試全文索引

該資料來源網上搜索

提取碼：iyip

4、某個文章表的結構

CREATE TABLE `article` (
 `id` bigint(10) NOT NULL,`url` varchar(1024) CHARACTER SET latin1 NOT NULL DEFAULT '',`title` varchar(256) NOT NULL DEFAULT '',`source` varchar(32) DEFAULT '' COMMENT '真實來源',`keywords` varchar(32) DEFAULT NULL,`publish_time` timestamp NULL DEFAULT NULL,PRIMARY KEY (`id`),KEY `title_idx` (`title`)
) ENGINE=InnoDB

使用myloader 多執行緒匯入測試資料

先把測試資料進行解壓
tar -zxf mydumper_dump_article.tar.gz
time myloader -u $user -p $passwd -S $socket -t 32 -d /datas/dump_article -v 3

5、匯入資料後總資料量和資料檔案、索引檔案大小

SELECT COUNT(*) FROM `article`;
+----------+
| COUNT(*) |
+----------+
| 10000000 |
+----------+
1 row in set (7.85 sec)

SELECT   table_name,CONCAT(FORMAT(SUM(data_length) / 1024 / 1024,2),'M') AS dbdata_size,CONCAT(FORMAT(SUM(index_length) / 1024 / 1024,'M') AS dbindex_size,CONCAT(FORMAT(SUM(data_length + index_length) / 1024 / 1024 / 1024,'G') AS `db_size(G)`,AVG_ROW_LENGTH,table_rows,update_time FROM  information_schema.tables WHERE table_schema = DATABASE() and table_name='article';
+------------+-------------+--------------+------------+----------------+------------+---------------------+
| table_name | dbdata_size | dbindex_size | db_size(G) | AVG_ROW_LENGTH | table_rows | update_time     |
+------------+-------------+--------------+------------+----------------+------------+---------------------+
| article  | 3,710.00M  | 1,003.00M  | 4.60G   |      414 |  9388739 | 2019-07-05 15:31:37 |
+------------+-------------+--------------+------------+----------------+------------+---------------------+

使用預設方式建立全文索引

1、該表已有關鍵詞欄位（對文章內容的簡述），並以“,”作為分詞符

select keywords from article limit 10;
+-------------------------------------------------+
| keywords                    |
+-------------------------------------------------+
| NULL                      |
| NULL                      |
|,婚姻,愛情                   |
| 髮型,偏分,化妝,時尚               |
| 小A,|
|,服裝搭配,女性,時尚               |
| 漂亮,女性                    |
| 情人節,東莞,女性                |
| 面板,護膚,食品營養,美容,養生        |
| 三里屯,北京,時尚                |
+-------------------------------------------------+

2、不建全文索引時搜尋某個關鍵詞

需要進行全表掃描

select count(*) from article where keywords like '%時尚%';
+----------+
| count(*) |
+----------+
|   163 |
+----------+
1 row in set (7.56 sec)

3、對關鍵詞欄位建立全文索引（以,作為分詞）

my.cnf配置檔案中設定innodb_ft_min_token_size，並重啟MySQL服務（最小兩個字元作為一個關鍵詞，預設三個字元作為一個關鍵詞）

[mysqld]
innodb_ft_min_token_size=2

3.1 設定自定義stopwords（即分詞）

USE mysql;
CREATE TABLE my_stopwords(VALUE VARCHAR(30)) ENGINE = INNODB;
INSERT INTO my_stopwords(VALUE) VALUE (',');
SET GLOBAL innodb_ft_server_stopword_table = 'mysql/my_stopwords';

SHOW GLOBAL VARIABLES WHERE Variable_name IN('innodb_ft_min_token_size','innodb_ft_server_stopword_table');
+---------------------------------+--------------------+
| Variable_name          | Value       |
+---------------------------------+--------------------+
| innodb_ft_min_token_size    | 2         |
| innodb_ft_server_stopword_table | mysql/my_stopwords |
+---------------------------------+--------------------+

3.2 建立全文索引

alter table article add fulltext index idx_full_keyword(keywords);
* [ ] Query OK,0 rows affected,1 warning (1 min 27.92 sec)
* [ ] Records: 0 Duplicates: 0 Warnings: 1

3.3 剩餘磁碟空間需足夠，原表4.6G，剩餘5.7G磁碟，新增全文索引也會失敗

df -h
Filesystem      Size Used Avail Use% Mounted on
/dev/vda1       7.8G 6.3G 1.2G 85% /
tmpfs         1.9G   0 1.9G  0% /dev/shm
/dev/mapper/vg_opt-lvol0
            19G  12G 5.7G 68% /datas

會建立原表大小的臨時檔案
 8.6K Jul 5 16:19 #sql-5250_3533.frm
 4.4G Jul 5 16:20 #sql-ib117-1768830977.ibd


alter table article add fulltext index idx_full_keyword(keywords);
ERROR 1114 (HY000): The table 'article' is full

3.4 利用建立的全文索引進行查詢某個關鍵詞出現的次數

查詢響應時間有了很大的提升，只需0.05s；使用where keywords like '%時尚%' 需要7.56s

select count(*) from article where match(keywords) against('%時尚%');
+----------+
| count(*) |
+----------+
|   163 |
+----------+
1 row in set (0.05 sec)

3.5 如需同時完全匹配多個關鍵詞，用布林全文搜尋

表示完全匹配 "三里屯,北京" 的記錄數
select count(*) from article where match(keywords) against('+三里屯,北京' in boolean mode);
+----------+
| count(*) |
+----------+
|    1 |
+----------+
1 row in set (0.06 sec)

表示匹配“三里屯” 或者 “北京”的記錄數
select count(*) from article where match(keywords) against('三里屯,北京');
+----------+
| count(*) |
+----------+
|    8 |
+----------+
1 row in set (0.06 sec)

3.6 建立全文索引後，會建立一些其它檔案

96K Jul 5 16:30 FTS_00000000000000a7_00000000000000c0_INDEX_1.ibd
96K Jul 5 16:30 FTS_00000000000000a7_00000000000000c0_INDEX_2.ibd
96K Jul 5 16:30 FTS_00000000000000a7_00000000000000c0_INDEX_3.ibd
96K Jul 5 16:30 FTS_00000000000000a7_00000000000000c0_INDEX_4.ibd
128K Jul 5 16:30 FTS_00000000000000a7_00000000000000c0_INDEX_5.ibd
256K Jul 5 16:30 FTS_00000000000000a7_00000000000000c0_INDEX_6.ibd
96K Jul 5 16:29 FTS_00000000000000a7_BEING_DELETED_CACHE.ibd
96K Jul 5 16:29 FTS_00000000000000a7_BEING_DELETED.ibd
96K Jul 5 16:30 FTS_00000000000000a7_CONFIG.ibd
96K Jul 5 16:29 FTS_00000000000000a7_DELETED_CACHE.ibd
96K Jul 5 16:29 FTS_00000000000000a7_DELETED.ibd
- 前6個表示倒排索引（輔助索引表）
- 第7，8個表示包含已刪除文件的文件ID（DOC_ID），其資料當前正在從全文索引中刪除
- 第9個表示FULLTEXT索引內部狀態的資訊
- 第10，11個表示包含已刪除但尚未從全文索引中刪除其資料的文件

使用ngram分詞解析器建立全文索引

1、對title欄位建立全文索引（該欄位沒有固定的stopwords 分詞，使用ngram分詞解析器）

需先在my.cnf 配置檔案中設定ngram_token_size（預設為2，2個字元作為ngram 的關鍵詞），並重啟mysql服務
這裡使用預設的 2

select title from article limit 10;
+------------------------------------------------------------------------------+
| title                                    |
+------------------------------------------------------------------------------+
| worth IT                                  |
|Launchpad 江南皮革廠小show                         |
|Raw 幕後罕見一刻 “瘋子”被抬回後臺                      |
|Raw:公子大罵老爸你就是個綠茶 公子以一打四                 |
|四組30平米精裝小戶型，海量圖片，附戶型圖                  |
|夜店女王性感煙燻貓眼妝                           |
|大秀哥重摔“巨石”強森                            |
|少女時代 崔秀英 服飾科普 林允兒 黃美英 金泰妍 鄭秀晶            |                       
|德陽戶外踏青，花田自助燒烤                         |
+------------------------------------------------------------------------------+

2、對title欄位建立全文索引

alter table article add fulltext index ft_index_title(title) with parser ngram;
Query OK,0 rows affected (3 min 29.22 sec)
Records: 0 Duplicates: 0 Warnings: 0

3、會建立倒排索引（title欄位越長長，建立的倒排索引越大）

112M Jul 5 21:46 FTS_00000000000000a7_00000000000000cd_INDEX_1.ibd
28M Jul 5 21:46 FTS_00000000000000a7_00000000000000cd_INDEX_2.ibd
20M Jul 5 21:46 FTS_00000000000000a7_00000000000000cd_INDEX_3.ibd
140M Jul 5 21:46 FTS_00000000000000a7_00000000000000cd_INDEX_4.ibd
128M Jul 5 21:46 FTS_00000000000000a7_00000000000000cd_INDEX_5.ibd
668M Jul 5 21:46 FTS_00000000000000a7_00000000000000cd_INDEX_6.ibd

4、不建立全文索引搜尋title的某個關鍵詞

select count(*) from article where title like '%戶外%';
+----------+
| count(*) |
+----------+
|  22058 |
+----------+
1 row in set (8.60 sec)

select count(*) from article where title like '%後臺%';
+----------+
| count(*) |
+----------+
|   1142 |
+----------+

5、使用全文索引搜尋某個關鍵詞

響應時間有很大的提升

select count(*) from article where match(title) against('戶外');
+----------+
| count(*) |
+----------+
|  22058 |
+----------+
1 row in set (0.07 sec)

select count(*) from article where title like '%後臺%';
+----------+
| count(*) |
+----------+
|   1142 |
+----------+
1 row in set (8.31 sec)

6、注意當搜尋的關鍵詞字元數大於2 （ngram_token_size定義大小）會出現不一致問題

普通搜尋，實際中出現該關鍵詞的記錄數為6
select count(*) from article where title like '%公子大%';
+----------+
| count(*) |
+----------+
|    6 |
+----------+
1 row in set (8.40 sec)

全文搜尋，出現關鍵字的記錄數為9443
select count(*) from article where match(title) against('公子大');
+----------+
| count(*) |
+----------+
|   9443 |
+----------+
1 row in set (0.06 sec)

實際出現該關鍵字的記錄數為1
select count(*) from article where title like '%花田自助%';
+----------+
| count(*) |
+----------+
|    1 |
+----------+
1 row in set (8.33 sec)

全文搜尋出現該關鍵詞的記錄數為3202
select count(*) from article where match(title) against('花田自助');
+----------+
| count(*) |
+----------+
|   3202 |
+----------+
1 row in set (0.06 sec)

結論

當mysql 某欄位中有固定的stopword 分詞（英文的空格符，中文的“,”"-"等），對該欄位建立全文索引，能快速搜尋出現某個關鍵詞的相關記錄資訊，實現簡單搜尋引擎的效果
當mysql 某欄位沒有固定的stopword 分詞，使用內建解析器ngram 可將欄位值分成固定數量（ngram_token_size定義大小）的關鍵詞快速進行搜尋；當搜尋的關鍵詞的字元數量不等於ngram_token_size定義大小時，會出現與實際情況不一致的問題
全文索引能快速搜尋，也存在維護索引的開銷；欄位長度越大，建立的全文索引也越大，會影響DML語句的吞吐量，可用專門的全文搜尋引擎ES來做這件事

參考

InnoDB FULLTEXT Indexes

總結

以上就是這篇文章的全部內容了，希望本文的內容對大家的學習或者工作具有一定的參考學習價值，謝謝大家對我們的支援。

MySQL全文索引實現簡單版搜尋引擎例項程式碼

前言只有Innodb和myisam儲存引擎能用全文索引（innodb支援全文索引是從mysql5.6開始的）

Python3實現mysql連線和資料框的形成(例項程式碼)

Python3實現mysql連線和資料框的形成，具體程式碼如下所示： # -*- coding:utf-8 -*- # __author__ = \"LQ\"

MySQL全文索引、聯合索引、like查詢、json查詢速度哪個快

查詢背景有一個表tmp_test_course大概有10萬條記錄，然後有個json欄位叫outline，存了一對多關係(儲存了多個編碼，例如jy1577683381775)

python實現簡單的購物程式程式碼例項

需求: 啟動程式後，讓使用者輸入工資，然後列印商品列表允許使用者根據商品編號購買商品

基於python實現簡單C/S模式程式碼例項

C/S模式就是指客bai戶端/伺服器模式，du是計算機軟體協同工作的一種模式。zhi

MySQL 全文索引的原理與缺陷

MySQL全文索引一種特殊的索引，它會把某個資料表的某個資料列出現過的所有單詞生成一份清單。

Mysql全文索引的使用

前言在MySQL 5.6版本以前,只有MyISAM儲存引擎支援全文引擎.在5.6版本中,InnoDB加入了對全文索引的支援,但是不支援中文全文索引.在5.7.6版本,MySQL內建了ngram全文解析器,用來支援亞洲語種的分詞.

深度解析 Lucene 輕量級全文索引實現原理

Lucene的相關使用心得，內容涵蓋索引的生成、管理及搜尋功能等內容。本文介紹了在輕量級的資料搜尋中，深度解析Lucene如何實現全文索引。

用ELK分析每天4億多條騰訊雲MySQL審計日誌(4)--MySQL全文索引

前言：該文章將會介紹以下： 1，MySQL全文索引的使用 2，全文索引STOPWORD 3，使用全文索引的高效和準確

mysql全文索引

最近在複習資料庫索引部分，看到了 fulltext，也即全文索引，雖然全文索引在平時的業務中用到的不多，但是感覺它有點兒意思，所以花了點時間研究一下，特此記錄。

mysql索引實現原理 MySQL的索引實現原理

MySQL的索引實現原理 MySQL資料庫索引總結1. 使用索引的原由2. 資料結構：Hash、平衡二叉樹、B樹、B+樹區別3. 機械硬碟、固態硬碟區別4. Myisam與Innodb B+樹的區別5. MySQL中的索引什麼資料結構6. B+樹中的

java 實現簡單聖誕樹的示例程式碼(聖誕節快樂）

程式碼如下： @Test public void shengdanshu(){ //葉子層 int level = 10; //根層 int rootLevel = 2;

Android碎片fragment實現靜態載入的例項程式碼

靜態載入好後的介面如下，兩個碎片分別位於一個活動的左邊和右邊：左邊和右邊分別為一個碎片，這兩個碎片正好將一整個活動佈滿。一個活動當中可以擁有多個碎片，碎片的含義就是可以在同一個UI介面下，將這個介面分

C++貪心演算法實現活動安排問題(例項程式碼)

貪心演算法貪心演算法（又稱貪婪演算法）是指，在對問題求解時，總是做出在當前看來是最好的選擇。也就是說，不從整體最優上加以考慮，他所做出的是在某種意義上的區域性最優解。

如何批量生成MySQL不重複手機號大表例項程式碼

前言在MySQL很多測試場景，需要人工生成一些測試資料來測試。本文提供一個構造MySQL大表儲存過程，可以生成包含使用者名稱，手機號碼，出生日期等欄位。也可以通過濾重來使得手機號碼不重複，模擬現實場景。

mysql中的一些稍微複雜用法例項程式碼

前言 mysql的語法相信對大家來說都不是難事，但是本文主要給分享了一些mysql複雜用法的相關內容，通過這篇文章相信大家會對mysql更深的瞭解一些，下面話不多說了，來一起看看詳細的介紹吧

Redis Template實現分散式鎖的例項程式碼

前言分散式鎖一般有三種實現方式：1. 資料庫樂觀鎖；2. 基於Redis的分散式鎖；3. 基於ZooKeeper的分散式鎖。本篇部落格將介紹第二種方式，基於Redis實現分散式鎖。雖然網上已經有各種介紹Redis分散式鎖實現的部落格

python與sqlite3實現解密chrome cookie例項程式碼

本文研究的主要問題：有一個解密chrome cookie的事情，google出了程式碼，卻不能正常執行，原因在於sqlite3的版本太低，雖然我切換到了python3.5的環境，但sqlite3的版本也只有3.6。

python3.6連線MySQL和表的建立與刪除例項程式碼

本文主要研究的是python3.6連線MySQL和表的建立與刪除的相關內容，具體步驟和程式碼如下。

Python實現搜尋演算法的例項程式碼

將資料儲存在不同的資料結構中時，搜尋是非常基本的必需條件。最簡單的方法是遍歷資料結構中的每個元素，並將其與您正在搜尋的值進行匹配。這就是所謂的線性搜尋。它效率低下，很少使用，但為它建立一個程式給出了我

MySQL全文索引實現簡單版搜尋引擎例項程式碼

相關推薦