Mysql全文索引之-深入理解原理

阿新 • • 發佈：2019-01-25

我們前面介紹過mysql全文檢索的一個外掛Onesql,瞭解了全文檢索

其實Mysql的Innodb引擎預設也是支援全文檢索的，只支援英文。其背後的原理都是倒排索引

本文預設Mysql支援的全文檢索

倒排索引

倒排索引跟B+樹一樣，也是一種資料結構。

一般利用關聯陣列，在輔助表中儲存單詞與文件中所在位置的對映。

-- 建立索引 
CREATE TABLE test(
title VARCHAR(40),
FULLTEXT(title)
);
-- 插入資料
INSERT INTO test
VALUES('Some like it hot, Some like it cold'),
('Some like it in the pot'),
('Nine days old'),
('Pease porridge in the pot'),
('Pease porridage hot, pease porridge cold'),
('Nine days old');

然後檢視一下information_schema下的INNODB_FT_INDEX_TABLE表.如果不允許訪問

就設定一下：SET GLOBAL innodb_ft_aux_table = 'test/test';

然後再檢視一下INNODB_FT_INDEX_TABLE或者INNODB_FT_INDEX_CACHE表

會出現類似的記錄，表明已經建立了對映關係

Innodb採用的是full inverted index的儲存方式。這種方式會佔用更多的空間，因為它不僅會儲存單詞和單詞所在文件的ID，還會儲存單詞所在文件的ID中具體的位置。可以用一個簡單的表格來解釋

Number	Text	Documents
1	cold	(2:31),(6:36)
2	days	(4:5),(7:5)
3	hot	(2:13),(6:16)
4	like	(2:5)

相對的，還有一種儲存方式：inverted file index，只儲存單詞及對應的單詞所在文件。這種理節省空間，但是查詢時，只能根據關鍵字得到相應文件，現進行查詢

分詞

通過上面的例子，我們發現，innodb會把單詞拆分進行儲存，查詢時，根據單詞匹配(預設是英文符號)

但是有一些詞，我們可能是不能索引查詢的，比如'to',這稱之為stopword;

-- 預設停止詞
SELECT * FROM information_schema.INNODB_FT_DEFAULT_STOPWORD;

或者word的字元長度不在innodb_ft_min_token_size到innodb_ft_max_token_size。預設是3-84個字元區間

INSERT INTO test VALUES
-- 90字元
('123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890'),
-- 80字元
('12345678901234567890123456789012345678901234567890123456789012345678901234567890');

插入一個80，90的字元長度，會現在只有80的字元被分詞了：INNODB_FT_INDEX_CACHE表可查，

同理，也只有80的字元記錄被索引

SELECT * FROM test
WHERE MATCH(title) AGAINST('12345678901234567890123456789012345678901234567890123456789012345678901234567890');

當然，也可以定製stopword，可以參考mysql stopwords

檢索模式

Natural Language

上面的例子我們是用的預設的檢索模式，Natural Language模式！表示查詢帶有指定word的文件。下面2種方式是等價的

SELECT * FROM test WHERE MATCH(title) AGAINST('what' in NATURAL LANGUAGE MODE);
SELECT * FROM test WHERE MATCH(title) AGAINST('what');

Boolean

當使用這種模式時，表示字串前後的字元有特殊含義。比如要查詢有Pease單詞的記錄

SELECT * FROM test WHERE MATCH(title) AGAINST('+Pease' in BOOLEAN MODE);

假設，我們需要查詢有Pease，但是沒有hot的記錄呢？用+,-符號，分別表示一定存在，或者一定不存在

SELECT * FROM test WHERE MATCH(title) AGAINST('+Pease -hot' in BOOLEAN MODE);

Mysql全文索引之-深入理解原理

我們前面介紹過mysql全文檢索的一個外掛Onesql,瞭解了全文檢索其實Mysql的Innodb引擎預設也是支援全文檢索的，只支援英文。其背後的原理都是倒排索引本文預設Mysql支援的全文檢索倒排索引倒排索引跟B+樹一樣，也是一種資料結構。一般利用關聯陣列，在輔助表中儲存

mysql全文索引之模糊查詢

http mysql5 var innodb 沒有 null into user 測試數據舊版的MySQL的全文索引只能用在MyISAM表格的char、varchar和text的字段上。不過新版的MySQL5.6.24上InnoDB引擎也加入了全文索引，所以具體信息大家

Oracle模糊查詢之（5.3認識全文索引之全文索引的原理）Oracle全文檢索方面的研究(全) [主文]

參考百度文件： 1、準備流程 1.1檢查和設定資料庫角色首先檢查資料庫中是否有CTXSYS使用者和CTXAPP腳色。如果沒有這個使用者和角色，意味著你的資料庫建立時未安裝intermedia功能。你必須修改資料庫以安裝這項功能。　預設安裝情況下，ctxsys使用者是被鎖定的，因此

反射之深入理解Constructor原理

知其然，知其所以然 0. 前言在上一篇《反射從入門到精通之深入瞭解Class類》，我們深入分析了一下 Class 類的原理。在本篇文章，我們分析一下 Constructor 使用方法的原理。 1. Constructor 通過反射呼叫建構函式有兩種方法：呼叫無參建構函式：Class.newIns

謝煙客---------Linux之深入理解anaconda使用

linux獲取詳細的幫助: 官方文檔: 《Installation Guide》anaconda位置anaconda命令行anaconda配置方式kickstart文件格式kickstart創建基於光盤安裝linuxanaconda位置光盤、ftp、nfs、httpd、nfs**基於光盤，安裝l

Android開發之深入理解泛型extends和super的區別

我想 lis dataset 文檔 cnblogs extend 擦除選擇提前摘要：什麽是泛型？什麽是擦除邊界？什麽是上界限定或下界限定（子類型限定或超類型限定）？什麽是類型安全？泛型extends關和super關鍵字結合通配符?使用的區別，兩種泛型在實際Andro

css之深入理解overflow

com bsp mage overflow log clas 自己 blog info 主要是對大神講解的視頻的總結，我自己是寫不出來什麽東東的 css之深入理解overflow

生產者/消費者模式之深入理解

模板必須 winapi 協議針對 sso 額外 fill 功能實現 #include <windows.h> #include <iostream> const unsigned short SIZE_OF_BUFFER = 2; //緩沖區長

Java多線程之深入理解synchronize關鍵字

tracking 而不是方法獲得 content cal art track () synchronize鎖重入：關鍵字synchronize擁有鎖重入的功能，也就是在使用synchronize時，當一個線程的得到了一個對象的鎖後，再次請求此對象是可以再次得到

讀書筆記之深入理解Java虛擬機器

深入理解Java虛擬機器 2.2 執行時資料區域 2.2.1.程式計數器可以看做是當前執行緒所執行的位元組碼的行號指示器。每個執行緒都需要一個獨立的程式計數器。（這類記憶體區域為"執行緒私有"的記憶體

MySQL全文索引功能

說明自然語言全文索引布林全文索引相關性計算擴充套件查詢官網地址:https://dev.mysql.com/doc/refman/5

【死磕 Spring】----- IOC 之深入理解 Spring IoC

在一開始學習 Spring 的時候，我們就接觸 IoC 了，作為 Spring 第一個最核心的概念，我們在解讀它原始碼之前一定需要對其有深入的認識，本篇為【死磕 Spring】系列部落格的第一篇博文，主要介紹 IoC 基本概念和各個元件。 IOC 理論 Io

MySQL 8.0.12 深入理解bit型別

背景：在阿里巴巴推薦的MySQL建表規範裡要求如下：表達是與否概念的欄位，必須使用 is_xxx 的方式命名，資料型別是 unsigned tinyint （ 1 表示是，0 表示否）。解釋：在MySQL裡表示是和否的概念可以使用如下三種方案： 1.使用bit(1

springboot使用@ControllerAdvice（二）之深入理解

前言：介面類專案開發時，為了便於後期查詢問題，一般會攔截器或過濾器中記錄每個介面請求的引數與響應值記錄，請求引數很容易從request中獲取，但controller的返回值無法從response中獲取，有一個簡單的方法，在controller介面的最後將返回值儲存到request域中，這種方

Java 乾貨之深入理解String

可以證明，字串操作是計算機程式設計中最常見的行為，尤其是在Java大展拳腳的Web系統中更是如此。 ---《Thinking in Java》提到Java中的String,總是有說不完的知識點，它對於剛接觸Java的人來說，有太多太多的值得研究的東西了，可是為什麼Java中的String這麼獨特呢？今天我

Java 乾貨之深入理解Java內部類

可以將一個類定義在另一個類或方法中，這樣的類叫做內部類 --《Thinking in Java》說起內部類，大家並不陌生，並且會經常在例項化容器的時候使用到它。但是內部類的具體細節語法，原理以及實現是什麼樣的可以不少人都還挺陌生，這裡作一篇總結，希望通過這篇總結提高對內部類的認識。內部類是什麼？由文章

Java 乾貨之深入理解Java泛型

一般的類和方法，只能使用具體的型別，要麼是基本型別，要麼是自定義的類。如果要編寫可以應用多中型別的程式碼，這種刻板的限制對程式碼得束縛會就會很大。 ---《Thinking in Java》泛型大家都接觸的不少，但是由於Java 歷史的原因，Java 中的泛型一直被稱為偽泛型,因此對Java中的泛型，有

mysql資料庫備份之mysqldump備份原理及注意事項

關於MySQL熱備，可分為兩種方式：邏輯備份物理備份對於前者，常用的工具是MySQL自帶的mysqldump，對於後者，常用的工具是Percona提供的XtraBackup。對於規模比較小，業務並不繁忙的資料庫，一般都是選擇mysqldump。那麼，mysqldump的

Java基礎之深入理解Class物件與反射機制

深入理解Class物件 RRIT及Class物件的概念 RRIT（Run-Time Type Identification）執行時型別識別。在《Thinking in Java》一書第十四章中有提到，它的功能是在執行時識別物件的型別和類資訊。有兩種主要方式：“傳統的”RTTI（它假定我們在編譯時

介面測試之深入理解HTTPS

前言隨著網路安全問題越來越被重視，HTTPS協議的使用已經逐漸主流化。目前的主流站點均已使用了HTTPS協議；比如：百度、淘寶、京東等一二線主站都已經遷移到HTTPS服務之上。而作為測試人員來講，也要需時俱進對HTTPS協議要有一定的瞭解，這樣就可以更好的幫助我們在工作完成任務和排查問題。 HTTP與T

Mysql全文索引之-深入理解原理

倒排索引

分詞

相關性

檢索模式

Natural Language

Boolean

相關推薦