MySQL索引原理與演算法

阿新 • • 發佈：2018-11-11

B+ 樹索引

B 代表 balance 平衡;

B+ 樹索引通過鍵值（如 id=3 ）並不能直接找到具體的行。它是把行（資料行記錄）所在的頁，讀入記憶體，再從記憶體中查詢，最後得到要找的記錄（資料）。

二分查詢法：（折半查詢法）

首先是有一組排好順序的記錄。如 10， 20，30， 40，50，60，70， 80，90，100

問題是從這樣的一組排好順序的記錄中查詢某一個指定記錄。？

採取的方法是：1. 首先將中間位置的記錄作為比較物件。 2；要找的元素和比較物件比較，如果小於比較物件縮小到左半部分；如果大於比較物件縮小到右半部分。

結論：平均來說二分查詢法比順序查詢法要好，效率高。

二叉樹：/（二叉查詢樹）。

二叉樹有哪些遍歷方法？

前序遍歷：先訪問根結點，再訪問左子樹，再訪問右子樹；

中序遍歷：先訪問左子樹，在父節點，再右子樹；

後序遍歷：先訪問左子樹，再右子樹；最後是訪問根結點；

層序遍歷：先訪問根結點，從上到下逐層遍歷。同一層中從左到右訪問。

二叉排序樹 / 二叉查詢樹。 binary sort tree

它特點1: 左子樹上所有結點的值均小於它的根結點的值；

2. 右子樹上所有結點的值，均大於它的根結點的值；

平衡二叉樹 (Self -Balancing Binary Search Tree) : 首先是一種二叉排序樹；其中每一個結點的左子樹和右子樹的高度差小於等於 1；

維護一個平衡二叉樹，比如插入，更新和刪除操作。這些都是通過左旋或右旋來實現的，這都是開銷。

B+ 樹：是一種平衡查詢樹。葉子結點上從小到大排序順序排序。各個葉子結點使用指標連線。

示意圖： todo;

B+ 樹插入操作： 3種情況； Leaf Page滿； Index Page滿操作表 todo; 有拆頁的可能

旋轉發生在Leaf Page已滿。但是其左右結點沒有滿的情況下，這時 B+樹不急於拆分頁的操作，而是將記錄移到頁的兄弟結點上。

旋轉使B+ 樹減少了一次拆分操作。

B+ 樹的刪除操作。

B+ 樹使用填充因子 fill factor 來控制樹的刪除； /依據填充因子來決定怎麼刪除；填充因子 >= 50%

葉子節點小於填充因子，中間節點小於填充因子，操作三種情況表 todo; 有合併頁的可能。

B+ 樹索引； B+ 樹在資料庫的應用/實現。

B+ 樹索引特點：高扇出性，B+ 樹的高度一般 2-4 層。查詢一行記錄（ID = xxx, ID 是主鍵）最多需要2到4次 IO；假如機械硬碟每秒100次IO，則查詢一次需要時間 0.02——0.04 秒。

B+ 樹索引分為：聚集索引（clustered index) ; 輔助索引（secondary index) / 非聚集索引（non-clustered index);

葉子節點存放資料；聚集索引的葉子節點存放時一整行的資料（完整的記錄）；

聚集索引，中每個葉子節點都是一個頁；葉子節點之間使用雙向連結串列來進行連結。

可以使用 py_innodb_page_info.py 工具來分析表空間。

使用 hexdump 工具來檢視資料。

圖： 5-14 todo;

注意：儲存方式：首先頁不是物理上連續的；通過雙向連結；再者。頁中的記錄也是通過雙向連結串列進行維護的。

聚集索引好處：對主鍵的排序查詢；和範圍查詢查詢速度非常快。

mysql > explain select * from Profile order by id limit 10;

mysql > explain select * from Profile where id > and id < 10000\G;

輔助索引：

葉子節點包含鍵值（索引列欄位值）；還包含 bookmark（主鍵的值）

每張表中可以有多個輔助索引。

例如：通過輔助索引怎麼找到一行資料？

例如：在一棵高度為3的輔助索引樹中查詢資料，首先需要對這顆輔助索引遍歷3次找到指定主鍵，如果

指定的聚集索引樹的高度同樣為 3，那麼還需要對聚集索引樹進行3次查詢。最終找到一個完整的資料行所在的頁。算下來，一共需要6次邏輯IO得到最終的一個數據頁。

例子分析圖 5-16 todo;

B+ 樹索引的分裂（拆分頁）

InnoDB儲存引擎的 Page Header 中有幾個部分來儲存插入的順序資訊。 PAGE_LAST_INSERT PAGE_DIRECTION PAGE_N_DIRECTION

增值插入時分裂點就是插入記錄本身（如果要分裂的話）；其他插入情況暫時不深究。

索引建立和刪除：

兩種方式：

一：

ALTER TABLE tbl_name

ADD {INDEX| KEY } [index_name] [index_type] (index_col_name ,…) [index_option] …

ALTER TABLE tbl_name

DROP PRIMARY KEY

| DROP FOREIGN KEY fk_symbol

| DROP {INDEX| KEY} index_name

二：

CREATE 【UNIQUE | FULLTEXT | SPATIAL ] INDEX index_name

[index_type]

ON tbl_name (index_col_name,…) [index_option] [algorithm_option | lock_option] …

DROP INDEX index_name ON tbl_name [algorithm_option | lock_option] …

algorithm_option :

ALGORITHM [=] {DEFAULT | INPLACE | COPY}

lock_option :

LOCK [=] {DEFAULT |NONE |SHARED | EXCLUSIVE}

檢視索引：

SHOW INDEX FROM tbl_name;

例子：使用者可以設定整個列的資料進行索引，也可以只索引一個列的開頭部分資料，如 b 為 varchar(8000) , 使用者可以只索引前 100個欄位，如：

ALTER TABLE t ADD KEY idx_b (b(100));

SHOW INDEX 結果每一列的含義。

Collation: 列以什麼方式儲存在索引中， B+ 樹總是 A

Cardinality: 索引中唯一值的數目的估計值。；它不是實時更新的，是個大概的值。

優化器會根據 Cardinality 的值來選擇是否使用這個索引。

ANALYZE TABLE 操作會跟新 Cardinality 的值。

對現有的資料表（有很多資料）進行索引的建立或刪除，會造成什麼影響，效率怎麼樣？以前是怎麼做的，現在是怎麼做的？

InnoDB 1.0.x 開始支援快速索引建立 Fast Index Creation 簡稱： FIC。針對的是輔助索引。

對於輔助索引的建立； InnoDB儲存引擎會對建立索引的表加上一個 S 鎖。在建立過程中不需要重新建表。

輔助索引的刪除：更新內部檢視，將輔助索引的空間標記為可讀，同時刪除內部檢視上對該表的索引定義。

主鍵的建立和刪除同樣需要重建一張表。

線上資料定義 Online DDL

MySQL 5.6版本開始支援 Online DDL 線上資料定義操作；允許輔助索引建立的同時，還可以允許其他像 INSERT UPDATE DELETE 這類DML 操作，

這極大地提高了Mysql 資料庫在生成環境中的可用性。

還支援的“線上”操作如：

輔助索引的建立與刪除

改變自增長值

新增或刪除外來鍵約束

列的重新命名。

CREATE 【UNIQUE | FULLTEXT | SPATIAL ] INDEX index_name

[index_type]

ON tbl_name (index_col_name,…) [index_option] [algorithm_option | lock_option] …

ALGORITHM 指定了建立或刪除索引的演算法可以取值如： COPY INPLACE DEFAULT; 預設採用 DEFAULT 方式。

LOCK 建立或刪除索引新增鎖的情況，可以取值如：

NONE, //不加鎖，這種模式可以獲得最大的併發度

SHARE, // S 鎖，併發的讀可以，遇到寫的事務，寫事務就要等待。

EXCLUSIVE, // X 鎖，對目標表加上一個X 鎖。讀寫事務都不能進行。

DEFAULT , // 1, 首先判斷能不能使用 NONE， 2，能不能使用 SHARE , 3 能不能使用 EXCLUSIVE .

Online DDL的原理：在執行建立或刪除操作的同時，將 INSERT ,UPDATE, DELETE, 這類DML操作日誌寫入到一個快取中，等到完成索引建立後，再將重做應用到表上。這個快取預設大小是 128M （由引數 innodb_online_alter_log_max_size 引數控制）。

在索引的建立過程中，SQL 優化器不會選擇正在建立中的索引。

什麼樣的情況下，適合加索引？哪些欄位適合加索引？

像性別，地區，型別欄位，他們的取值範圍很小，低選擇性；所以沒必要加索引

像姓名就可以加索引。

Cardinality/ n_rows_in_table 應儘可能接近1。如果非常小，那麼使用者需要考慮是否有必要加索引。

Cardinality 是怎麼統計的？是怎麼計算的？

統計時通過取樣來完成的； Cardinality統計更新發生在 INSERT 和 UPDATE 。

策略： 1. 表中 1/16 的資料已發生過變化。

2. stat_modified_counter > 2 000 000 000 .

預設取樣數量是 8

當執行SQL 語句：

ANALYZE TABLE;

SHOW TABLE STATUS;

SHOW INDEX;

以及訪問 information_schema 下的表 tables 和 statistics

時，會導致InnoDB 儲存引擎去重複計算索引 Cardinality 值。

如果表中資料量很大，並且表中有多個輔助索引，執行上述操作可能會非常慢。

不同應用中B+ 樹索引的應用？

OLTP 應用一般只從資料庫中取得一小部分資料，一般 10條，這種建立 B+樹索引有意義。

OLAP 應用，都需要訪問大量資料，多是面向分析的查詢。這個時候通常對時間欄位進行索引。因為大多數統計需要根據時間維度來進行資料的篩選。

聯合索引：

create table t(

a int,

b int,

primary key (a),

key idx_a_b (a,b)

)engine = innoDB

圖 5-22 todo;

select * from t where a=xxx and b=xxx //可以使用到索引；

select * from t where b=xxx; //使用不到這棵索引；

select * from t where a=xxx order by b; //可以使用到聯合索引

聯合索引的好處是：已經對第二個鍵值進行了排序處理。例如：

create table buy_log(

userid int unsigned not null,

buy_date date

)engine=InnoDB

alter table buy_log add key(userid);

alter table buy_log add key(userid, buy_date);

select * from buy_log where userid=2;

//分析有兩個索引可以使用；最終選擇的是索引 userid;

select * from buy_log where userid=1 order by buy_date desc limit 3;

//分析可以用使用 userid, (userid, buy_date) 兩個索引；最終選擇了聯合索引 userid_2; 因為聯合索引中buy_date已經排好了，根據聯合索引取出資料，無須對buy_date做一次額外的排序操作。

對 a, b, c新增聯合索引（a, b, c); 如下：

select … from table where a=xxx order by b; //可以使用索引

select … from table where a=xxx and b=xxx order by c; //可以使用索引。

覆蓋索引： / 索引覆蓋（covering index):

從輔助索引中可以得到查詢的話；就不需要查詢聚集索引中的記錄了。使用覆蓋索引的好處是輔助索引中不包含整行記錄的所有資訊），所以大小要遠小於聚集索引，因此可以減少大量的IO操作。

若葉子節點存放的資料為 (primary key1, primary key2, …, key1, key2, ….). 下面語句都可以僅使用一次輔助聯合索引來完成查詢。

select key2 from table where key1=xxx;

select primary key2, key2 from table where key1=xxx;

select primary key1, key2 from table where key1=xxx;

select primary key1, primary key2, key2 from table where key1=xxx;

對於某些統計問題也可以僅使用輔助索引。

如 select count(*) from buy_log; //Extra Using index 代表使優化器進行了覆蓋索引操作。

select count(*) from buy_log where buy_date>=’2011-01-01’ and buy_date<’2011-02-01’; //

//(a, b) 的這種聯合索引，一般是b 作為查詢條件是使用不到索引的，但是如果是統計操作則優化器會進行選擇。

什麼情況下使用不到索引？什麼情況下優化器不使用索引。

多發生在範圍查詢， join連結等情況下。

select * from orderdetails where orderid > 10000 and orderid < 102000;

如果要求訪問的資料量很小，則優化器還是會選擇輔助索引；如果當訪問的資料佔整個表中資料蠻大一部分（20% 左右），優化器會選擇聚集索引來來查詢資料。因為順序讀取的速度遠遠快於離散讀。

索引提示：index hint

以下兩種情況可以用到 index hint

MySQL 資料庫的優化器錯誤地選擇了某個索引。很少見
某個SQL語句可以使用的索引很多，這時查詢優化器執行計劃時間的開銷可能會大於 SQL語句本身。

語法：

USE index 只是告訴優化器可以選擇索引，實際上優化器還是根據自己的判斷進行操作。可以使用 FORCE index 來強制使用索引。

Multi-Range Read 優化 / MRR 優化；（InnoDB MyISAM 都支援）

MySQL 5.6 開始支援 MRR 優化； MRR 適用於 range, ref, eq_ref 型別的查詢。

MRR 的工作原理：/方式：

將查詢得到的輔助索引鍵值存放於一個快取中( 預設 256k)，這時快取中的資料是安裝輔助索引的鍵值進行排序的。
將快取中的鍵值根據 rowID(主鍵ID）進行排序。
根據RowID 的排序順序來訪問實際的資料檔案。

之所以稱為優化，就是因為避免了離散讀取。

select * from salaries where salary > 10000 and salary < 40000;

開不開差 10倍。

Multi-Range Read 還可以將某些範圍查詢，拆分為鍵值對，來進行批量查詢。如：

select * from t where key_part1 >=1000 and key_part1 < 2000 and key_part2 = 10000;

//優化器會將查詢條件拆分為（1000， 1000），（1001， 1000），（1002， 1000）…, (1999, 1000);

總是開啟MRR:

mysql > set @@optimizer_switch=‘mrr=on, mrr_cost_based=off’;

//檢視快取的大小

mysql > select @@read_rnd_buffer_size\G;

Index Condition Pushdown ICP 優化；

msyql5.6 開始支援：開啟 ICP 後，會在取出索引的同時，判斷是否可以進行where 條件的過濾。

ICP 優化支援 range ,ref, eq_ref, ref_or_null 型別的查詢。

如：某表有聯合索引

開啟 ICP 後執行時間的對比表5-5 todo;

雜湊表：

一般來說都將關鍵字轉換為自然樹，然後通過除法散列表。 h(k) = k mod m

例如： innodb_buffer_pool_size 的大小為 10M ，則共有 640個 16KB的頁。對雜湊表來說需要 640 X 2 = 1280個槽，但不是質數，應該是 1399；

在InnoDB 儲存引擎的緩衝池中對於其中的頁是怎麼進行查詢的呢？

關鍵字 K= space_id<<20 + space_id + offset;

自適應雜湊：

hash 索引只能用來搜尋等值的查詢。範圍查詢是不能使用雜湊索引的

select * from table where index_col=‘xxx’;

全文索引【暫時不深入研究】

參考書： MySQL技術內幕：

MySQL索引原理與演算法

MySQL索引原理與演算法

mysql:索引原理與慢查詢優化

MySQL - - 索引原理與慢查詢優化

MySql索引原理與使用大全

MySQL數據庫學習【第九篇】索引原理與慢查詢優化

MySQL 之索引原理與慢查詢優化

mysql五:索引原理與慢查詢優化

MySQL（索引原理與慢查詢優化）

mysql之索引原理與慢查詢優化

重新學習Mysql資料庫5：根據MySQL索引原理進行分析與優化

MySQL索引原理及慢查詢優化（轉）

MySQL索引原理及慢查詢優化-zz

mysql索引原理剖析

MySQL 索引原理相關文章

MySQL索引原理以及查詢優化

MySQL執行原理與基礎架構細說

MySQL索引原理及BTree（B-/+Tree）結構詳解

mysql 索引建立與使用

006 --MySQL索引原理

MySQL索引原理

MySQL索引原理與演算法

相關推薦