為什麼我使用了索引，查詢還是慢？

阿新 • • 發佈：2020-08-11

案例剖析　

言歸正傳，為了實驗，我建立瞭如下表：

CREATETABLE`T`(
`id`int(11)NOTNULL,
`a`int(11)DEFAUTNULL,
PRIMARYKEY(`id`),
KEY`a`(`a`)
)ENGINE=InnoDB;

該表有三個欄位，其中用id是主鍵索引，a是普通索引。

首先SQL判斷一個語句是不是慢查詢語句，用的是語句的執行時間。他把語句執行時間跟long_query_time這個系統引數作比較，如果語句執行時間比它還大，就會把這個語句記錄到慢查詢日誌裡面，這個引數的預設值是10秒。當然在生產上，我們不會設定這麼大，一般會設定1秒，對於一些比較敏感的業務，可能會設定一個比1秒還小的值。

語句執行過程中有沒有用到表的索引，可以通過explain一個語句的輸出結果來看KEY的值不是NULL。

我們看下explain select * from t;的KEY結果是NULL

　　（圖一）

explain select * from t where id=2;的KEY結果是PRIMARY，就是我們常說的使用了主鍵索引

　（圖二）

explain select a from t;的KEY結果是a，表示使用了a這個索引。

　（圖三）

雖然後兩個查詢的KEY都不是NULL，但是最後一個實際上掃描了整個索引樹a。

假設這個表的資料量有100萬行，圖二的語句還是可以執行很快，但是圖三就肯定很慢了。如果是更極端的情況，比如，這個資料庫上CPU壓力非常的高，那麼可能第2個語句的執行時間也會超過long_query_time，會進入到慢查詢日誌裡面。

所以我們可以得出一個結論：是否使用索引和是否進入慢查詢之間並沒有必然的聯絡。使用索引只是表示了一個SQL語句的執行過程，而是否進入到慢查詢是由它的執行時間決定的，而這個執行時間，可能會受各種外部因素的影響。換句話來說，使用了索引你的語句可能依然會很慢。

全索引掃描的不足

那如果我們在更深層次的看這個問題，其實他還潛藏了一個問題需要澄清，就是什麼叫做使用了索引。

我們都知道，InnoDB是索引組織表，所有的資料都是儲存在索引樹上面的。比如上面的表t，這個表包含了兩個索引，一個主鍵索引和一個普通索引。在InnoDB裡，資料是放在主鍵索引裡的。如圖所示：

可以看到資料都放在主鍵索引上，如果從邏輯上說，所有的InnoDB表上的查詢，都至少用了一個索引，所以現在我問你一個問題，如果你執行select from t where id>0

，你覺得這個語句有用上索引嗎？

我們看上面這個語句的explain的輸出結果顯示的是PRIMARY。其實從資料上你是知道的，這個語句一定是做了全面掃描。但是優化器認為，這個語句的執行過程中，需要根據主鍵索引，定位到第1個滿足ID>0的值，也算用到了索引。

所以即使explain的結果裡寫的KEY不是NULL，實際上也可能是全表掃描的，因此InnoDB裡面只有一種情況叫做沒有使用索引，那就是從主鍵索引的最左邊的葉節點開始，向右掃描整個索引樹。

也就是說，沒有使用索引並不是一個準確的描述。

你可以用全表掃描來表示一個查詢遍歷了整個主鍵索引樹；
也可以用全索引掃描，來說明像select a from t;這樣的查詢，他掃描了整個普通索引樹；
而select * from t where id=2這樣的語句，才是我們平時說的使用了索引。他表示的意思是，我們使用了索引的快速搜尋功能，並且有效的減少了掃描行數。

索引的過濾性要足夠好

根據以上解剖，我們知道全索引掃描會讓查詢變慢，接下來就要來談談索引的過濾性。

假設你現在維護了一個表，這個表記錄了中國14億人的基本資訊，現在要查出所有年齡在10~15歲之間的姓名和基本資訊，那麼你的語句會這麼寫，select * from t_people where age between 10 and 15。

你一看這個語句一定要在age欄位上開始建立索引了，否則就是個全面掃描，但是你會發現，在你建立索引以後，這個語句還是執行慢，因為滿足這個條件的資料可能有超過1億行。

我們來看看建立索引以後，這個表的組織結構圖：

這個語句的執行流程是這樣的:

從索引上用樹搜尋，取到第1個age等於10的記錄，得到它的主鍵id的值，根據id的值去主鍵索引取整行的資訊，作為結果集的一部分返回；
在索引age上向右掃描，取下一個id的值，到主鍵索引上取整行資訊，作為結果集的一部分返回；
重複上面的步驟，直到碰到第1個age大於15的記錄；

你看這個語句，雖然他用了索引，但是他掃描超過了1億行。所以你現在知道了，當我們在討論有沒有使用索引的時候，其實我們關心的是掃描行數。

對於一個大表，不止要有索引，索引的過濾性還要足夠好。

像剛才這個例子的age，它的過濾性就不夠好，在設計表結構的時候，我們要讓所有的過濾性足夠好，也就是區分度足夠高。

回表的代價

那麼過濾性好了，是不是表示查詢的掃描行數就一定少呢？

我們再來看一個例子：

如果你的執行語句是select * from t_people where name='張三' and age=8

t_people表上有一個索引是姓名和年齡的聯合索引，那這個聯合索引的過濾性應該不錯，可以在聯合索引上快速找到第1個姓名是張三，並且年齡是8的小朋友，當然這樣的小朋友應該不多，因此向右掃描的行數很少，查詢效率就很高。

但是查詢的過濾性和索引的過濾性可不一定是一樣的，如果現在你的需求是查出所有名字的第1個字是張，並且年齡是8歲的所有小朋友，你的語句會怎麼寫呢？

你的語句要怎麼寫？很顯然你會這麼寫：select * from t_people where name like '張%' and age=8;

在MySQL5.5和之前的版本中，這個語句的執行流程是這樣的:

首先從聯合索引上找到第1個年齡欄位是張開頭的記錄，取出主鍵id，然後到主鍵索引樹上，根據id取出整行的值；
判斷年齡欄位是否等於8，如果是就作為結果集的一行返回，如果不是就丟棄。
在聯合索引上向右遍歷，並重復做回表和判斷的邏輯，直到碰到聯合索引樹上名字的第1個字不是張的記錄為止。

我們把根據id到主鍵索引上查詢整行資料這個動作，稱為回表。你可以看到這個執行過程裡面，最耗費時間的步驟就是回表，假設全國名字第1個字是張的人有8000萬，那麼這個過程就要回表8000萬次，在定位第一行記錄的時候，只能使用索引和聯合索引的最左字首，最稱為最左字首原則。

你可以看到這個執行過程，它的回表次數特別多，效能不夠好，有沒有優化的方法呢？

在MySQL5.6版本，引入了index condition pushdown的優化。我們來看看這個優化的執行流程：

首先從聯合索引樹上，找到第1個年齡欄位是張開頭的記錄，判斷這個索引記錄裡面，年齡的值是不是8，如果是就回表，取出整行資料，作為結果集的一部分返回，如果不是就丟棄；
在聯合索引樹上，向右遍歷，並判斷年齡欄位後，根據需要做回表，直到碰到聯合索引樹上名字的第1個字不是張的記錄為止；

這個過程跟上面的差別，是在遍歷聯合索引的過程中，將年齡等於8的條件下推到所有遍歷的過程中，減少了回表的次數，假設全國名字第1個字是張的人裡面，有100萬個是8歲的小朋友，那麼這個查詢過程中在聯合索引裡要遍歷8000萬次，而回表只需要100萬次。

虛擬列

可以看到這個優化的效果還是很不錯的，但是這個優化還是沒有繞開最左字首原則的限制，因此在聯合索引你還是要掃描8000萬行，那有沒有更進一步的優化方法呢？

我們可以考慮把名字的第一個字和age來做一個聯合索引。這裡可以使用MySQL5.7引入的虛擬列來實現。對應的修改表結構的SQL語句:

altertablet_peopleaddname_firstvarchar(2)generated(left(name,1)),addindex(name_first,age);

我們來看這個SQL語句的執行效果:

CREATETABLE`t_people`(
`id`int(11)DEFAULTNULL,
`name`varchar(20)DEFAUTNULL,
`name_first`varchar(2)GENERATEDALWAYSAS(left(`name`,1))VIRTUAL,KEY`name_first`(`name_first`,'age')
)ENGINE=InnoDBDEFAULTCHARSET=utf8;

首先他在people上建立一個欄位叫name_first的虛擬列，然後給name_first和age上建立一個聯合索引，並且，讓這個虛擬列的值總是等於name欄位的前兩個位元組，虛擬列在插入資料的時候不能指定值，在更新的時候也不能主動修改，它的值會根據定義自動生成，在name欄位修改的時候也會自動修改。

有了這個新的聯合索引，我們在找名字的第1個字是張，並且年齡為8的小朋友的時候，這個SQL語句就可以這麼寫：select * from t_people where name_first='張' and age=8。

這樣這個語句的執行過程，就只需要掃描聯合索引的100萬行，並回表100萬次，這個優化的本質是我們建立了一個更緊湊的索引，來加速了查詢的過程。

總結

本文給你介紹了索引的基本結構和一些查詢優化的基本思路，你現在知道了，使用索引的語句也有可能是慢查詢，我們的查詢優化的過程，往往就是減少掃描行數的過程。

慢查詢歸納起來大概有這麼幾種情況：

全表掃描
全索引掃描
索引過濾性不好
頻繁回表的開銷

思考

假設業務要求的就是要統計年齡在10-15歲的14億人的數量，不能增加過濾因子，那該怎麼辦？(select * from t_people where age between 10 and 15)

假設該統計必須是OLTP，實時展示統計資料，又該怎麼解決？

為什麼我使用了索引，查詢還是慢？

案例剖析

全索引掃描的不足

索引的過濾性要足夠好

回表的代價

虛擬列

總結

思考

為什麼我使用了索引，查詢還是慢？

2020-11-08：在Mysql中，三個欄位A、B、C的聯合索引，查詢條件是B、A、C，會用到索引嗎？

明明有了promise，為啥還需要async await？

2021年了，jQuery過時了嗎，你還在用jQuery嗎？

有了TCP ，為什麼還需要UDP？

慢查詢雪崩-不加這條索引十幾秒執行完的查詢和更新操作，加了索引只要幾毫秒

為什麼用了索引之後，查詢就會變快？

面試官又雙叒叕吊我了：只會使用Spring Boot，不懂原理你還想拿高薪？

我去，這兩個小技巧，讓我的SQL語句不僅躲了坑，還提升了 1000 倍（半分鐘乾貨系列）

關於Java效能優化的幾點建議，我就不信你還聽不明白了！

記一次位元組跳動Java社招面試，我就不信你還聽不明白了！

最新Java筆試題分享，40張圖文詳解，我就不信你還參透不了併發程式設計

看到表弟為了看電影還在充銀子，我很心痛，於是用python給他寫了個免費看電影的軟體！

Meta：壟斷不了社交，我還不能壟斷元宇宙？

【原神/病嬌】我穿越到了自己寫的小說裡，並且還被天理…（第一章）

《程式人生》一個月了，我要謝謝，你、你、還有你

擴充了阿里雲伺服器雲盤沒有生效，因為還得需要分割槽。阿里雲擴充系統盤分割槽

資料量很大，分頁查詢很慢，有什麼優化方案?

如何查詢sql語句的條件欄位是否使用了索引以及跳過索引的幾種情況

我就想加個索引，怎麼就這麼難？

為什麼我使用了索引，查詢還是慢？

案例剖析

全索引掃描的不足

索引的過濾性要足夠好

回表的代價

虛擬列

總結

思考

相關推薦

案例剖析