索引 vs 全表掃描

阿新 • • 發佈：2019-01-08

之前我們介紹了第一個檔案格式：

在這個檔案格式裡，資料沒有排序，順序儲存，我們只提供了查詢所有資料的介面，當我們想進行值過濾時，比如查詢大於10的資料，需要將所有資料遍歷一遍，如果把這個檔案看做一個只有一列的表，這種查詢方式就叫全表掃描。

磁碟結構和基本耗時

磁碟的組織結構碟片->磁軌->扇區。由於碟片是並行操作的，因此可以忽略尋找碟片的時間。所以基本上要找一個數據需要找到對應的磁軌（類似樹的年輪），再找對應的扇區（一段扇形）。

磁碟效能的主要度量指標有以下幾個：

訪問時間：從發出讀寫請求到資料開始傳輸之間的時間。也就是磁碟定位資料的時間，在程式中就是那個 seek。訪問時間包括尋道時間（找磁軌）和旋轉等待時間（找扇區）。一般在幾毫秒級。

資料傳輸率：在定位資料之後。就開始將資料從磁碟和記憶體之間傳輸了。這個時間一般每秒幾十MB。

順序訪問 vs 隨機訪問

磁碟上的檔案是一塊一塊組織的，這裡的塊（block）是邏輯概念，可能512位元組到幾KB。從磁碟讀資料需要一塊一塊讀。即使你只讀1Byte資料，也會讀一塊。

順序訪問：連續訪問磁碟相鄰的塊。這樣磁碟只需要一次磁碟尋道。

隨機訪問：隨機訪問磁碟不同位置的塊，一般每次只讀少量資料。這樣磁碟每處理一個隨機訪問請求就需要一次磁碟尋道。隨機訪問的效率遠低於順序訪問。

儲存模型

硬體：磁碟資料傳輸率記做 T，平均訪問時間記為 S。

資料：一個包含 N 個數據的資料集，資料是可比較的。資料在磁碟上無序儲存，資料均勻分佈。每個資料所佔空間為 X，那麼資料的總大小為 NX。

這張圖表示資料在磁碟上的存放順序：

這裡寫圖片描述

索引：在資料上建立索引，索引可以看成資料的一種對映，一種表示方式。可以全部放在記憶體中，並且精確定位原始資料。

查詢流程

查詢模式：查詢有過濾條件，假設過濾條件的選擇度為 F，意思是查詢結果集佔總資料量的 F 倍，F 處於 [0,1] 之間。

現在有兩種查詢方式：全表掃描、索引。全表掃描和索引都是邏輯概念。

全表掃描：最簡單的查詢操作。即將資料從磁碟上一個個讀到記憶體中做過濾，最後返回結果。這種方式的特點是不管資料有沒有用，都先讀出來，磁碟讀取資料總量大，但是seek只有一次。對應磁碟的順序訪問。

黃色表示需要從磁碟讀到記憶體中的資料，全表掃描時候就是這樣：

這裡寫圖片描述

全表掃描總耗時 = IO耗時 = NX/T

索引：由於磁碟上資料是亂序的，我們建一個B+樹索引，並在記憶體中維護索引，索引將所有資料排序，並記錄對應的磁碟位置。在查詢時，首先在索引上過濾出所有結果集在磁碟上的位置，再到磁碟上去精確讀取結果集。這種包括少量的磁碟IO+大量的 seek。對應磁碟的隨機訪問。

效果圖如下圖：磁碟的操作為定位一個數據，讀取，再定位下一個資料……

這裡寫圖片描述

Seek耗時：NFS

IO耗時：NFX/T

索引查詢總耗時 = Seek耗時 + IO 耗時 = NFS + NFX/T

對比

接下來看看這些引數，在不考慮更新硬體時，磁碟吞吐率 T、平均訪問耗時 S、資料量 N、每個資料大小 X 都是常量，沒得改。

一共就 NTFSX 五個引數，接下來只有 F 了，這個東西是個變數，取決於查詢過濾條件。比如你想查身高150以上的男生，這個過濾條件就沒啥區分度，可能 F=0.8，大部分都會被選出來，但是如果查190以上的男生，可能 F=0.1，只有一小部分會被選出來。

有區別就有不同的應對措施，我們可以根據 F 選擇查索引還是全表掃描。直接算一下什麼時候索引查詢比全表掃描快，也就是下邊這個式子：

NFS + NFX/T < NX/T

即：F < X / (TS+X)

可以看到，跟總資料量沒關係，當 F 足夠小的時候，選擇索引比較好。如果結果集比較多，seek過多，那麼全表掃描是更優的。

舉個實際例子感受一下：

平均Seek時間： S=5 ms

磁碟吞吐率：T=300 MB/s

單個數據大小：X=128 Byte

這個時候，過濾條件的選擇度需要小於 0.008%。

傳統資料庫中一般對索引的介紹是，當表很大的時候可以考慮建立索引。Seek是一個很耗時的操作，需要避免查詢中過多的 seek。同時，資料庫應該根據不同的查詢條件選擇查詢方式。

個人公眾號

資料庫漫遊指南

這裡寫圖片描述

索引 vs 全表掃描

磁碟結構和基本耗時

順序訪問 vs 隨機訪問

儲存模型

查詢流程

對比

個人公眾號

索引 vs 全表掃描

表裡有索引，為什麼還都是全表掃描？

mysql 全表掃描、全索引掃描、索引覆蓋(覆蓋索引)

oracle select 走索引？走全表掃描？

oracle 全表掃描和索引掃描

避免全表掃描的sql優化

ORACLE sql調優之記錄一次trim函數引發的大表全表掃描

項目owner看這裏，MaxCompute全表掃描新功能，給你“失誤”的機會

造成MySQL全表掃描的原因

關係型資料庫全表掃描分片詳解

Oracle 檢查資料庫有哪些表頻繁進行全表掃描

MyBatis實戰之對映器 SSM框架之批量增加示例(同步請求jsp檢視解析) mybatis的批量更新例項造成MySQL全表掃描的原因 SSM框架實戰之整合EhCache

Mysql避免全表掃描的sql查詢優化

scala操作Hbas -全表掃描

如何對10億資料量級的mongoDB作高效的全表掃描

Oracle 11g全表掃描以Direct Path Read方式執行

MySQL查詢優化之避免全表掃描

HBase 帶有過濾條件的全表掃描小計

全表掃描卻產生大量db file sequential read一例

高水位線和全表掃描

索引 vs 全表掃描

磁碟結構和基本耗時

順序訪問 vs 隨機訪問

儲存模型

查詢流程

對比

個人公眾號

相關推薦