1. 程式人生 > >MySql-索引介紹

MySql-索引介紹

SQL執行順序

手寫

      

機讀(機器執行先執行FROM)

        

索引是什麼

MySQL官方對索引的定義為:索引(Index)是幫助MySQL高效獲取資料的資料結構。
可以得到索引的本質:索引是資料結構。你可以簡單理解為“排好序的快速查詢結構”

 排好序的快速查詢結構:所以索引對ORDER BYWHERE條件語句都有影響

一般來說索引本身也很大,不可能全部儲存在記憶體中,因此索引往往以索引檔案(myi)的形式儲存的磁碟上

      在資料(myd)

之外,資料庫系統還維護著滿足特定查詢演算法的資料結構,這些資料結構以某種方式引用(指向)資料,
這樣就可以在這些資料結構上實現高階查詢演算法。這種資料結構,就是索引myi。下圖就是一種可能的索引方式示例:

        

       最左邊的是資料記錄的實體地址,中間是資料表,一共有兩列七條記錄,
 為了加快Col2的查詢,可以維護一個右邊所示的二叉查詢樹,每個節點分別包含索引鍵值和一個指向對應資料記錄實體地址的指標,這樣就可以運用二叉查詢在一定的複雜度內獲取到相應資料,從而快速的檢索出符合條件的記錄。

      我們平常所說的索引,如果沒有特別指明,都是指B+樹結構組織的索引。其中聚集索引,次要索引,覆蓋索引,
複合索引,字首索引,唯一索引預設都是使用B+樹索引,統稱索引。當然,除了B+樹這種型別的索引之外,還有哈稀索引(hash index)等

索引的優劣

優勢

    1.提高資料檢索的效率,降低資料庫的IO成本:沒有索引會挨個去磁碟找資料(IO),有了索引之後直接指向磁碟地址降低IO
    2.通過索引列對資料進行排序,降低資料排序的成本,降低了CPU的消耗

劣勢

    1.實際上索引也是一張表,該表儲存了主鍵與索引欄位,並指向實體表的記錄,所以索引列也是要佔用空間的
    2.雖然索引大大提高了查詢速度,同時卻會降低更新表的速度,如對錶進行INSERT、UPDATE和DELETE。因為更新表時,MySQL不僅要儲存資料,還要儲存一下索引檔案每次更新添加了索引列的欄位,都會調整因為更新所帶來的鍵值變化後的索引資訊.所以頻繁刪改的欄位最好不要建索引

索引只是提高效率的一個因素,如果你的MySQL有大資料量的表,就需要花時間研究建立最優秀的索引,或優化查詢語句

索引分類

1.單值索引

      即一個索引只包含單個列,一個表可以有多個單列索引

2.唯一索引

      索引列的值必須唯一,但允許有空值

3.複合索引

      即一個索包含多個列

基本語法:

    建立:如果是CHAR,VARCHAR型別,length可以小於欄位實際長度;如果是BLOB和TEXT型別,必須指定length。
        CREATE  [UNIQUE ] INDEX indexName ON mytable(columnname(length)); 
        ALTER mytable ADD  [UNIQUE ]  INDEX [indexName] ON (columnname(length)) 
    刪除:
        DROP INDEX [indexName] ON mytable; 
    檢視;
        SHOW INDEX FROM table_name

    ALTER TABLE tbl_name ADD PRIMARY KEY (column_list): 該語句新增一個主鍵,這意味著索引值必須是唯一的,且不能為NULL。
    ALTER TABLE tbl_name ADD UNIQUE index_name (column_list): 這條語句建立索引的值必須是唯一的(除了NULL外,NULL可能會出現多次)。
    ALTER TABLE tbl_name ADD INDEX index_name (column_list): 新增普通索引,索引值可出現多次。
    ALTER TABLE tbl_name ADD FULLTEXT index_name (column_list):該語句指定了索引為 FULLTEXT ,用於全文索引。

mysql索引結構:BTree索引、Hash索引、full-text全文索引、R-Tree索引

BTree索引檢索原理

      

【初始化介紹】 
    一顆b+樹,淺藍色的塊我們稱之為一個磁碟塊,可以看到每個磁碟塊包含幾個資料項(深藍色所示)和指標(黃色所示),
如磁碟塊1包含資料項17和35,包含指標P1、P2、P3,
P1表示小於17的磁碟塊,P2表示在17和35之間的磁碟塊,P3表示大於35的磁碟塊。
真實的資料存在於葉子節點即3、5、9、10、13、15、28、29、36、60、75、79、90、99。
非葉子節點只不儲存真實的資料,只儲存指引搜尋方向的資料項,如17、35並不真實存在於資料表中。

【查詢過程】
    如果要查詢資料項29,那麼首先會把磁碟塊1由磁碟載入到記憶體,此時發生一次IO,在記憶體中用二分查詢確定29在17和35之間,鎖定磁碟塊1的P2指標,記憶體時間因為非常短(相比磁碟的IO)可以忽略不計,通過磁碟塊1的P2指標的磁碟地址把磁碟塊3由磁碟載入到記憶體,發生第二次IO,29在26和30之間,鎖定磁碟塊3的P2指標,通過指標載入磁碟塊8到記憶體,發生第三次IO,同時記憶體中做二分查詢找到29,結束查詢,總計三次IO。

真實的情況是,3層的b+樹可以表示上百萬的資料,如果上百萬的資料查詢只需要三次IO,效能提高將是巨大的,如果沒有索引,每個資料項都要發生一次IO,那麼總共需要百萬次的IO,顯然成本非常非常高。
 

哪些情況需要建立索引

    1.主鍵自動建立唯一索引
    2.頻繁作為查詢條件的欄位應該建立索引
    3.查詢中與其它表關聯的欄位,外來鍵關係建立索引
    4.單鍵/組合索引的選擇問題?(在高併發下傾向建立組合索引)
    5.查詢中排序的欄位,排序欄位若通過索引去訪問將大大提高排序速度
    6.查詢中統計或者分組欄位

哪些情況不要建立索引

    1.頻繁更新的欄位不適合建立索引
    2.Where條件裡用不到的欄位不建立索引
    3.表記錄太少
    4.經常增刪改的表:提高了查詢速度,同時卻會降低更新表的速度,如對錶進行INSERT、UPDATE和DELETE。因為更新表時,MySQL不僅要儲存資料,還要儲存一下索引檔案
    5.如果某個資料列包含許多重複的內容,為它建立索引就沒有太大的實際效果。資料重複且分佈平均的表字段,因此應該只為最經常查詢和最經常排序的資料列建立索引。