Mysql效能優化:為什麼你的count(*)這麼慢?
阿新 • • 發佈:2020-04-03
導讀
- 在開發中一定會用到統計一張表的行數,比如一個交易系統,老闆會讓你每天生成一個報表,這些統計資訊少不了 sql 中的count函式。
- 但是隨著記錄越來越多,查詢的速度會越來越慢,為什麼會這樣呢?Mysql內部到底是怎麼處理的?
- 今天這篇文章將從Mysql內部對於
count
函式是怎樣處理的? - 本文首發於作者微信公眾號【碼猿技術專欄】Mysql效能優化:為什麼你的count(*)這麼慢?,原創不易,喜歡的請支援一下,謝謝!!!
count的實現方式
- 在Mysql中的不同的儲存引擎對
count
函式有不同的實現方式。 MyISAM
引擎把一個表的總行數存在了磁碟上,因此執行count(*)
的時候會直接返回這個數,效率很高(沒有where
InnoDB
引擎並沒有直接將總數存在磁碟上,在執行count(*)
函式的時候需要一行一行的將資料讀出來,然後累計總數。
為什麼InnoDB不將總數存起來?
-
說到InnoDB相信讀者總會想到其支援事務的特性,事務具有隔離性,如果將總數存起來,怎麼保證各個事務之間的總數的一致性呢?不明白的看圖
-
事務A
和事務B
中的count(*)
的執行結果是不同的,因此InnoDB引擎在每個事務中返回多少行是不確定的,只能一行一行的讀出來用來判斷總數。
如何提升count效率
- 在
InnoDB
對於如何提升count(*)
的查詢效率,網上有多種解決辦法,這裡主要介紹三種,並分析可行性。
show table status
show table status
這個命令能夠很快的查詢出資料庫中每個表的行數,但是真的能夠替代count(*)
嗎?- 答案是不能。原因很簡單,這個命令統計出來的值是一個「估值」,因此是不準確的,官方文件說誤差大概在
40%-50%
。 - 因此這種方法直接pass,不準確還用它幹嘛。
快取系統儲存總數
-
這種方法也是最容易想到的,增加一行就
+1
,刪除一行就-1
,並且快取系統讀取也是很快,既簡單又方便的為什麼不用? -
快取系統和Mysql是兩個系統,比如
redis
和Mysql
這兩個是典型的比較。兩個系統最難的就是在高併發下無法保證資料的一致性。 -
通過上面兩張圖,無論是
redis計數+1
還是insert into user
先執行,最終都會導致資料在邏輯上的不一致。第一張圖會出現redis計數
少了,第二張圖雖然計數正確了但是並沒有查詢出插入的那一行資料。 -
在併發系統裡面,我們是無法精確控制不同執行緒的執行時刻的,因為存在圖中的這種操作序列,所以,我們說即使Redis正常工作,這個計數值還是邏輯上不精確的。
在資料庫儲存計數
-
通過快取系統儲存的分析得知了使用快取無法保證資料在邏輯上的一致性,因此我們想到了直接使用資料庫來儲存,有了「事務」的支援,也就保證了資料的一致性了。
-
如何使用呢?很簡單,直接將計數儲存在一張表中
(table_name,total)
。 -
至於執行的邏輯只需要將快取系統中
redis計數+1
改成total
欄位+1即可,如下圖: -
由於在同一個事務中,保證了資料在邏輯上的一致性。
不同count的用法
count()
是一個聚合函式,對於返回的結果集,一行行地判斷,如果count函式的引數不是NULL,累計值就加1,否則不加。最後返回累計值。count
的用法有多種,分別是count(*)
、count(欄位)
、count(1)
、count(主鍵id)
。那麼多種用法,到底有什麼差別呢?當然,「前提是沒有where
條件語句」。count(id)
:InnoDB引擎會遍歷整張表,把每一行的id值都取出來,返回給server層。server層拿到id後,判斷是不可能為空的,就按行累加。count(1)
:InnoDB引擎遍歷整張表,但不取值。server層對於返回的每一行,放一個數字1
進去,判斷是不可能為空的,按行累加。count(欄位)
:count(*)
:不會把全部欄位取出來,而是專門做了優化,不取值。count(*)
肯定不是null,按行累加。- 如果這個“欄位”是定義為
not null
的話,一行行地從記錄裡面讀出這個欄位,判斷不能為null,按行累加; - 如果這個欄位定義允許為
null
,那麼執行的時候,判斷到有可能是null,還要把值取出來再判斷一下,不是null才累加。
- 如果這個“欄位”是定義為
- 所以結論很簡單:「按照效率排序的話,
count(欄位)
<count(主鍵id)
<count(1)
≈count(*)
,所以建議讀者,儘量使用count(*)
。」 - 「注意」:這裡肯定有人會問,
count(id)
不是走的索引嗎,為什麼查詢效率和其他的差不多呢?陳某在這裡解釋一下,雖然走的索引,但是還是要一行一行的掃描才能統計出來總數。
總結
MyISAM
表雖然count(*)
很快,但是不支援事務;show table status
命令雖然返回很快,但是不準確;InnoDB
直接count(*)
會遍歷全表(沒有where條件),雖然結果準確,但會導致效能問題。- 快取系統的儲存計數雖然簡單效率高,但是無法保證資料的一致性。
- 資料庫儲存計數很簡單,也能保證資料的一致性,建議使用。
- 「思考題,讀者留言區討論」:在系統高併發的情況下,使用資料庫儲存計數,是先
更新計數+1
,還是先插入資料
。即是先update total+=1
還是先insert into
。