MySQL中聚合函式count的使用和效能優化技巧

阿新 • • 發佈：2020-01-09

本文的環境是Windows 10，MySQL版本是5.7.12-log

一、基本使用

count的基本作用是有兩個：

統計某個列的資料的數量；
統計結果集的行數；

用來獲取滿足條件的資料的數量。但是其中有一些與使用中印象不同的情況，比如當count作用一列、多列、以及使用*來表達整行產生的效果是不同的。

示例表如下：

CREATE TABLE `NewTable` (
`id` int(11) NULL DEFAULT NULL,`name` varchar(30) NULL DEFAULT NULL,`country` varchar(50) NULL DEFAULT NULL,`province` varchar(30) NULL DEFAULT NULL,`city` varchar(30) NULL DEFAULT NULL 
)ENGINE=InnoDB

這裡寫圖片描述

1.1 不計算NULL的值

如果有NULL值，在返回的結果中會被過濾掉

select count(country) from person;

返回結果如下：

這裡寫圖片描述

如果滿足條件的資料項不存在，則結構返回0，經常通過這種方式判斷是否有滿足條件的資料存在；返回的資料型別是bigint。

1.2 對count(*)的處理

count(*)的處理是有點不同的，它會返回所有資料的數量，但是不會過濾其中的NULL值，它也並不是相當於展開成所有的列，而是直接會忽略所有的列而直接統計所有的行數。語句如下：

select count(*) from person;

返回結果如下：

這裡寫圖片描述

當想要返回所有的資料的數量的時候，但是又不想包括全部是NULL的列，使用count(*)是不可能做到的，但是在1.1中說到count作用於列的時候會過濾NULL，那麼直接這麼寫是不是對？

select count(id,`name`,country,province,city) from person;

那就錯了，count只能作用於單列，不能作用於多列，所以上面的寫法是錯誤的。

另外針對count(*)語句，在MyISAM儲存引擎中做了優化，每個表的資料行數都會儲存在儲存引擎中，可以很快拿到；但是在事務性的儲存引擎中，比如InnoDB中，因為會涉及到多個事務；

1.3 對count(distinct …)的處理

count(distinct …)會返回彼此不同但是非NULL的資料的行數。這一點和只使用distinct是有區別的，因為distinct是不過濾NULL值的，詳見MySQL中distinct的使用方法。

- 如果沒有符合條件的資料則返回0；
- 該語句可以作用於多列，是當各個列之間有一個不同，就認為整行資料不同，與distinct作用於多列時效果相同；

select count(DISTINCT country) from person;

返回結果如下：

這裡寫圖片描述

但是對於count(*)和count(distinct )兩者的結合，如下：

select count(DISTINCT *) from person;

該語句是錯誤的，無法執行，因此與select count(DISTINCT *) from person 還是有區別的。

二、效能優化

通常情況下，count(*)操作需要大量掃描資料表中的行，如果避免掃描大量的資料就成為優化該語句的關鍵所在。針對這個問題可以從如下兩個角度考慮。

2.1 在資料庫的層次上優化

2.1.1 針對count(*)

在MySQL內部已經針對count(*)進行了優化，使用explain查詢如下：

EXPLAIN select count(*) from person;

這裡寫圖片描述

從中可以看出該查詢沒有使用全表掃描也沒有使用索引，甚至不需要查詢資料表，在上面的示例資料庫中得知，該庫的儲存引擎是InnoDB ，而且其中既沒有主鍵也沒有索引。

2.2 針對單個列進行count

查詢如下：

EXPLAIN select count(country) from person where id > 2;

這裡寫圖片描述

發現在沒有主鍵和索引的情況下，對全表進行了掃描。在資料中避免大量掃描資料行，一個最直接的方法使用索引：

當對id設定為一般索引：INDEX abc (id) USING BTREE 。

執行查詢如下：

EXPLAIN select count(country) from person where id > 2;

結果如下：

這裡寫圖片描述

此時發現並沒有使用索引，仍然進行的是全表掃描，當執行如下時：

EXPLAIN select count(country) from person where id > 4;

結果如下：

這裡寫圖片描述

這是使用了索引進行了範圍查詢，顯然比上面的要好。

但是問題來了，為什麼有時候使用索引，有時候不用索引？在上面的第一次查詢中已經能夠檢測出可能的key但是並沒有使用？如果有知道的大神給解讀一下！

對id設定為主鍵，執行查詢如下：

EXPLAIN select count(country) from person where id > 2;

結果如下：

這裡寫圖片描述

2.2 在應用的層次上優化

在應用的層次上優化，可以考慮在系統架構中引入快取子系統，比如在過去中常用的Memcached，或者現在非常流行的Redis，但是這樣會增加系統的複雜性。

mysql group by與聚合函式(sum,count等)例項

首先我們先來了解一下mysql聚合函式

mysql中一種特殊的函式:聚合函式，SUM,COUNT,MAX,MIN,AVG等。這些函式和其它函式的根本區別就是它們一般作用在多條記錄上。例如：

SELECT SUM(score) FROM table

這個sql的意思是查詢表table裡面所有score列的總和。

接著我們通過一個例項來講解group by語句中如何使用聚合函式。

book表如下：

id first_name last_name city

1 Jason Martin Toronto

2 Alison Mathews Vancouver

3 James Mathews Vancouver

4 Celia Rice Vancouver

5 David Larry New York