MySQL GROUP BY 和GROUP_CONCAT的一些用法
1) 作用:GROUP BY 語句根據一個或多個列對結果集進行分組。
所謂的分組就是根據GROUP BY中的分組標記,將一個“資料集”劃分成若干個“小區域”,每個分組標記相同的值,會劃分在同一個"小區域中",最終查詢出的結果只會顯示"小區域"中一條記錄。
2)GROUP BY 語句中的GROUP_CONCAT()函式
因為GROUP BY預設只顯示了組中一條記錄,如果想看組內的所有資訊,就需要用到GROUP_CONCAT()函式
3)COUNT()函式:統計記錄總數
COUNT(*)會統計我們表中的NULL值,如果不想統計NULL值,請寫COUNT(欄位名)
4)聚合函式[‘SUM()
MAX()
函式:求最大值’,’MIN()
函式:求最小值’,’AVG()
函式:求平均值
在GROUP BY的過程中,如果碰到聚合函式,會進行聚合操作
MYSQL測試:
假設有資料表結構如下:
CREATE TABLE `user_info` ( `id` INT(11) NOT NULL AUTO_INCREMENT COMMENT '主鍵id', `user_id` VARCHAR(50) NOT NULL DEFAULT '' COMMENT '使用者編號', `grade` VARCHAR(50) NOT NULL DEFAULT '' COMMENT '年級', `class` VARCHAR(50) NOT NULL DEFAULT '' COMMENT '班級', PRIMARY KEY (`id`), UNIQUE INDEX `uniq_user_id` (`user_id`) ) ENGINE=InnoDB
插入記錄:
INSERT INTO `user_info` (`id`, `user_id`, `grade`, `class`) VALUES (10, '10230', 'C', 'B'); INSERT INTO `user_info` (`id`, `user_id`, `grade`, `class`) VALUES (9, '10229', 'C', 'a'); INSERT INTO `user_info` (`id`, `user_id`, `grade`, `class`) VALUES (8, '10228', 'B', 'b'); INSERT INTO `user_info` (`id`, `user_id`, `grade`, `class`) VALUES (7, '10227', 'B', 'b'); INSERT INTO `user_info` (`id`, `user_id`, `grade`, `class`) VALUES (6, '10226', 'B', 'a'); INSERT INTO `user_info` (`id`, `user_id`, `grade`, `class`) VALUES (5, '10225', 'B', 'a'); INSERT INTO `user_info` (`id`, `user_id`, `grade`, `class`) VALUES (4, '10224', 'A', 'b'); INSERT INTO `user_info` (`id`, `user_id`, `grade`, `class`) VALUES (3, '10223', 'A', 'b'); INSERT INTO `user_info` (`id`, `user_id`, `grade`, `class`) VALUES (2, '10222', 'A', 'a'); INSERT INTO `user_info` (`id`, `user_id`, `grade`, `class`) VALUES (1, '10221', 'A', 'a');
所有記錄查詢結果:
查詢grade,和user_id的所有記錄
mysql> SELECT user_id,grade FROM user_info;
+---------+-------+
| user_id | grade |
+---------+-------+
| 10221 | A |
| 10222 | A |
| 10223 | A |
| 10224 | A |
| 10225 | B |
| 10226 | B |
| 10227 | B |
| 10228 | B |
| 10229 | C |
| 10230 | C |
+---------+-------+
group by的常規用法
1.以grade分組,並且檢視user_id資訊
mysql> SELECT user_id,grade FROM user_info GROUP BY grade ;
+---------+-------+
| user_id | grade |
+---------+-------+
| 10221 | A |
| 10225 | B |
| 10229 | C |
+---------+-------+
由結果可知:使用GROUP BY分組之後,每個分組標記相同的記錄只會出現第一條,其他的相同的分組標記的記錄會捨棄
2.利用GROUP_CONCAT檢視user_id的詳細資訊
mysql> SELECT GROUP_CONCAT(user_id),grade FROM user_info GROUP BY grade ;
+-------------------------+-------+
| GROUP_CONCAT(user_id) | grade |
+-------------------------+-------+
| 10221,10222,10223,10224 | A |
| 10228,10227,10226,10225 | B |
| 10229,10230 | C |
+-------------------------+-------+
3.聚合函式max
mysql> select max(user_id),grade from user_info group by grade ;
+--------------+-------+
| max(user_id) | grade |
+--------------+-------+
| 10224 | A |
| 10228 | B |
| 10230 | C |
+--------------+-------+
4.having條件進一步過濾
mysql> select max(user_id),grade from user_info group by grade having grade>'A';
+--------------+-------+
| max(user_id) | grade |
+--------------+-------+
| 10228 | B |
| 10230 | C |
+--------------+-------+
group by的非常規用法
1.查詢的列中除了聚合列,分組列標識還有其他常規列,常規列如何取值?
mysql> select max(user_id),id,grade from user_info group by grade;
+--------------+----+-------+
| max(user_id) | id | grade |
+--------------+----+-------+
| 10224 | 1 | A |
| 10228 | 5 | B |
| 10230 | 9 | C |
+--------------+----+-------+
sql的結果就值得討論了,與上述例子不同的是,查詢條件多了id一列。資料按照grade分組後,grade一列是相同的,max(user_id)按照資料進行計算也是唯一的,id一列是如何取值的?看上述的資料結果,
推論:id是實體記憶體的第一個匹配項
2.修改id按照上述資料結果,將id=1,改為id=99,執行相同SQL:
mysql> select max(user_id),id,grade from user_info group by grade;
+--------------+----+-------+
| max(user_id) | id | grade |
+--------------+----+-------+
| 10224 | 2 | A |
| 10228 | 5 | B |
| 10230 | 9 | C |
+--------------+----+-------+
推論:第一條資料id變成了99,查出的結果第一條資料的id從1變成了2。表明,id這個非聚合條件欄位的取值與資料寫入的時間無關,因為id=1的記錄是先於id=2存在的,修改的資料不過是修改了這條資料的內容。結合mysql的資料儲存理論,由於id是主鍵,所以資料在檢索是是按照主鍵排序後進行過濾的,因此
推論:id欄位的選取是按照mysql儲存的檢索資料匹配的第一條。
3.聚合函式和常量在一起做運算
mysql> SELECT GROUP_CONCAT(user_id),grade,SUM(user_id)+9,SUM(user_id) FROM user_info GROUP BY grade ;
+-------------------------+-------+----------------+--------------+
| GROUP_CONCAT(user_id) | grade | SUM(user_id)+9 | SUM(user_id) |
+-------------------------+-------+----------------+--------------+
| 10222,10221,10224,10223 | A | 40899 | 40890 |
| 10225,10226,10228,10227 | B | 40915 | 40906 |
| 10229,10230 | C | 20468 | 20459 |
+-------------------------+-------+----------------+--------------+
當GROUP BY 碰到聚合函式和常量在一起的時候,聚合函式會正常發揮作用,但是常量只會計算一次,即在聚合完成之後,再和常量運算,而不是user_id和常量一起累加
注意:這種常量有可能是變數,例如多表查詢的時候
SELECT COALESCE(SUM(t2.SUMS),0)+(SELECT COALESCE(SUM(t3.SUMS),0) FROM table3 t3 WHERE t3.UID=t2.uid) FROM table1 t1 LEFT JOIN table2 t2 ON ..... GROUP BY t2.uid
其中COALESCE(SUM(t2.SUMS),0)是聚合函式,在group by的時候每次都會累加求和
而(SELECT COALESCE(SUM(t3.SUMS),0) FROM table3 t3 WHERE t3.UID=t2.uid)作為一個常量,總共只會加入一次,但是每一行記錄的這個值可能是不同的,
如果想要檢視每次累加具體的值,可以使用GROUP_CONCAT((SELECT COALESCE(SUM(t3.SUMS),0) FROM table3 t3 WHERE t3.UID=t2.uid)),注意GROUP_CONCAT中也要去除聚合函式:
SELECT
GROUP_CONCAT(t2.SUMS),
GROUP_CONCAT(SELECT COALESCE(SUM(t3.SUMS),0) FROM table3 t3 WHERE t3.UID=t2.uid),
(SELECT COALESCE(SUM(t3.SUMS),0) FROM table3 t3 WHERE t3.UID=t2.uid) FROM table1 t1 LEFT JOIN table2 t2 ON .....
也可以先不使用分組,把分組條件去掉,同時也要去除聚合函式(聚合函式如果不分組整個表只會返回一條記錄;如果分組,則返回不同的分組標記中的一條記錄):
SELECT t2.SUMS,(SELECT COALESCE(SUM(t3.SUMS),0) FROM table3 t3 WHERE t3.UID=t2.uid) FROM table1 t1 LEFT JOIN table2 t2 ON .....
示例: 還是在user_info表,根據grade分組,查詢每個分組中user_id之和加上ID總和的數值(模擬兩個表來統計每個部門的user_id之和和另外一個表的欄位的ID總和)
mysql> SELECT SUM(user_id),SUM(user_id)+id,GROUP_CONCAT(user_id),GROUP_CONCAT(id) grade FROM user_info GROUP BY grade;
+--------------+-----------------+-------------------------+----------+
| SUM(user_id) | SUM(user_id)+id | GROUP_CONCAT(user_id) | grade |
+--------------+-----------------+-------------------------+----------+
| 40890 | 40892 | 10222,10221,10224,10223 | 2,99,4,3 |
| 40906 | 40911 | 10225,10226,10228,10227 | 5,6,8,7 |
| 20459 | 20468 | 10229,10230 | 9,10 |
+--------------+-----------------+-------------------------+----------+
上述結果可以看出:SUM(user_id)+id中的id作為常量,在分組的時候,只計算了一次(2,99,4,3中只把2累加進去了,其他值捨棄,即如果不為聚合函式,只會參與一次)
想全部計算可以這樣:
SELECT SUM(user_id),SUM(user_id)+(SELECT SUM(ID) FROM user_info),GROUP_CONCAT(user_id),GROUP_CONCAT(id), grade FROM user_info GROUP BY grade;
上面是模仿多表,如果只有一個表,可以這樣:
SELECT SUM(user_id),SUM(user_id+id),GROUP_CONCAT(user_id),GROUP_CONCAT(id), grade FROM user_info GROUP BY grade;
結果:
mysql> SELECT SUM(user_id),SUM(user_id)+(SELECT SUM(ID) FROM user_info),GROUP_CONCAT(user_id),GROUP_CONCAT(id), grade FROM user_info GROUP BY grade;
+--------------+----------------------------------------------+-------------------------+------------------+-------+
| SUM(user_id) | SUM(user_id)+(SELECT SUM(ID) FROM user_info) | GROUP_CONCAT(user_id) | GROUP_CONCAT(id) | grade |
+--------------+----------------------------------------------+-------------------------+------------------+-------+
| 40890 | 41043 | 10222,10221,10224,10223 | 2,99,4,3 | A |
| 40906 | 41059 | 10225,10226,10228,10227 | 5,6,8,7 | B |
| 20459 | 20612 | 10229,10230 | 9,10 | C |
+--------------+----------------------------------------------+-------------------------+------------------+-------+
結論
- 當group by 與聚合函式配合使用時,功能為分組後計算
- 當group by 與having配合使用時,功能為分組後過濾
- 當group by 與聚合函式,同時非聚合欄位同時使用時,非聚合欄位的取值是第一個匹配到的欄位內容,即id小的條目對應的