django orm aggregate()和annotate() 以及 CASE WHEN的使用 【終於理解了】
一、django orm aggregate()和annotate()
aggregate 和 annotate 用於查詢查詢結果集的,區別在於aggregate 是全部結果集的查詢,annotate則是分組查詢的。
一般會用到功能函式Avg、Max、Min、Count、Sum。
1.aggregate(*args,**kwargs) 聚合函式
通過對QuerySet進行計算,返回一個聚合值的字典。aggregate()中每一個引數都指定一個包含在字典中的返回值。即在查詢集上生成聚合。
aggregate()為所有的QuerySet生成一個彙總值,相當於Count()。返回結果型別為字典Dict。
示例:
from django.db.models import Avg,Sum,Max,Min
#求書籍的平均價
ret=models.Book.objects.all().aggregate(Avg('price'))
#{'price__avg': 145.23076923076923}
2.annotate(*args,**kwargs) 分組函式
annotate()為每一個QuerySet在指定屬性上生成彙總值,相當於GROUP BY。返回結果型別QuerySet。
from django.db.models import Avg,Sum,Max,Min #檢視每一位作者出過的書中最貴的一本(按作者名分組 values() 然後annotate 分別取每人出過的書價格最高的) ret=models.Book.objects.values('author__name').annotate(Max('price')) # < QuerySet[ # {'author__name': '吳承恩', 'price__max': Decimal('234.000')}, # {'author__name': '呂不韋','price__max': Decimal('234.000')}, # {'author__name': '姜子牙', 'price__max': Decimal('123.000')}, # {'author__name': '亞微',price__max': Decimal('123.000')}, # {'author__name': '伯夷 ', 'price__max': Decimal('2010.000')}, # {'author__name': '叔齊','price__max': Decimal('200.000')}, # {'author__name': '陳濤', 'price__max': Decimal('234.000')}, # {'author__name': '高路川', price__max': Decimal('234.000')} # ] >
二、orm中利用annotate進行group by 詳解
用法
之前的orm的group by方法在django 1.8 中已經不能使用,需要利用annotate來實現
示例1
第一個values用來選中需要用來group by的欄位(此處group by user_id),之後緊跟annotate來分組並聚合需要的欄位(需要每個user_id對應的question_id的數量和catalog_id的最小值),之後再values來實際查詢需要的欄位(原user_id和聚合後的欄位的別名)
第一個values用來指定用來group by的欄位,裡面必須是Count、Min等等聚合函式(例如用F("user_id")取別名是不行的),不需要最終查詢的就不必聚合了
第二個values用來指定實際select的欄位,只能指定annotate後的欄位名(以此處為例:user_id是用來分組的欄位,可以直接取,而其他欄位必須聚合並使用聚合後的別名,qid和cid,假如原表還有個欄位status,annotate中沒有聚合此欄位,所以最後value不能查詢該欄位)
q = PxbNCEUserQuest.objects.filter(user_id=335).values("user_id").annotate(qid=Min("question_id"), cid=Min("catalog_id")).values("user_id", "qid", "cid")
print q
print q.query
# 輸出
[{'qid': 22, 'user_id': 335L, 'cid': 17}]
SELECT `pxb_nce_user_quest`.`user_id`, MIN(`pxb_nce_user_quest`.`question_id`) AS `qid`, MIN(`pxb_nce_user_quest`.`catalog_id`) AS `cid` FROM `pxb_nce_user_quest` WHERE `pxb_nce_user_quest`.`user_id` = 335 GROUP BY `pxb_nce_user_quest`.`user_id` ORDER BY NULL
示例2
與示例1一樣,但是此處第一個annotate用來分組欄位,第二個annotate用來單獨別名其他欄位
q = PxbNCEUserQuest.objects.filter(user_id=335).values("user_id").annotate(qid=Min("question_id"), cid=Min("catalog_id")).annotate(uid=F("user_id")).values("uid", "qid", "cid")
print q
print q.query
# 輸出:
[{'qid': 22, 'uid': 335L, 'cid': 17}]
SELECT MIN(`pxb_nce_user_quest`.`question_id`) AS `qid`, MIN(`pxb_nce_user_quest`.`catalog_id`) AS `cid`, `pxb_nce_user_quest`.`user_id` AS `uid` FROM `pxb_nce_user_quest` WHERE `pxb_nce_user_quest`.`user_id` = 335 GROUP BY `pxb_nce_user_quest`.`user_id` ORDER BY NULL
舉例:
SomeModel.objects.annotate(Count('somecol'))
GROUP BY: 所有欄位
SomeModel.objects.values('name').annotate(Count('somecol'))
GROUP BY: name欄位,聚合somecol
SomeModel.objects.annotate(Count('somecol')).values('name')
GROUP BY: 所有欄位,查詢name
SomeModel.objects.values('name', 'pk').annotate(Count('somecol')).values('pk')
GROUP BY: name, pk欄位,查詢pk欄位
SomeModel.objects.values('name').annotate(Count('somecol')).values('pk')
GROUP BY: name, pk欄位,查詢pk欄位
關聯知識:
剛開始上面的查詢方法可能比較難理,但是對比原生sql語句的group by方法就會發現類似原理
老版本mysql中
select a, b from t group by a會正常工作,b欄位會自動取第一條,等於是隱式聚合了
新版本mysql中以上語句不能工作,因為預設啟用嚴格模式sql_mode=ONLY_FULL_GROUP_BY,正確方法是:
select a,max(b) as b from t group by,即需要顯示的聚合所有查詢的欄位
對比新版mysql語法會發現跟orm中查詢方法很類似
三、django-ORM之聚合函式和CASE WHEN的使用
業務場景
有這樣一個場景:兩張表,檔案表
和 檔案內容表/query表
,表結構如下,由於公司規定,沒有辦法使用外來鍵,所以使用了邏輯關聯(檔案
和query
是一對多的關係)。
class File(models.Model):
id = models.AutoField(primary_key=True, editable=False)
file_name = models.CharField(max_length=255, db_index=True)
create_time = models.DateTimeField(auto_now_add=True)
status = models.IntegerField(default=1, db_index=True) # 0:已經標完,頁面不可見 1:未標完,頁面可見
hash = models.CharField(max_length=255)
in_mysql = models.IntegerField(default=0, db_index=True) # 0:預設是0,沒有同步。後期同步後,變為1
count = models.IntegerField() # 檔案中query的條數
def __unicode__(self):
return self.file_name
class Meta:
db_table = 'mark_file'
class Query(models.Model):
id = models.AutoField(primary_key=True, editable=False)
query = models.CharField(max_length=255)
status = models.IntegerField(default=0) # 0:未標註,1:白名單,2:黑名單,3:廢棄,4:待擴充
update_time = models.DateTimeField(auto_now=True)
file_id = models.IntegerField(db_index=True) # 根據此欄位進行邏輯關聯
def __unicode__(self):
return self.query
class Meta:
db_table = 'mark_query'
def save(self, *args, **kwargs):
self.update_time = datetime.datetime.now()
super(Query, self).save(*args, **kwargs)
現在需要查詢出id為 1、2、3、4、5、6的檔案資訊,並且計算出各個檔案中對應的各個狀態的query(status=0,status=3,status=4)的數量。以達到下面的效果。
file.png
簡單實現,不考慮效能
如果是不考慮效能問題,可能會使用,先查出id為1、2、3、4、5、6的檔案,再for迴圈一個個count,例如:
for file_obj in file_list:
file_id = file_obj.id
# 未標註
no_recall_count = Query.objects.filter(Q(file_id=file_id) & Q(status=0)).count()
# 已廢棄
no_use_count = Query.objects.filter(Q(file_id=file_id) & Q(status=3)).count()
# 待擴充
no_use_count = Query.objects.filter(Q(file_id=file_id) & Q(status=4)).count()
但是這樣做是最笨,最不合理的做法。這才是6個檔案,如果是100個檔案,應該查詢100✖3=300次資料庫,才能得出最終結果。對於一個介面來說,資料庫操作次數越少越好,查這麼多次簡直是一個天文數字。
其實可以這樣做,一次查詢就可以得出統計結果。(django1.10.8)
from django.db.models import Q, F, Count, When, Case
files_id = [1,2,3,4,5,6]
counts = []
#要用聚合函式Count,所以用annotate分組函式
files_count = Query.objects.filter(file_id__in=files_id).values('file_id').annotate(
no_recall_count=Count(Case(When(status=0, then=0))),
no_use_count=Count(Case(When(status=3, then=0))),
expand=Count(Case(When(status=4, then=0))))
for files_count_obj in files_count:
counts.append({
"file_id": files_count_obj.get('file_id'),
"no_recall_count": files_count_obj.get('no_recall_count'),
"no_use_count": files_count_obj.get('no_use_count'),
"expand_count": files_count_obj.get('expand'),
})
sql語句就是
SELECT `mark_query`.`file_id`,
COUNT(CASE WHEN `mark_query`.`status` = 0 THEN 0 ELSE NULL END) AS `no_recall_count`,
COUNT(CASE WHEN `mark_query`.`status` = 3 THEN 0 ELSE NULL END) AS `no_use_count`,
COUNT(CASE WHEN `mark_query`.`status` = 4 THEN 0 ELSE NULL END) AS `expand`
FROM `mark_query` WHERE `mark_query`.`file_id` IN (1, 2, 3, 4, 5, 6)
GROUP BY `mark_query`.`file_id`;
如果是django2.0以上,還可以這樣(沒有驗證是否可行)
https://www.bbsmax.com/A/KE5QKvLPzL/