django orm aggregate()和annotate() 以及 CASE WHEN的使用【終於理解了】

阿新 • • 發佈：2020-12-21

一、django orm aggregate()和annotate()

aggregate 和 annotate 用於查詢查詢結果集的，區別在於aggregate 是全部結果集的查詢，annotate則是分組查詢的。

一般會用到功能函式Avg、Max、Min、Count、Sum。

1.aggregate(*args,**kwargs) 聚合函式

通過對QuerySet進行計算，返回一個聚合值的字典。aggregate()中每一個引數都指定一個包含在字典中的返回值。即在查詢集上生成聚合。
aggregate()為所有的QuerySet生成一個彙總值，相當於Count()。返回結果型別為字典Dict。

示例：

from django.db.models import Avg,Sum,Max,Min
#求書籍的平均價
ret=models.Book.objects.all().aggregate(Avg('price'))
#{'price__avg': 145.23076923076923}

2.annotate(*args,**kwargs) 分組函式

annotate()為每一個QuerySet在指定屬性上生成彙總值，相當於GROUP BY。返回結果型別QuerySet。

from django.db.models import Avg,Sum,Max,Min
#檢視每一位作者出過的書中最貴的一本（按作者名分組 values() 然後annotate 分別取每人出過的書價格最高的）
ret=models.Book.objects.values('author__name').annotate(Max('price'))
  # < QuerySet[
  # {'author__name': '吳承恩', 'price__max': Decimal('234.000')},
  # {'author__name': '呂不韋','price__max': Decimal('234.000')},
  # {'author__name': '姜子牙', 'price__max': Decimal('123.000')},
  # {'author__name': '亞微',price__max': Decimal('123.000')},
  # {'author__name': '伯夷 ', 'price__max': Decimal('2010.000')},
  # {'author__name': '叔齊','price__max': Decimal('200.000')},
  # {'author__name': '陳濤', 'price__max': Decimal('234.000')},
  # {'author__name': '高路川', price__max': Decimal('234.000')}
  # ] >

二、orm中利用annotate進行group by 詳解

用法

之前的orm的group by方法在django 1.8 中已經不能使用，需要利用annotate來實現

示例1

第一個values用來選中需要用來group by的欄位（此處group by user_id），之後緊跟annotate來分組並聚合需要的欄位（需要每個user_id對應的question_id的數量和catalog_id的最小值），之後再values來實際查詢需要的欄位（原user_id和聚合後的欄位的別名）

第一個values用來指定用來group by的欄位，裡面必須是Count、Min等等聚合函式（例如用F("user_id")取別名是不行的），不需要最終查詢的就不必聚合了

第二個values用來指定實際select的欄位，只能指定annotate後的欄位名（以此處為例：user_id是用來分組的欄位，可以直接取，而其他欄位必須聚合並使用聚合後的別名，qid和cid，假如原表還有個欄位status，annotate中沒有聚合此欄位，所以最後value不能查詢該欄位）

q = PxbNCEUserQuest.objects.filter(user_id=335).values("user_id").annotate(qid=Min("question_id"), cid=Min("catalog_id")).values("user_id", "qid", "cid")

print q

print q.query

# 輸出
[{'qid': 22, 'user_id': 335L, 'cid': 17}]
SELECT `pxb_nce_user_quest`.`user_id`, MIN(`pxb_nce_user_quest`.`question_id`) AS `qid`, MIN(`pxb_nce_user_quest`.`catalog_id`) AS `cid` FROM `pxb_nce_user_quest` WHERE `pxb_nce_user_quest`.`user_id` = 335 GROUP BY `pxb_nce_user_quest`.`user_id` ORDER BY NULL

示例2

與示例1一樣，但是此處第一個annotate用來分組欄位，第二個annotate用來單獨別名其他欄位

q = PxbNCEUserQuest.objects.filter(user_id=335).values("user_id").annotate(qid=Min("question_id"), cid=Min("catalog_id")).annotate(uid=F("user_id")).values("uid", "qid", "cid")

print q
print q.query
# 輸出：
[{'qid': 22, 'uid': 335L, 'cid': 17}]

SELECT MIN(`pxb_nce_user_quest`.`question_id`) AS `qid`, MIN(`pxb_nce_user_quest`.`catalog_id`) AS `cid`, `pxb_nce_user_quest`.`user_id` AS `uid` FROM `pxb_nce_user_quest` WHERE `pxb_nce_user_quest`.`user_id` = 335 GROUP BY `pxb_nce_user_quest`.`user_id` ORDER BY NULL

舉例:

SomeModel.objects.annotate(Count('somecol'))

GROUP BY: 所有欄位

SomeModel.objects.values('name').annotate(Count('somecol'))

GROUP BY: name欄位,聚合somecol

SomeModel.objects.annotate(Count('somecol')).values('name')

GROUP BY: 所有欄位，查詢name

SomeModel.objects.values('name', 'pk').annotate(Count('somecol')).values('pk')

GROUP BY: name, pk欄位，查詢pk欄位

SomeModel.objects.values('name').annotate(Count('somecol')).values('pk')

GROUP BY: name, pk欄位，查詢pk欄位

關聯知識：

剛開始上面的查詢方法可能比較難理，但是對比原生sql語句的group by方法就會發現類似原理

老版本mysql中

select a, b from t group by a會正常工作，b欄位會自動取第一條，等於是隱式聚合了

新版本mysql中以上語句不能工作，因為預設啟用嚴格模式sql_mode=ONLY_FULL_GROUP_BY，正確方法是：

select a,max(b) as b from t group by，即需要顯示的聚合所有查詢的欄位

對比新版mysql語法會發現跟orm中查詢方法很類似

三、django-ORM之聚合函式和CASE WHEN的使用

業務場景

有這樣一個場景：兩張表，檔案表 和 檔案內容表/query表，表結構如下，由於公司規定，沒有辦法使用外來鍵，所以使用了邏輯關聯（檔案和query是一對多的關係）。

class File(models.Model):
    id = models.AutoField(primary_key=True, editable=False)
    file_name = models.CharField(max_length=255, db_index=True)
    create_time = models.DateTimeField(auto_now_add=True)
    status = models.IntegerField(default=1, db_index=True)  # 0：已經標完，頁面不可見  1：未標完，頁面可見
    hash = models.CharField(max_length=255)
    in_mysql = models.IntegerField(default=0, db_index=True)  # 0：預設是0，沒有同步。後期同步後，變為1
    count = models.IntegerField()  # 檔案中query的條數

    def __unicode__(self):
        return self.file_name

    class Meta:
        db_table = 'mark_file'

class Query(models.Model):
    id = models.AutoField(primary_key=True, editable=False)
    query = models.CharField(max_length=255)
    status = models.IntegerField(default=0)  # 0：未標註，1：白名單，2：黑名單，3：廢棄，4：待擴充
    update_time = models.DateTimeField(auto_now=True)
    file_id = models.IntegerField(db_index=True)  # 根據此欄位進行邏輯關聯
    
    def __unicode__(self):
        return self.query

    class Meta:
        db_table = 'mark_query'

    def save(self, *args, **kwargs):
        self.update_time = datetime.datetime.now()
        super(Query, self).save(*args, **kwargs)

現在需要查詢出id為 1、2、3、4、5、6的檔案資訊，並且計算出各個檔案中對應的各個狀態的query（status=0，status=3，status=4）的數量。以達到下面的效果。

file.png

簡單實現，不考慮效能

如果是不考慮效能問題，可能會使用，先查出id為1、2、3、4、5、6的檔案，再for迴圈一個個count，例如：

for file_obj in file_list:
    file_id = file_obj.id
    # 未標註
    no_recall_count = Query.objects.filter(Q(file_id=file_id) & Q(status=0)).count()
    # 已廢棄
    no_use_count = Query.objects.filter(Q(file_id=file_id) & Q(status=3)).count()
    # 待擴充
    no_use_count = Query.objects.filter(Q(file_id=file_id) & Q(status=4)).count()

但是這樣做是最笨，最不合理的做法。這才是6個檔案，如果是100個檔案，應該查詢100✖3=300次資料庫，才能得出最終結果。對於一個介面來說，資料庫操作次數越少越好，查這麼多次簡直是一個天文數字。

其實可以這樣做，一次查詢就可以得出統計結果。(django1.10.8)

from django.db.models import Q, F, Count, When, Case

files_id = [1,2,3,4,5,6]
counts = []
#要用聚合函式Count，所以用annotate分組函式
files_count = Query.objects.filter(file_id__in=files_id).values('file_id').annotate(
            no_recall_count=Count(Case(When(status=0, then=0))), 
            no_use_count=Count(Case(When(status=3, then=0))),
            expand=Count(Case(When(status=4, then=0))))

for files_count_obj in files_count:  
    counts.append({
        "file_id": files_count_obj.get('file_id'),
        "no_recall_count": files_count_obj.get('no_recall_count'),
        "no_use_count": files_count_obj.get('no_use_count'),
        "expand_count": files_count_obj.get('expand'),
        })

sql語句就是

SELECT `mark_query`.`file_id`, 
COUNT(CASE WHEN `mark_query`.`status` = 0 THEN 0 ELSE NULL END) AS `no_recall_count`, 
COUNT(CASE WHEN `mark_query`.`status` = 3 THEN 0 ELSE NULL END) AS `no_use_count`, 
COUNT(CASE WHEN `mark_query`.`status` = 4 THEN 0 ELSE NULL END) AS `expand` 
FROM `mark_query` WHERE `mark_query`.`file_id` IN (1, 2, 3, 4, 5, 6) 
GROUP BY `mark_query`.`file_id`;

如果是django2.0以上，還可以這樣（沒有驗證是否可行）
https://www.bbsmax.com/A/KE5QKvLPzL/

參考連結：https://www.jianshu.com/p/6a5fb253e167

django orm aggregate()和annotate() 以及 CASE WHEN的使用【終於理解了】

一、django orm aggregate()和annotate()

1.aggregate(*args,**kwargs) 聚合函式

2.annotate(*args,**kwargs) 分組函式

二、orm中利用annotate進行group by 詳解

三、django-ORM之聚合函式和CASE WHEN的使用

業務場景

簡單實現，不考慮效能

其實可以這樣做，一次查詢就可以得出統計結果。(django1.10.8)

django orm aggregate()和annotate() 以及 CASE WHEN的使用【終於理解了】

Django-ORM-事務和鎖

3.django orm對欄位以及資料的增刪改查

如何用ORM支援SQL語句的CASE WHEN？

aggregate和annotate⽅法

javascript實現的圖片預覽和上傳功能示例【相容IE 9】

Android和IDEA部署app專案【軟體測試培訓】【多測師_王sir】

騰訊的表妹告訴我怎麼學Python，今天就教我搭建Python環境和基本語法，我【碼上開始】

海來阿木-不過人間和 DJ沈念版【超品質MP3】

Django ORM使用Case和When條件表示式

django ORM之values和annotate使用詳解

django-orm F物件的使用按照兩個欄位的和,乘積排序例項

建立時間和更新時間兩個選一個的情況和select case when ... then ... else ... end from 表的使用

Django框架之ORM解析和實際應用

MySQL case when then 語句使用和時間函式使用

django-orm聚合查詢和原生資料庫查詢

SQL同一個欄位出現null和0值，有何區別，原因是什麼？left join導致null值出現，case when導致0值出現

05 Django ORM 常用欄位和引數

django使用原生的sql以及ORM操作mysql

Django學習——圖書管理系統圖書修改、orm常用和非常用欄位（瞭解）、 orm欄位引數（瞭解）、欄位關係（瞭解）、手動建立第三張表、Meta元資訊、原生SQL、Django與ajax(入門)

django orm aggregate()和annotate() 以及 CASE WHEN的使用 【終於理解了】

一、django orm aggregate()和annotate()

1.aggregate(*args,**kwargs) 聚合函式

2.annotate(*args,**kwargs) 分組函式

二、orm中利用annotate進行group by 詳解

三、django-ORM之聚合函式和CASE WHEN的使用

業務場景

簡單實現，不考慮效能

其實可以這樣做，一次查詢就可以得出統計結果。(django1.10.8)

相關推薦

django orm aggregate()和annotate() 以及 CASE WHEN的使用【終於理解了】