1. 程式人生 > 程式設計 >使用Django和Postgres進行全文搜尋的例項程式碼

使用Django和Postgres進行全文搜尋的例項程式碼

這些天,我需要全文搜尋。這個區塊中最酷的孩子們是Elastic Search和Sorl:他們快速,靈活,資源消耗沉重並且需要Java,這幾乎是我想要的一個5美元的數字海洋飛車上執行的寵物專案所需的所有東西。

放棄這些選項後,我剩下了Xapian和postgres全文搜尋的功能,而xapian似乎功能更豐富,我決定從postgres開始,因為它與django進行了本機整合,並且對這個特定專案的要求不高。

專案及其要求

您可能已經注意到,我正在執行工作板。 Voorjob基本上是從lever.co聚合工作,並讓使用者搜尋它。目前,我在資料庫中大約有25,000個工作,這個數字增長緩慢,每增加2或3個工作,就會關閉另一個工作。是的,如果我採用了彈性搜尋路徑,那將是一本教科書過度設計的情況。

實施

從9.4版開始,postgres添加了一些允許全文字搜尋的功能。不久之後,Django在postgres特定功能中映象了這些功能。

要開始使用此新功能,我基本上需要在模型中使用SearchVectorField,並需要使用向量化的職位描述來更新此欄位的方法:

from django.contrib.postgres.search import SearchVectorField,SearchVector
class Job(models.Model):
  title = models.CharField(max_length=200,blank=True)
  location = models.CharField(max_length=50,blank=True)
  body = models.TextField(null=True)
  body_vector = SearchVectorField(null=True)
 
  def make_search_vector():
    self.body_vector=SearchVector('body')
 
  def save(self,*args,**kwargs):
    self.make_search_vector()
    super(Model,self).save(*args,**kwargs)

這種方法適用於很少更新的工作,例如工作板,但是如果您的應用程式經常更新,則應避免使用此策略,並應定期執行一些任務來填充向量:

Job.objects.all().update(body_vector=SearchVector('body'))

甚至更好的是,您可以通過閱讀本文件,使用postgres觸發器直接進行操作。

查詢工作

現在您已經準備好資料庫,現在可以查詢它了,讓我們看一下voorjob搜尋檢視的教學版本:

from django.contrib.postgres.search import SearchQuery
 
class Index(ListView):
  model = Job
  paginate_by = 30
 
  def get_queryset(self):
    search = self.request.GET.get("search",None)
    queryset = Job.objects.all()
 
    if search:
      if '"' in search:
        query = SearchQuery(search.replace('"',''),search_type='phrase')
      else:
        query = SearchQuery(search)
      queryset = queryset.filter(body_vector=query)
    else:
      queryset = queryset
 
    return queryset

我基本上在這裡考慮兩種查詢:單詞存在和“精確表示式”。是的,該邏輯中存在一些缺陷,請繼續起訴我:D

還有很多可以改進的地方,django支援加權查詢:

vector = SearchVector('title',weight ='A')+ SearchVector('body',weight ='B')
Job.objects.all()。update(body_vector = vector)

這最終將以更好的順序返回結果,其中標題中的匹配比正文中的匹配更重。

查詢系統也更加靈活,允許進行邏輯運算OR / AND和NOT。在不久的將來,我將改善對工作板的搜尋,並更新此帖子以描述所做的更改。

效能

在開發過程中,我使用了具有16GB記憶體和不錯的NVMe的I5。對本地計算機中的25k作業執行查詢基本上是瞬時的。

當我將專案轉移到生產環境時(每滴5美元),事情變得越來越慢了。

執行密西西比基準測試,我得到以下結果:

在/ django rest framework上搜索((1個密西西比州以掃描5K條目))

在/ full /上搜索“ django rest framework”(-3個密西西比州,掃描25K條目)

不是最好的效能,但現在可以使用。本文將進行更新以反映任何效能改進。

考慮到我的搜尋需求不高-超過25k的條目,且字數過多的文章並不比本文大很多-使用postgres作為我的全文搜尋的後端,對於此早期MVP來說效果很好。現在,我比每天給我20個使用者提供最快的體驗,對嘗試事物和擴大董事會成員更感興趣。

更新(2020年2月9日)

好訊息! 我瞭解到可以將索引新增到SearchVectorField中:

from django.contrib.postgres.indexes import GinIndex
 
class Job(models.Model):
  class Meta:
    indexes = (GinIndex(fields=["body_vector"]),)
  title = models.CharField(max_length=200,blank=True)
  body = models.TextField(null=True)
  body_vector = SearchVectorField(null=True)
  def make_search_vector():
    self.body_vector=SearchVector('body')
  def save(self,**kwargs)

現在,所有情況下的搜尋時間均降至1個密西西比州。 由於我的資料很小,因此用於該索引的記憶體量可以忽略不計。

總結

以上所述是小編給大家介紹的使用Django和Postgres進行全文搜尋的例項程式碼,希望對大家有所幫助!