1. 程式人生 > >elasticsearch(12)用function_score自定義相關度分數演算法

elasticsearch(12)用function_score自定義相關度分數演算法

轉載自CSDN本文連結地址: ElasticSearch用function_score自定義相關度分數演算法

需求

  1. 在field: tile 和 content 中查詢 java spark 的doc
  2. 要求follower_num越多的 doc 分數越高。(看帖子的人越多,那麼帖子的分數就越高)

function_score函式:

  • 我們可以做到自定義一個function_score函式
  • 自己將某個field的值,跟es內建算出來的分數進行運算
  • 然後由自己指定的field來進行分數的增強

例子

給所有的帖子資料增加follower數量

POST /forum/article/_bulk
{ "update": { "_id": "1"} }
{ "doc" : {"follower_num" : 5} }
{ "update": { "_id": "2"} }
{ "doc" : {"follower_num" : 10} }
{ "update": { "_id": "3"} }
{ "doc" : {"follower_num" : 25} }
{ "update": { "_id": "4"} }
{ "doc" : {"follower_num" : 3} }
{ "update": { "_id": "5"} }
{
"doc" : {"follower_num" : 60} }
  • 將對帖子搜尋得到的分數,跟follower_num進行運算,由follower_num在一定程度上增強帖子的分數
  • 看帖子的人越多,那麼帖子的分數就越高
GET /forum/article/_search
{
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query": "java spark",
          "fields": ["tile", "content"]
} }, "field_value_factor": { "field": "follower_num", "modifier": "log1p", "factor": 0.5 }, "boost_mode": "sum", "max_boost": 2 } } }
  • field_value_factor中如果只有field,那麼會將每個doc的分數都乘以follower_num,如果有的doc follower是0,那麼分數就會變為0,效果很不好。
  • 因此一般會加個log1p函式,公式會變為,new_score = old_score * log(1 + number_of_votes),這樣出來的分數會比較合理
  • 再加個factor,可以進一步影響分數,new_score = old_score * log(1 + factor * number_of_votes)
  • boost_mode,可以決定分數與指定欄位的值如何計算,multiply,sum,min,max,replace
  • max_boost,限制計算出來的分數不要超過max_boost指定的值