Elasticsearch 論壇實戰-使用most_fields策略進行cross-fields search弊端揭祕

阿新 • • 發佈：2021-01-04

Elasticsearch實戰

cross-fields搜尋 一個唯一標識，跨了多個field。比如一個人，標識，是姓名；一個建築，它的標識是地址。姓名可以散落在多個field中，比如first_name和last_name中，地址可以散落在country，province，city中。

跨多個field搜尋一個標識，比如搜尋一個人名，或者一個地址，就是cross-fields搜尋

初步來說，如果要實現，可能用most_fields比較合適。因為best_fields是優先搜尋單個field最匹配的結果，cross-fields本身就不是一個field的問題了。

準備資料

POST /forum/post/_bulk
{ "index": { "_id": "1"} }
{ "first_name" : "Peter", "last_name" : "Smith" }
{ "index": { "_id": "2"} }
{ "first_name" : "Smith", "last_name" : "Williams" }
{ "index": { "_id": "3"} }
{ "first_name" : "Jack", "last_name" : "Ma" }
{ "index": { "_id": "4"} }
{ "first_name" : "Robbin", "last_name" : "Li" }
{ "index": { "_id": "5"} }
{ "first_name" : "Tonny", "last_name" : "Peter Smith" }

查詢

GET /forum/post/_search
{
  "query": {
    "multi_match": {
      "query": "Peter Smith",
      "type": "most_fields",  
      "fields": ["first_name","last_name"]
    }
  }
}

#! Deprecation: [types removal] Specifying types in search requests is deprecated.

{
"took" : 6,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 3,
"relation" : "eq"
},
"max_score" : 2.3258216,
"hits" : [
{
"_index" : "forum",
"_type" : "post",
"_id" : "1",
"_score" : 2.3258216,
"_source" : {
"first_name" : "Peter",
"last_name" : "Smith"
}
},
{
"_index" : "forum",
"_type" : "post",
"_id" : "5",
"_score" : 1.7770997,
"_source" : {
"first_name" : "Tonny",
"last_name" : "Peter Smith"
}
},
{
"_index" : "forum",
"_type" : "post",
"_id" : "2",
"_score" : 1.3862942,
"_source" : {
"first_name" : "Smith",
"last_name" : "Williams"
}
}
]
}
}

問題

Peter Smith，匹配author_first_name，匹配到了Smith，這時候它的分數很高，為什麼啊？？？
因為IDF分數高，IDF分數要高，那麼這個匹配到的term（Smith），在所有doc中的出現頻率要低，author_first_name field中，Smith就出現過1次
Peter Smith這個人，doc 1，Smith在author_last_name中，但是author_last_name出現了兩次Smith，所以導致doc 1的IDF分數較低

不要有過多的疑問，一定是這樣嗎？這個恐怕只有ES評分演算法核心人員才清楚了……

弊端

問題1：只是找到儘可能多的field匹配的doc，而不是某個field完全匹配的doc

問題2：most_fields，沒辦法用minimum_should_match去掉長尾資料，就是匹配的特別少的結果

問題3：TF/IDF演算法，比如Peter Smith和Smith Williams，搜尋Peter Smith的時候，由於first_name中很少有Smith的，所以query在所有document中的頻率很低，得到的分數很高，可能Smith Williams反而會排在Peter Smith前面

歡迎諮詢公眾號《小馬JAVA》

Elasticsearch 論壇實戰-使用most_fields策略進行cross-fields search弊端揭祕

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰 cross-fields搜尋一個唯一標識，跨了多個field。比如一個人，標識，是姓名；一個建築，它的標識是地址。姓名可以散落在多個field中，比如first_n

Elasticsearch 論壇實戰-基於dis_max實現best fields策略進行多欄位搜尋

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 PUT /forum/post/_bulk {"index":{"_id":1}}

Elasticsearch 論壇實戰-使用copy_to定製組合field解決cross-fields搜尋弊端

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰上一講，我們說了，用most_fields策略，去實現cross-fields搜尋，有3大弊端，而且搜尋結果也顯示出了這3大弊端

Elasticsearch 論壇實戰-使用原生cross-fiels技術解決搜尋弊端

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 POST /forum/post/_bulk { "index": { "_id": "1"} }

Elasticsearch 論壇實戰-使用term filter來搜尋資料

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰根據使用者ID、是否隱藏、帖子ID、發帖日期來搜尋帖子

Elasticsearch 論壇實戰-基於bool組合多個filter條件來搜尋資料

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 PUT /forum/post/_bulk {"index":{"_id":1}}

Elasticsearch 論壇實戰-使用terms搜尋多個值以及多值搜尋結果優化

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 PUT /forum/post/_bulk {"index":{"_id":1}}

Elasticsearch 論壇實戰-如何手動控制全文檢索結果的精準度

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 PUT /forum/post/_bulk {"index":{"_id":1}}

Elasticsearch 論壇實戰-基於multi_match語法實現dis_max+tie_breaker

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 PUT /forum/post/_bulk {"index":{"_id":1}}

Elasticsearch 論壇實戰-基於tie_breaker引數優化dis_max搜尋效果

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 PUT /forum/post/_bulk {"index":{"_id":1}}

設計模式實戰之策略模式

概念介面提供抽象策略方法，由實現類提供具體的策略，並在使用時能整體替換。

K8S(16)整合實戰-使用spinnaker進行自動化部署

K8s整合實戰-使用spinnaker進行自動化部署 1spinnaker概述和選型 1.1 概述 1.1.1 主要功能

組策略從入門到精通（十）通過組策略進行軟體分發和解除安裝

其實在前面windows server 2008的一些博文中，已經介紹瞭如何通過組策略進行軟體的分發，在windows server 2003中有些無法完成的軟體分發工作在windows server 2008中已經全部糾正了。http://zhengweiit.

K8s整合實戰-使用spinnaker進行自動化部署

K8s整合實戰-使用spinnaker進行自動化部署 1 spinnaker概述和選型 1.1 概述 1.1.1 主要功能

Linux伺服器利用防火牆iptables策略進行埠跳轉的方法

兩臺不同伺服器轉發開啟埠轉發的功能首先開啟IP轉發功能，預設是關閉的。

樸素貝葉斯分類-實戰篇-如何進行文字分類

微信公眾號：碼農充電站pro 個人主頁：https://codeshellme.github.io 上篇介紹了樸素貝葉斯的原理，本篇來介紹如何用樸素貝葉斯解決實際問題。

【elasticsearch】——用ILM策略自動完成冷熱資料分離【轉】

原文連結：https://blog.csdn.net/weixin_40449300/article/details/106034912 一、前言從Elastic Stack 迎來 6.6 版本後，就增加了ILM生命週期管理的功能。下面我們從以下幾個方面來分析：

ElasticSearch叢集shard均衡策略

shard分配策略叢集分片分配是指將索引的shard分配到其他節點的過程，會在如下情況下觸發：

ABP 使用ElasticSearch、Kibana、Docker 進行日誌收集

ABP 使用ElasticSearch、Kibana、Docker 進行日誌收集後續會根據公司使用的技術，進行技術整理分享，都是乾貨哦別忘了關注我！！！

初學者都能學會的ElasticSearch入門實戰

大家好，我是咔咔不期速成，日拱一卒專案中準備使用ElasticSearch，之前只是對ElasticSearch有過簡單的瞭解沒有系統的學習，本系列文章將從基礎的學習再到深入的使用。

Elasticsearch 論壇實戰-使用most_fields策略進行cross-fields search弊端揭祕

歡迎諮詢公眾號《小馬JAVA》

相關推薦