Elasticsearch 論壇實戰-使用原生cross-fiels技術解決搜尋弊端

阿新 • • 發佈：2020-12-31

Elasticsearch實戰

準備資料

POST /forum/post/_bulk
{ "index": { "_id": "1"} }
{ "first_name" : "Peter", "last_name" : "Smith" }
{ "index": { "_id": "2"} }
{ "first_name" : "Smith", "last_name" : "Williams" }
{ "index": { "_id": "3"} }
{ "first_name" : "Jack", "last_name" : "Ma" }
{ "index": { "_id": "4"} }
{ "first_name" : "Robbin", "last_name" : "Li" }
{ "index": { "_id": "5"} }
{ "first_name" : "Tonny", "last_name" : "Peter Smith" }

查詢

GET /forum/post/_search
{
  "query": {
    "multi_match": {
      "query": "Peter Smith",
      "type": "cross_fields",
      "operator": "and", 
      "fields": ["first_name","last_name"]
    }
  }
}

問題1：只是找到儘可能多的field匹配的doc，而不是某個field完全匹配的doc --> 解決，要求每個term都必須在任何一個field中出現

Peter，Smith

要求Peter必須在author_first_name或author_last_name中出現
要求Smith必須在author_first_name或author_last_name中出現

Peter Smith可能是橫跨在多個field中的，所以必須要求每個term都在某個field中出現，組合起來才能組成我們想要的標識，完整的人名

原來most_fiels，可能像Smith Williams也可能會出現，因為most_fields要求只是任何一個field匹配了就可以，匹配的field越多，分數越高

問題2：most_fields，沒辦法用minimum_should_match去掉長尾資料，就是匹配的特別少的結果 --> 解決，既然每個term都要求出現，長尾肯定被去除掉了

java hadoop spark --> 這3個term都必須在任何一個field出現了

比如有的document，只有一個field中包含一個java，那就被幹掉了，作為長尾就沒了

問題3：TF/IDF演算法，比如Peter Smith和Smith Williams，搜尋Peter Smith的時候，由於first_name中很少有Smith的，所以query在所有document中的頻率很低，得到的分數很高，可能Smith Williams反而會排在Peter Smith前面 --> 計算IDF的時候，將每個query在每個field中的IDF都取出來，取最小值，就不會出現極端情況下的極大值了

Peter Smith

Peter
Smith

Smith，在author_first_name這個field中，在所有doc的這個Field中，出現的頻率很低，導致IDF分數很高；Smith在所有doc的author_last_name field中的頻率算出一個IDF分數，因為一般來說last_name中的Smith頻率都較高，所以IDF分數是正常的，不會太高；然後對於Smith來說，會取兩個IDF分數中，較小的那個分數。就不會出現IDF分過高的情況。

歡迎諮詢公眾號《小馬JAVA》

Elasticsearch 論壇實戰-使用原生cross-fiels技術解決搜尋弊端

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 POST /forum/post/_bulk { "index": { "_id": "1"} }

Elasticsearch 論壇實戰-基於tie_breaker引數優化dis_max搜尋效果

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 PUT /forum/post/_bulk {"index":{"_id":1}}

Elasticsearch 論壇實戰-使用copy_to定製組合field解決cross-fields搜尋弊端

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰上一講，我們說了，用most_fields策略，去實現cross-fields搜尋，有3大弊端，而且搜尋結果也顯示出了這3大弊端

Elasticsearch 論壇實戰-使用most_fields策略進行cross-fields search弊端揭祕

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰 cross-fields搜尋一個唯一標識，跨了多個field。比如一個人，標識，是姓名；一個建築，它的標識是地址。姓名可以散落在多個field中，比如first_n

Elasticsearch 論壇實戰-使用term filter來搜尋資料

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰根據使用者ID、是否隱藏、帖子ID、發帖日期來搜尋帖子

Elasticsearch 論壇實戰-基於bool組合多個filter條件來搜尋資料

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 PUT /forum/post/_bulk {"index":{"_id":1}}

Elasticsearch 論壇實戰-使用terms搜尋多個值以及多值搜尋結果優化

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 PUT /forum/post/_bulk {"index":{"_id":1}}

Elasticsearch 論壇實戰-如何手動控制全文檢索結果的精準度

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 PUT /forum/post/_bulk {"index":{"_id":1}}

Elasticsearch 論壇實戰-基於dis_max實現best fields策略進行多欄位搜尋

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 PUT /forum/post/_bulk {"index":{"_id":1}}

Elasticsearch 論壇實戰-基於multi_match語法實現dis_max+tie_breaker

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 PUT /forum/post/_bulk {"index":{"_id":1}}

HDC2021技術分論壇：異構組網如何解決共享資源衝突？

相信大家對HarmonyOS的“超級終端”比較熟悉了。那麼，您知道超級終端場景下的多種裝置在不同環境下是如何組成一個網路的嗎？這些裝置之間又是如何解決共享資源衝突的？本期我們就來為您揭曉~

☕【Java實戰系列】「技術盲區」Double與Float的坑與解決辦法以及BigDecimal的取而代之！

探究背景涉及諸如float或者double這兩種浮點型資料的處理時，偶爾總會有一些怪怪的現象，不知道大家注意過沒，舉幾個常見的栗子：

ROS 機器人技術 - 解決不同工作空間存在相同功能包的問題

昨天把一個工作空間的 lidar_camera_fusion 包拷貝到另外一個工作空間編譯，但是名字沒有改變，導致 source 後系統存在 2 個 lidar_camera_fusion 包，使用的時候總是錯誤地啟動另外一個。

隱匿網路（main.ideonet.cn）國內頂級IT技術解決方案提供商

隱匿科技（main.ideonet.cn）的業務體系包含：區塊鏈交易系統、區塊鏈公鏈系統、區塊鏈錢包系統。面向全球提供數字資產交易系統、錢包服務系統、公鏈聯盟鏈等區塊鏈技術解決方案。一直以“成為全球最值得

租車出行如何避免踩坑，區塊鏈技術解決信任問題

車子已經成了我們日常生活中的必需品。據資料統計，我國機動車保有量，去年年底時達到了3.48億量，預測今年會達到3.67億量。我國擁有駕照人數近4億，這說明幾乎每一個家庭，都擁有一臺車。

Elasticsearch腦裂問題詳細分析以及解決方案

技術標籤：網路pythonjava資料庫elasticsearch Elasticsearch腦裂問題詳細分析以及解決方案

日本科學家開發新技術解決鋰電池最大問題：1700 次充放電後依然保持 95% 容量

T 之家 3 月 11 日訊息據外媒 EurekaAlert 報道，來自日本的科研團隊研發了一種新型電池負極材料，可使電池在超過 1700 次充放電迴圈後依然保持 95% 的容量，這款新材料可以使鋰電池能夠滿負荷工作 5 年。

《黑神話：悟空》演講：如何利用技術解決動作難題

近日Epic Games在深圳舉行虛幻引擎Unreal Circle線下技術沙龍活動。會上，遊戲科學的客戶端技術負責人招文勇帶來了關於《黑神話：悟空》在動作技術實現方面的主題演講。

P5488 差分與字首和 NTT技術解決字首和差分

P5488 差分與字首和 NTT技術解決字首和差分題意給出序列\\(a\\)，求出序列\\(a\\)經過\\(k\\)次差分或者字首和後的序列

電商專案實戰-專案需求及技術架構2

1、專案需求（1）統計頁面的瀏覽量PV---使用mapreduce統計（2）統計各個省份的瀏覽量---省、市---ip統計

Elasticsearch 論壇實戰-使用原生cross-fiels技術解決搜尋弊端

準備資料

歡迎諮詢公眾號《小馬JAVA》

相關推薦