1. 程式人生 > 其它 >Elasticsearch 論壇實戰-使用原生cross-fiels技術解決搜尋弊端

Elasticsearch 論壇實戰-使用原生cross-fiels技術解決搜尋弊端

技術標籤:Elasticsearch實戰elasticsearch

Elasticsearch實戰

準備資料

POST /forum/post/_bulk
{ "index": { "_id": "1"} }
{ "first_name" : "Peter", "last_name" : "Smith" }
{ "index": { "_id": "2"} }
{ "first_name" : "Smith", "last_name" : "Williams" }
{ "index": { "_id": "3"} }
{ "first_name" : "Jack", "last_name" : "Ma" }
{ "index": { "_id": "4"} }
{ "first_name" : "Robbin", "last_name" : "Li" }
{ "index": { "_id": "5"} }
{ "first_name" : "Tonny", "last_name" : "Peter Smith" }

查詢

GET /forum/post/_search
{
  "query": {
    "multi_match": {
      "query": "Peter Smith",
      "type": "cross_fields",
      "operator": "and", 
      "fields": ["first_name","last_name"]
    }
  }
}

問題1:只是找到儘可能多的field匹配的doc,而不是某個field完全匹配的doc --> 解決,要求每個term都必須在任何一個field中出現

Peter,Smith

要求Peter必須在author_first_name或author_last_name中出現
要求Smith必須在author_first_name或author_last_name中出現

Peter Smith可能是橫跨在多個field中的,所以必須要求每個term都在某個field中出現,組合起來才能組成我們想要的標識,完整的人名

原來most_fiels,可能像Smith Williams也可能會出現,因為most_fields要求只是任何一個field匹配了就可以,匹配的field越多,分數越高

問題2:most_fields,沒辦法用minimum_should_match去掉長尾資料,就是匹配的特別少的結果 --> 解決,既然每個term都要求出現,長尾肯定被去除掉了

java hadoop spark --> 這3個term都必須在任何一個field出現了

比如有的document,只有一個field中包含一個java,那就被幹掉了,作為長尾就沒了

問題3:TF/IDF演算法,比如Peter Smith和Smith Williams,搜尋Peter Smith的時候,由於first_name中很少有Smith的,所以query在所有document中的頻率很低,得到的分數很高,可能Smith Williams反而會排在Peter Smith前面 --> 計算IDF的時候,將每個query在每個field中的IDF都取出來,取最小值,就不會出現極端情況下的極大值了

Peter Smith

Peter
Smith

Smith,在author_first_name這個field中,在所有doc的這個Field中,出現的頻率很低,導致IDF分數很高;Smith在所有doc的author_last_name field中的頻率算出一個IDF分數,因為一般來說last_name中的Smith頻率都較高,所以IDF分數是正常的,不會太高;然後對於Smith來說,會取兩個IDF分數中,較小的那個分數。就不會出現IDF分過高的情況。

歡迎諮詢公眾號《小馬JAVA》