ElasticSearch教程——精準全文檢索

阿新 • • 發佈：2018-11-08

ElasticSearch彙總請檢視：ElasticSearch教程——彙總篇

1、為帖子資料增加標題欄位

POST /forum/article/_bulk
{ "update": { "_id": "1"} }
{ "doc" : {"title" : "this is java and elasticsearch blog"} }
{ "update": { "_id": "2"} }
{ "doc" : {"title" : "this is java blog"} }
{ "update": { "_id": "3"} }
{ "doc" : {"title" : "this is elasticsearch blog"} }
{ "update": { "_id": "4"} }
{ "doc" : {"title" : "this is java, elasticsearch, hadoop blog"} }
{ "update": { "_id": "5"} }
{ "doc" : {"title" : "this is spark blog"} }

2、搜尋標題中包含java或elasticsearch的blog

這個，就跟term query（termQuery不帶分詞器）不一樣了。不是搜尋exact value，是進行full text全文檢索。
match query，是負責進行全文檢索的。當然，如果要檢索的field，是not_analyzed型別的，那麼match query也相當於term query。

GET /forum/article/_search
{
    "query": {
        "match": {
            "title": "java elasticsearch"
        }
    }
}

3、搜尋標題中包含java和elasticsearch的blog

搜尋結果精準控制的第一步：靈活使用and關鍵字，如果你是希望所有的搜尋關鍵字都要匹配的，那麼就用and，可以實現單純match query無法實現的效果

GET /forum/article/_search
{
    "query": {
        "match": {
            "title": {
		"query": "java elasticsearch",
		"operator": "and"
   	    }
        }
    }
}

4、搜尋包含java，elasticsearch，spark，hadoop，4個關鍵字中，至少3個的blog

控制搜尋結果的精準度的第二步：指定一些關鍵字中，必須至少匹配其中的多少個關鍵字，才能作為結果返回

minimum_should_match，主要是用來幹嘛的？
去長尾，long tail
長尾，比如你搜索5個關鍵詞，但是很多結果是隻匹配1個關鍵詞的，其實跟你想要的結果相差甚遠，這些結果就是長尾
minimum_should_match，控制搜尋結果的精準度，只有匹配一定數量的關鍵詞的資料，才能返回

GET /forum/article/_search
{
  "query": {
    "match": {
      "title": {
        "query": "java elasticsearch spark hadoop",
        "minimum_should_match": "75%"
      }
    }
  }
}

5、用bool組合多個搜尋條件，來搜尋title

GET /forum/article/_search
{
  "query": {
    "bool": {
      "must":     { "match": { "title": "java" }},
      "must_not": { "match": { "title": "spark"  }},
      "should": [
                  { "match": { "title": "hadoop" }},
                  { "match": { "title": "elasticsearch"   }}
      ]
    }
  }
}

6、bool組合多個搜尋條件，如何計算relevance score

must和should搜尋對應的分數，加起來，除以must和should的總數

排名第一：java，同時包含should中所有的關鍵字，hadoop，elasticsearch
排名第二：java，同時包含should中的elasticsearch
排名第三：java，不包含should中的任何關鍵字

should是可以影響相關度分數的

must是確保說，誰必須有這個關鍵字，同時會根據這個must的條件去計算出document對這個搜尋條件的relevance score
在滿足must的基礎之上，should中的條件，不匹配也可以，但是如果匹配的更多，那麼document的relevance score就會更高

結果：

{
  "took": 6,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 3,
    "max_score": 1.3375794,
    "hits": [
      {
        "_index": "forum",
        "_type": "article",
        "_id": "4",
        "_score": 1.3375794,
        "_source": {
          "articleID": "QQPX-R-3956-#aD8",
          "userID": 2,
          "hidden": true,
          "postDate": "2017-01-02",
          "tag": [
            "java",
            "elasticsearch"
          ],
          "tag_cnt": 2,
          "view_cnt": 80,
          "title": "this is java, elasticsearch, hadoop blog"
        }
      },
      {
        "_index": "forum",
        "_type": "article",
        "_id": "1",
        "_score": 0.53484553,
        "_source": {
          "articleID": "XHDK-A-1293-#fJ3",
          "userID": 1,
          "hidden": false,
          "postDate": "2017-01-01",
          "tag": [
            "java",
            "hadoop"
          ],
          "tag_cnt": 2,
          "view_cnt": 30,
          "title": "this is java and elasticsearch blog"
        }
      },
      {
        "_index": "forum",
        "_type": "article",
        "_id": "2",
        "_score": 0.19856805,
        "_source": {
          "articleID": "KDKE-B-9947-#kL5",
          "userID": 1,
          "hidden": false,
          "postDate": "2017-01-02",
          "tag": [
            "java"
          ],
          "tag_cnt": 1,
          "view_cnt": 50,
          "title": "this is java blog"
        }
      }
    ]
  }
}

7、搜尋java，hadoop，spark，elasticsearch，至少包含其中3個關鍵字

預設情況下，should是可以不匹配任何一個的，比如上面的搜尋中，this is java blog，就不匹配任何一個should條件
但是有個例外的情況，如果沒有must的話，那麼should中必須至少匹配一個才可以
比如下面的搜尋，should中有4個條件，預設情況下，只要滿足其中一個條件，就可以匹配作為結果返回

但是可以精準控制，should的4個條件中，至少匹配幾個才能作為結果返回

GET /forum/article/_search
{
  "query": {
    "bool": {
      "should": [
        { "match": { "title": "java" }},
        { "match": { "title": "elasticsearch"   }},
        { "match": { "title": "hadoop"   }},
	{ "match": { "title": "spark"   }}
      ],
      "minimum_should_match": 3 
    }
  }
}

總結

1、全文檢索的時候，進行多個值的檢索，有兩種做法：match query，should；
2、控制搜尋結果精準度：and operator，minimum_should_match

ElasticSearch教程——精準全文檢索

1、為帖子資料增加標題欄位

2、搜尋標題中包含java或elasticsearch的blog

3、搜尋標題中包含java和elasticsearch的blog

4、搜尋包含java，elasticsearch，spark，hadoop，4個關鍵字中，至少3個的blog

5、用bool組合多個搜尋條件，來搜尋title

6、bool組合多個搜尋條件，如何計算relevance score

7、搜尋java，hadoop，spark，elasticsearch，至少包含其中3個關鍵字

總結

ElasticSearch教程——精準全文檢索

Elasticsearch：什麼是全文檢索？

基於ElasticSearch實現商品的全文檢索檢索

MongoDB資料自動同步到ElasticSearch（實現中文全文檢索）

14套java精品高級架構課，緩存架構，深入Jvm虛擬機，全文檢索Elasticsearch視頻教程

Elasticsearch全文搜尋控制精準度

6_ElatisSearch 控制全文檢索結果的精準度

全文檢索學習歷程目錄結構Lucene、ElasticSearch

Elasticsearch學習之深入搜索一 --- 提高查詢的精準度

Elasticsearch全文檢索，高亮關鍵字

Elasticsearch全文檢索工具入門

全文檢索及ElasticSearch框架學習

ElasticSearch 全文檢索— ElasticSearch 核心概念

lucene教程--全文檢索技術

TB級Elasticsearch全文檢索優化研究

全文檢索ElasticSearch與Spring boot集成實例

Elasticsearch學習之深入搜尋一 --- 提高查詢的精準度

全文搜尋引擎 Elasticsearch 教程

Elasticsearch全文檢索之copy_to

springboot整合elasticsearch全文檢索入門

ElasticSearch教程——精準全文檢索

1、為帖子資料增加標題欄位

2、搜尋標題中包含java或elasticsearch的blog

3、搜尋標題中包含java和elasticsearch的blog

4、搜尋包含java，elasticsearch，spark，hadoop，4個關鍵字中，至少3個的blog

5、用bool組合多個搜尋條件，來搜尋title

6、bool組合多個搜尋條件，如何計算relevance score

7、搜尋java，hadoop，spark，elasticsearch，至少包含其中3個關鍵字

總結

相關推薦