Elasticsearch Suggester API(自動補全）

阿新 • • 發佈：2018-09-02

[] lower borde image 檢索標記定義 spa max

1.概念

1.補全api主要分為四類

Term Suggester（糾錯補全，輸入錯誤的情況下補全正確的單詞）
Phrase Suggester（自動補全短語，輸入一個單詞補全整個短語）
Completion Suggester(完成補全單詞，輸出如前半部分，補全整個單詞）
Context Suggester（上下文補全）

整體效果類似百度搜索，如圖：

技術分享圖片

2.Term Suggester(糾錯補全）

2.1.api

1.建立索引

PUT /book4
{
  "mappings": {
    "english": {
      "properties 
": {
        "passage": {
          "type": "text"
        }
      }
    }
  }
}

2.插入數據

curl -H "Content-Type: application/json" -XPOST ‘http:localhost:9200/_bulk‘ -d‘
{ "index" : { "_index" : "book4", "_type" : "english" } }
{ "passage": "Lucene is cool"}
{ "index" : { "_index" : "book4 
", "_type" : "english" } }
{ "passage": "Elasticsearch builds on top of lucene"}
{ "index" : { "_index" : "book4", "_type" : "english" } }
{ "passage": "Elasticsearch rocks"}
{ "index" : { "_index" : "book4", "_type" : "english" } }
{ "passage": "Elastic is the company behind ELK stack"}
{ "index 
" : { "_index" : "book4", "_type" : "english" } }
{ "passage": "elk rocks"}
{ "index" : { "_index" : "book4", "_type" : "english" } }
{  "passage": "elasticsearch is rock solid"}
‘

3.看下儲存的分詞有哪些

post /_analyze
{
  "text": [
    "Lucene is cool",
    "Elasticsearch builds on top of lucene",
    "Elasticsearch rocks",
    "Elastic is the company behind ELK stack",
    "elk rocks",
    "elasticsearch is rock solid"
  ]
}

結果：

{
    "tokens": [
        {
            "token": "lucene",
            "start_offset": 0,
            "end_offset": 6,
            "type": "<ALPHANUM>",
            "position": 0
        },
        {
            "token": "is",
            "start_offset": 7,
            "end_offset": 9,
            "type": "<ALPHANUM>",
            "position": 1
        },
        {
            "token": "cool",
            "start_offset": 10,
            "end_offset": 14,
            "type": "<ALPHANUM>",
            "position": 2
        },
        {
            "token": "elasticsearch",
            "start_offset": 15,
            "end_offset": 28,
            "type": "<ALPHANUM>",
            "position": 103
        },
        {
            "token": "builds",
            "start_offset": 29,
            "end_offset": 35,
            "type": "<ALPHANUM>",
            "position": 104
        },
        {
            "token": "on",
            "start_offset": 36,
            "end_offset": 38,
            "type": "<ALPHANUM>",
            "position": 105
        },
        {
            "token": "top",
            "start_offset": 39,
            "end_offset": 42,
            "type": "<ALPHANUM>",
            "position": 106
        },
        {
            "token": "of",
            "start_offset": 43,
            "end_offset": 45,
            "type": "<ALPHANUM>",
            "position": 107
        },
        {
            "token": "lucene",
            "start_offset": 46,
            "end_offset": 52,
            "type": "<ALPHANUM>",
            "position": 108
        },
        {
            "token": "elasticsearch",
            "start_offset": 53,
            "end_offset": 66,
            "type": "<ALPHANUM>",
            "position": 209
        },
        {
            "token": "rocks",
            "start_offset": 67,
            "end_offset": 72,
            "type": "<ALPHANUM>",
            "position": 210
        },
        {
            "token": "elastic",
            "start_offset": 73,
            "end_offset": 80,
            "type": "<ALPHANUM>",
            "position": 311
        },
        {
            "token": "is",
            "start_offset": 81,
            "end_offset": 83,
            "type": "<ALPHANUM>",
            "position": 312
        },
        {
            "token": "the",
            "start_offset": 84,
            "end_offset": 87,
            "type": "<ALPHANUM>",
            "position": 313
        },
        {
            "token": "company",
            "start_offset": 88,
            "end_offset": 95,
            "type": "<ALPHANUM>",
            "position": 314
        },
        {
            "token": "behind",
            "start_offset": 96,
            "end_offset": 102,
            "type": "<ALPHANUM>",
            "position": 315
        },
        {
            "token": "elk",
            "start_offset": 103,
            "end_offset": 106,
            "type": "<ALPHANUM>",
            "position": 316
        },
        {
            "token": "stack",
            "start_offset": 107,
            "end_offset": 112,
            "type": "<ALPHANUM>",
            "position": 317
        },
        {
            "token": "elk",
            "start_offset": 113,
            "end_offset": 116,
            "type": "<ALPHANUM>",
            "position": 418
        },
        {
            "token": "rocks",
            "start_offset": 117,
            "end_offset": 122,
            "type": "<ALPHANUM>",
            "position": 419
        },
        {
            "token": "elasticsearch",
            "start_offset": 123,
            "end_offset": 136,
            "type": "<ALPHANUM>",
            "position": 520
        },
        {
            "token": "is",
            "start_offset": 137,
            "end_offset": 139,
            "type": "<ALPHANUM>",
            "position": 521
        },
        {
            "token": "rock",
            "start_offset": 140,
            "end_offset": 144,
            "type": "<ALPHANUM>",
            "position": 522
        },
        {
            "token": "solid",
            "start_offset": 145,
            "end_offset": 150,
            "type": "<ALPHANUM>",
            "position": 523
        }
    ]
}

View Code

4.term suggest api(搜索單個字段)

搜索下試試，給出錯誤單詞Elasticsearaach

POST /book4/_search
{
    "suggest" : {
    "my-suggestion" : {
      "text" : "Elasticsearaach",
      "term" : {
        "field" : "passage"，
　　　　　"suggest_mode": "popular"
      }
    }
  }
}

response:

{
    "took": 26,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": 0,
        "max_score": 0,
        "hits": []
    },
    "suggest": {
        "my-suggestion": [
            {
                "text": "elasticsearaach",
                "offset": 0,
                "length": 15,
                "options": [
                    {
                        "text": "elasticsearch",
                        "score": 0.84615386,
                        "freq": 3
                    }
                ]
            }
        ]
    }
}

5.搜索多個字段分別給出提示：

POST _search
{
  "suggest": {
    "my-suggest-1" : {
      "text" : "tring out Elasticsearch",
      "term" : {
        "field" : "message"
      }
    },
    "my-suggest-2" : {
      "text" : "kmichy",
      "term" : {
        "field" : "user"
      }
    }
  }
}

該term建議者提出基於編輯距離條款。在建議術語之前分析提供的建議文本。建議的術語是根據分析的建議文本標記提供的。該term建議者不走查詢到的是是的請求部分。

常見建議選項：

`text`	建議文字。建議文本是必需的選項，需要全局或按建議設置。
`field`	從中獲取候選建議的字段。這是一個必需的選項，需要全局設置或根據建議設置。
`analyzer`	用於分析建議文本的分析器。默認為建議字段的搜索分析器。
`size`	每個建議文本標記返回的最大更正。
`sort`	定義如何根據建議文本術語對建議進行排序。兩個可能的值： `score`：先按分數排序，然後按文檔頻率排序，再按術語本身排序。 `frequency`：首先按文檔頻率排序，然後按相似性分數排序，然後按術語本身排序。
`suggest_mode`	建議模式控制包含哪些建議或控制建議的文本術語，建議。可以指定三個可能的值： `missing`：僅提供不在索引詞典中，但是在原文檔中的詞。這是默認值。 `popular`：僅提供在索引詞典中出現的詞語。 `always`：索引詞典中出沒出現的詞語都要給出建議。

其他術語建議選項：

`lowercase_terms`	在文本分析之後，建議文本術語小寫。
`max_edits`	最大編輯距離候選建議可以具有以便被視為建議。只能是介於1和2之間的值。任何其他值都會導致拋出錯誤的請求錯誤。默認為2。
`prefix_length`	必須匹配的最小前綴字符的數量才是候選建議。默認為1.增加此數字可提高拼寫檢查性能。通常拼寫錯誤不會出現在術語的開頭。（舊名“prefix_len”已棄用）
`min_word_length`	建議文本術語必須具有的最小長度才能包含在內。默認為4.（舊名稱“min_word_len”已棄用）
`shard_size`	設置從每個單獨分片中檢索的最大建議數。在減少階段，僅根據`size`選項返回前N個建議。默認為該 `size`選項。將此值設置為高於該值的值`size`可能非常有用，以便以性能為代價獲得更準確的拼寫更正文檔頻率。由於術語在分片之間被劃分，因此拼寫校正頻率的分片級文檔可能不準確。增加這些將使這些文檔頻率更精確。
`max_inspections`	用於乘以的因子， `shards_size`以便在碎片級別上檢查更多候選拼寫更正。可以以性能為代價提高準確性。默認為5。
`min_doc_freq`	建議應出現的文檔數量的最小閾值。可以指定為絕對數字或文檔數量的相對百分比。這可以僅通過建議高頻項來提高質量。默認為0f且未啟用。如果指定的值大於1，則該數字不能是小數。分片級文檔頻率用於此選項。
`max_term_freq`	建議文本令牌可以存在的文檔數量的最大閾值，以便包括在內。可以是表示文檔頻率的相對百分比數（例如0.4）或絕對數。如果指定的值大於1，則不能指定小數。默認為0.01f。這可用於排除高頻術語的拼寫檢查。高頻術語通常拼寫正確，這也提高了拼寫檢查的性能。分片級文檔頻率用於此選項。
`string_distance`	用於比較類似建議術語的字符串距離實現。可以指定五個可能的值： `internal`- 默認值基於damerau_levenshtein，但高度優化用於比較索引中術語的字符串距離。`damerau_levenshtein` - 基於Damerau-Levenshtein算法的字符串距離算法。`levenshtein` - 基於Levenshtein編輯距離算法的字符串距離算法。 `jaro_winkler` - 基於Jaro-Winkler算法的字符串距離算法。 `ngram` - 基於字符n-gram的字符串距離算法。

Elasticsearch Suggester API(自動補全）

[] lower borde image 檢索標記定義 spa max 1.概念 1.補全api主要分為四類 Term Suggester（糾錯補全，輸入錯誤的情況下補全正確的單詞） Phrase Suggester（自動補全短語，輸入一個單詞補全整個短語）

Elasticsearch Suggester詳解（自動補全）

現代的搜尋引擎，一般會具備"Suggest As You Type"功能，即在使用者輸入搜尋的過程中，進行自動補全或者糾錯。通過協助使用者輸入更精準的關鍵詞，提高後續全文搜尋階段文件匹配的程度。例如在Google上輸入部分關鍵詞，甚至輸入拼寫錯誤的關鍵詞時，它依然能夠提示出

Elasticsearch實現類似百度的搜尋引擎搜尋功能（下拉自動補全）

{ "refresh_interval":"3s", "number_of_replicas":1, "number_of_shards":5, "analysis":{ "filter":{ "autocomplete_filter":{ "type":"

sublime text3下搭建Python IDE--Anaconda外掛（自動補全）

今天自己想在sublime text3下裝個python自動補全外掛，當安裝一個包管理器時（Package Contral）時，ctrl+shift+p輸入Install Package時，總是報錯說沒有這個包，在網上

基於jQuery的autocomplete（自動補全）類

最近很多人在群裡求autocomplete類，那我就獻下醜，把自己寫的分享一下： /*! JQuery autocomplete * Author: Vilien * Date: 2013-7-12 * * [email protected] {uri:

Eclipse自動補全（取消“=”，空格，“.”和“;”的自動補全，加入TAB的自動補全）

// key != 0 switch (key) { case 0x1B: // Esc e.doit= false; hide(); break;

Eclipse中java、js、html程式碼自動提示功能（自動補全）

使用eclipse自帶的外掛，無需另外安裝外掛，具體步驟如下 1.開啟eclipse→Windows→Preferences→Java→Editor→Content Assist 修改Auto Activation triggers for java的值為：zjava 點選apply按鈕 2.繼續開啟Jav

eclipse 自動補全程式碼設定（不僅僅輸入“.”時才自動補全）

eclipse預設是當我們輸入. 會出現自動補全的框框，如何讓eclipse在我們輸入任何字元時都會自動補全程式碼呢：window ---> preference --->java --->editor --->content assist--->

第三百六十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—elasticsearch(搜索引擎)用Django實現搜索的自動補全功能

技術 django 分布全功能 -s col ron 搜索創建第三百六十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—用Django實現搜索的自動補全功能 elasticsearch(搜索引擎)提供了自動補全接口官方說明：https://www

VSCode外掛開發全攻略（五）跳轉到定義、自動補全、懸停提示

更多文章請戳VSCode外掛開發全攻略系列目錄導航。跳轉到定義跳轉到定義其實很簡單，通過vscode.languages.registerDefinitionProvider註冊一個provider，這個provider如果返回了new vscode.Location()就表示當前游標所在單詞支援跳轉

eclipse程式碼自動提示設定，（同時解決自動補全變數名的問題）。配置eclipse,設定空格，等號，回車，左括號等不自動補全詳細教程。

對於程式設計人員來說，要記住大量的類名或類方法的名字，著實不是一件容易的事情。如果要IDE能夠自動補全程式碼，那將為我們程式設計人員帶來很大幫助。（一）、設定輸入任意字母即觸發程式碼補全。 eclipse程式碼裡面的程式碼提示功能預設是關閉的，只有輸入的時候才會提示功能，用vs的使用者可能不太習慣這種，

Vim+Taglist+AutoComplPop之程式碼目錄分欄資訊和自動補全提示（Ubuntu環境）

第一步：首先在Ubuntu環境中安裝ctags: sudo apt-get install ctags 第二部：安裝Taglist-------------Taglist是vim的一個外掛，提供原始碼符號

26（eclipse自動程式碼提示和自動程式碼補全）

一般情況下，eclipse的程式碼自動提示是關閉的，對此其實是很不方便的，你需要輸入點才會有提示，或者alt+/才會提示，這樣平均每天會浪費半個小時到一個小時。設定方法 eclipse工具欄window————preferences 將紅框中的內容修改為 .abcdefg

Linux基礎命令（四）：高階鍵盤操作與許可權控制——history、自動補全、命令列快捷鍵、歷史命令展開、id、chmod、umask、su、sudo、chown、chgrp、passwd

高階鍵盤操作 Linux終端支援各種快捷鍵操作。掌握這些快捷鍵以及命令列互動式編輯特性，基本可以告別滑鼠操作了。 clear －清空螢幕 history －顯示歷史列表內容小技巧：Linux的圖形使用者介面中，非最大化的視窗是預設隱藏頂部選項卡的，可以通過保持按

Eclipse中的文字自動補全功能（Java、html、javascript）

文字很枯燥，希望正在閱讀的您靜下心來細細的閱讀，跟著我的12345一步一步往下走，you will get success! 1.開啟eclipse→Windows→Preferences→Java→Editor→Content Assist 修改Auto Activat

Elasticsearch實戰（三）：高階搜尋（中文+拼音+首字母+簡繁轉換+補全）

1、中文搜尋、英文搜尋、中英混搜如：“紫光股份”，“紫光gufen” 2、全拼搜尋、首字母搜尋、中文+全拼、中文+首字母混搜如：“ziguanggufen”，“紫光gufen”，“紫光gf”，“zggf”，“ziguanggf”等等組合 3、簡繁搜尋 4.關鍵

bash的按TAB鍵自動補全（自動完成）的原理與擴充套件

最近在用原始碼安裝ceph，發現命令不能自動補全，然後找到了下面這篇文章，寫的很好~轉載一下~ 原始碼安裝ceph命令沒法自動補全的解決方法：把ceph-deploy安裝的可以自動補全的系統裡/etc/bash_completion.d下ceph的檔案scp到原始碼安裝對應

Linux Shell 命令自動補全（各方資料彙總補全版）

在下所在的公司定義了一種路徑，配合自定義的 loader 命令；遂命令在下完成自定義路徑的自動補全需求。關於Linux Shell命令自動補全已有的一些優秀 blog 沒有開花的樹的《詳解Linux Shell命令自動補全》這篇文章講

Vim UltiSnips自動補全（Python強依賴）

想要Vim像Sublime一樣快速程式設計，就需要各種好的snippets快速生成一段預備好的程式碼。一般常用的外掛是UltiSnips作為生成程式碼的引擎，Vim-snippets外掛作為各種語言的常用語句包。注意：此外掛極其依賴Python特定版本，一旦本地pytho

SublimeText配置Python開發環境（互動、快捷開啟 REPL、自動補全，側邊欄等）

SublimeText配置Python開發環境（互動、快捷開啟 REPL、自動補全等） 0.效果圖: 主題是：Blackboard 1. 基礎配置、包安裝等基礎操作參考：sublime tex

Elasticsearch Suggester API(自動補全）

1.概念

1.補全api主要分為四類

2.Term Suggester(糾錯補全）

2.1.api

常見建議選項：

其他術語建議選項：

相關推薦