999 - Elasticsearch Analysis 01

阿新 • • 發佈：2019-12-31

簡介

Analysis在建立索引或搜尋時指定，將文字解析成倒排索引，以供搜尋。
簡單解釋下倒排索引：通常書本的目錄就是正排索引，根據目錄找章節；而倒排索引就是根據內容（例如一個單詞）找所在的章節。

Analyzer

analyzer，內建或自定義，是一個包含三個構建塊（依次為character filters，tokenizers，token filters）的包。

例如：一個內建的english analyzer在轉換句子The QUICK brown foxes jumped over the lazy dog!時：

轉為小寫。
刪除對搜尋無意義的詞元：the（停止詞，stopwords

）。
歸納詞幹，例如：foxes → fox，jumped → jump，lazy → lazi。
最後新增這些條件到倒排索引中：[quick,brown,fox,jump,over,lazi,dog]。
當查詢時，可以查詢"a query fox"，雖然該字串不在原文字中，但當使用了同樣的analyzer時，該句子中的單詞與倒排索引中的詞元可以匹配上。

Character filters

接收字元流，通過新增、刪除、修改字元來轉換字元流。
例如從流中去掉<b>這樣的HTML元素。
可以有0或多個，按照設定的順序呼叫。

Tokenizer

接收一個字元流，分解為詞元，然後輸出詞元流。

例如，whitespace tokenizer就會把所有的空白符去掉，"Quick brown fox!"就會被分解成詞元：[Quick,fox!]。
同時Tokenizer負責記錄每個詞元的順序或位置，以及原單詞的起始結束字元偏移量。
必須而且只能有一個Tokenizer。

Token filters

接收詞元流，可以新增、刪除、修改詞元。
例如：lowercase token filter將所有的詞元轉為小寫，stop token filter刪除掉停止詞，synonym toekn filter將引入同義詞到詞元流中。
Token filter不可以改變每個詞元的位置或字元偏移量。

可以有0或多個，按照設定的順序呼叫。

測試analyzers

可以在請求體中指定analyzer（或者tokenizer、token filter、Character Filter），

GET _analyze
{
  "analyzer": "whitespace","text": "The quick brown fox."
}

GET _analyze
{
  "analyzer": "english","text": "The QUICK brown foxes jumped over the lazy dog!"
}

GET _analyze
{
  "tokenizer": "whitespace","filter": ["lowercase","stop"],"text": "The QUICK brown foxes jumped over the lazy dog!"
}
複製程式碼

從上面第二個的返回結果中可以看到位置和起始結束字元偏移量

offset：詞項邊界，用於高亮查詢。

position：在檔案中的位置，用於保證詞語查詢的詞語的順序。

{
  "tokens" : [
    {
      "token" : "quick","start_offset" : 4,"end_offset" : 9,"type" : "<ALPHANUM>","position" : 1
    },{
      "token" : "brown","start_offset" : 10,"end_offset" : 15,"position" : 2
    },{
      "token" : "fox","start_offset" : 16,"end_offset" : 21,"position" : 3
    },{
      "token" : "jump","start_offset" : 22,"end_offset" : 28,"position" : 4
    },{
      "token" : "over","start_offset" : 29,"end_offset" : 33,"position" : 5
    },{
      "token" : "lazi","start_offset" : 38,"end_offset" : 42,"position" : 7
    },{
      "token" : "dog","start_offset" : 43,"end_offset" : 46,"position" : 8
    }
  ]
}
複製程式碼

999 - Elasticsearch Analysis 01

簡介 Analysis在建立索引或搜尋時指定，將文字解析成倒排索引，以供搜尋。簡單解釋下倒排索引：通常書本的目錄就是正排索引，根據目錄找章節；而倒排索引就是根據內容（例如一個單詞）找所在的章節。

999 - Elasticsearch Analysis 04 - Token Filter

太多了不想寫了，隨便寫了兩個，這個根據需要去官網看檔案吧。 ASCII Folding Token Filter

999 - Elasticsearch Analysis 05 - Character Filter

HTML Strip Character Filter 將html元素替換成對應的解碼值（例如&替換成&)。

999 - Elasticsearch Analysis 02 - Analyzer

Standard Analyzer 預設的analyzer，適合大多數語言。根據Unicode Text Segmentation演演算法的定義，將文字切分成詞元。

999 - Elasticsearch Analysis 03 - Tokenizer

Word Oriented Tokenizers 下面的tokenizer主要用來切分文字為單個單詞。 Standard Tokenizer

999 - Elasticsearch 環境搭建

搭建環境說明官方支援的作業系統和JVM 支援Oracle JDK和Open JDK。 JDK8以上，推薦1.8.0_131或以上。

999 - Elasticsearch 基本概念

Elasticsearch 簡介 Elasticsearch是一個高可擴充套件的，全文搜尋分析引擎。可以近實時地儲存、搜尋以及分析海量資料。

999 - Elasticsearch 快速上手

Elasticsearch REST API Elasticsearch提供了全面強大的REST API：檢查叢集、節點、索引的健康、狀態以及統計資訊。

ES新增elasticsearch-analysis-ik分詞器

1、下載分詞器包 https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v5.4.3 2、將分詞器解壓並放入plugins目錄下。（一定要在plugins下面建立一個ik檔案，然後將解壓的elasticsearch-analysis-ik檔

elasticsearch安裝01

環境角色主機 elasticsearch 10.0.0.51 elasticsearch 10.0.0.52 elasticsearch 10.0.0.53 條件 1.恢復快照，基礎優化

Elasticsearch-Analysis-IK中文分詞器安裝配置和使用（非常詳細）

技術標籤：ESelasticsearch Elasticsearch 預設已經含有的分詞法 Standard 分詞器英文的處理能力同於StopAnalyzer.支援中文采用的方法為單字切分。他會將詞彙單元轉換成小寫形式，並去除停用詞和標點符號simple

NJU Static Program Analysis 01: Introduction

NJU Static Program Analysis 01: Introduction Abstraction Key questions in this lecture are: What are the differences between static analysis and (dynamic) testing

elasticsearch概念介紹01

Elasticsearch 學習 jdk下載 elasticsearch 是一個\'實時分散式搜尋和分析引擎\'，它用於全文搜尋，結構化搜尋，分析

springboot整合elasticsearch 01

建立springboot專案： pom.xml <?xml version=\"1.0\" encoding=\"UTF-8\"?> <project xmlns=\"http://maven.apache.org/POM/4.0.0\" xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\"