999 - Elasticsearch Analysis 05 - Character Filter

阿新 • • 發佈：2019-12-31

HTML Strip Character Filter

將html元素替換成對應的解碼值（例如&替換成&)。
示例

POST _analyze
{
  "char_filter": [
    "html_strip"
    ],"tokenizer": "keyword","text": "<p>I&apos;m so <b>happy</b>!</p>"
}
複製程式碼

產生


I'm so happy!

複製程式碼

keyword換成standard產生[ I'm,so,happy ]。

配置引數

引數	說明
escaped_tags	會被保留的HTML元素

示例

POST _analyze
{
    "char_filter": [
       {
         "type": "html_strip","escaped_tags":["b"]
       }
      ],"text": "<p>I&apos;m so <b>happy</b>!</p>"
}
複製程式碼

產生


I'm so <b>happy</b>!

複製程式碼

Mapping Character Filter

定義一堆鍵值對，匹配到鍵就替換成值。

配置引數

引數	說明
mappings	鍵值對陣列，格式為`key => value`
mappings_path	鍵值對檔案路徑。相對於config或絕對路徑。 UTF-8編碼。每行一個鍵值對，格式為`key => value`。

示例

POST _analyze
{
  "char_filter": [
    {
      "type": "mapping","mappings": [
          "٠ => 0","١ => 1","٢ => 2","٣ => 3","٤ => 4","٥ => 5","٦ => 6" 
,"٧ => 7","٨ => 8","٩ => 9"
      ]
    }
  ],"text": "My license plate is ٢٥٠١٥"
}
複製程式碼

產生[ My license plate is 25015 ]。

上一個例子是單字元的替換，也可以多字元。

POST _analyze
{
  "char_filter": [
    {
      "type": "mapping","mappings": [
        ":) => _happy_",":( => _sad_"
      ]
    }
  ],"text": "I'm delighted about it :("
}
複製程式碼

產生[ I'm delighted about it _sad_ ]。

Pattern Replace Character Filter

使用正則表示式去替換。替換文字可以引用捕獲組中的內容。
配置引數

引數	說明
pattern	Java正則表示式。必須。
replacement	替換文字。可以使用`$1..$9`這樣的語法，引用捕獲組中的值。
flags	Java正則表示式flags，多個用`\|`分離，例如"CASE_INSENSITIVE \| COMMENTS"。

示例

POST _analyze
{
  "char_filter": [
    {
      "type": "pattern_replace","pattern": "(\\d+)-(?=\\d)","replacement": "$1_"
    }
  ],"text": "My credit card is 123-456-789"
}
複製程式碼

產生[ My credit card is 123_456_789 ]。

999 - Elasticsearch Analysis 05 - Character Filter

HTML Strip Character Filter 將html元素替換成對應的解碼值（例如&替換成&)。

999 - Elasticsearch Analysis 04 - Token Filter

太多了不想寫了，隨便寫了兩個，這個根據需要去官網看檔案吧。 ASCII Folding Token Filter

999 - Elasticsearch Analysis 01

簡介 Analysis在建立索引或搜尋時指定，將文字解析成倒排索引，以供搜尋。簡單解釋下倒排索引：通常書本的目錄就是正排索引，根據目錄找章節；而倒排索引就是根據內容（例如一個單詞）找所在的章節。

999 - Elasticsearch Analysis 02 - Analyzer

Standard Analyzer 預設的analyzer，適合大多數語言。根據Unicode Text Segmentation演演算法的定義，將文字切分成詞元。

999 - Elasticsearch Analysis 03 - Tokenizer

Word Oriented Tokenizers 下面的tokenizer主要用來切分文字為單個單詞。 Standard Tokenizer

999 - Elasticsearch 環境搭建

搭建環境說明官方支援的作業系統和JVM 支援Oracle JDK和Open JDK。 JDK8以上，推薦1.8.0_131或以上。

999 - Elasticsearch 基本概念

Elasticsearch 簡介 Elasticsearch是一個高可擴充套件的，全文搜尋分析引擎。可以近實時地儲存、搜尋以及分析海量資料。

999 - Elasticsearch 快速上手

Elasticsearch REST API Elasticsearch提供了全面強大的REST API：檢查叢集、節點、索引的健康、狀態以及統計資訊。

ES新增elasticsearch-analysis-ik分詞器

1、下載分詞器包 https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v5.4.3 2、將分詞器解壓並放入plugins目錄下。（一定要在plugins下面建立一個ik檔案，然後將解壓的elasticsearch-analysis-ik檔