ES:修改分詞器以及定製自己的分詞器

阿新 • • 發佈：2018-12-19

1、預設的分詞器

standard

standard tokenizer：以單詞邊界進行切分 standard token filter：什麼都不做 lowercase token filter：將所有字母轉換為小寫 stop token filer（預設被禁用）：移除停用詞，比如a the it等等

2、修改分詞器的設定

PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "es_std": {
          "type": "standard",
          "stopwords": "_english_"
        }
      }
    }
  }
}

3、定製化自己的分詞器

PUT /my_index
{
  "settings": {
    "analysis": {
      "char_filter": {
        "&_to_and": {
          "type": "mapping",
          "mappings": [
            "&=> and"
          ]
        }
      },
      "filter": {
        "my_stopwords": {
          "type": "stop",
          "stopwords": [
            "the",
            "a"
          ]
        }
      },
      "analyzer": {
        "my_analyzer": {
          "type": "custom",
          "char_filter": [
            "html_strip",
            "&_to_and"
          ],
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "my_stopwords"
          ]
        }
      }
    }
  }
}

在這裡插入圖片描述

PUT /my_index/_mapping/my_type
{
  "properties": {
    "content": {
      "type": "text",
      "analyzer": "my_analyzer"
    }
  }
}

ES:修改分詞器以及定製自己的分詞器

1、預設的分詞器 standard standard tokenizer：以單詞邊界進行切分 standard token filter：什麼都不做 lowercase token filter：將所有字母轉換為小寫 stop token filer（預設被禁用

ElasticSearch最佳入門實踐（六十一）修改分詞器以及定製自己的分詞器

1、預設的分詞器 standard 其餘： standard tokenizer：以單詞邊界進行切分 standard token filter：什麼都不做 lowercase token filter：將所有字母轉換為小寫 stop token filer

ElasticSearch50：索引管理_快速上機動手實戰修改分詞器以及定製自己的分詞器

1.預設的分詞器 standard standard tokenizer:以單詞的邊界進行切分 standard token filter:什麼都不做 lowercase token filter:將所有字母轉換成小寫 stop token filter(預設被禁用)，移除

Elasticsearch 之（12）query string的分詞，修改分詞器以及自定義分詞器

query string分詞query string必須以和index建立時相同的analyzer進行分詞query string對exact value和full text的區別對待（第10節中詳細闡述過）date：exact value_all：full text比如我

第二十三篇-ubuntu18.04怎麼下載播放器以及如何設定預設播放器

下載播放器安裝命令：sudo apt-get install smplayer再安裝解碼器：　　安裝win32codecs包　　如果是intel的CPU　　程式碼:　　sudo apt-get install w32codecs　　如果是64位 CPU　　程式碼:　　sudo apt-get instal

Java垃圾回收精粹——序列收集器、並行收集器以及併發標記清理收集器（CMS）

序列收集器（Serial Collector）序列收集器是最簡單的收集器，對於單處理器系統真是絕佳上選。當然，它也是所有收集器裡面最不常用的。序列收集器使用一個單獨的執行緒進行收集，不管是次要收集還是主要收集。在年老區中分配的物件使用一個簡單的凹凸指標演算法（bump

ElasticSearch最佳入門實踐（四十四）手動建立和修改mapping以及定製string型別資料是否分詞

1、如何建立索引如果想設定 string 為分詞把它設定為 analyzed not_analyzed 則是設定為 exact value 全匹配 no 則是不能被索引和匹配 2、修改mapping 注意事項：只能建立index時手動建立mapp

安裝ik分詞器以及版本和ES版本的相容性

一.檢視自己ES的版本號與之對應的IK分詞器版本 https://github.com/medcl/elasticsearch-analysis-ik/blob/master/README.md 二.下載與之對應的版本 https://github.com/medcl/elasticse

ElasticSearch33:初識搜尋引擎_手動建立和修改mapping以及定製sting型別資料是否分詞

1.如何建立索引 string型別的欄位，是否進行分詞設定：需要進行分詞 analyzed不進行分詞 not_analyzed不能進行搜尋 no 2.新增或修改mapping 只能在建立index時手動建立mapping，或者新增field mapping，但是不能upda

定製自己的分詞器

standard tokenizer：以單詞邊界進行切分 standard token filter：什麼都不做 lowercase token filter：將所有字母轉換為小寫 stop token filer（預設被禁用）：移除停用詞，比如a the it等等定製

ElasticSearch最佳入門實踐（四十）分詞器的內部組成到底是什麼，以及內建分詞器的介紹

1、什麼是分詞器一個分詞器，很重要，將一段文字進行各種處理，最後處理好的結果才會拿去建立倒排索引切分詞語，normalization（提升recall召回率）給你一段句子，然後將這段句子拆分成一個一個的單個的單詞，同時對每個單詞進行normalizat

Es學習第五課，分詞器介紹和中文分詞器配置

上課我們介紹了倒排索引，在裡面提到了分詞的概念，分詞器就是用來分詞的。分詞器是ES中專門處理分詞的元件，英文為Analyzer，定義為：從一串文字中切分出一個一個的詞條，並對每個詞條進行標準化。它由三部分組成， Character Filters：分詞之前進行預處

ElasticSearch中分詞器以及分詞原理：聽課筆記（38講-45講）

第38講第39講第40講第41講分詞器：拆分詞語，做normalization（時態轉換，單複數轉換，同義詞，大小寫的轉換）預設情況下是standard狀態，分詞的時候會將連詞and ，介詞a the an等詞幹掉第42講

Elasticsearch5.x安裝IK分詞器以及使用

Elasticsearch中，內建了很多分詞器（analyzers），例如standard （標準分詞器）、english （英文分詞）和chinese （中文分詞）。其中standard 就是無腦的一個一個詞（漢字）切分，所以適用範圍廣，但是精準度低；english 對英文

Elasticsearch基於docker叢集搭建以及安裝ik分詞器

由於機器沒這麼多，所以用docker模擬真正的叢集搭建。 1、準備工作 1-1、準備docker環境：使用yum安裝docker: yum install -y docker-io 安裝完成後，開啟docker: systemctl start docker; 檢視d

solr7安裝以及整合ik分詞器

今天來研究了一下solr，以及怎麼整合ik分詞器，把研究的過程記錄下來，整個過程是在windows 7系統中完成的。1、solr7環境要求solr7.2.1需要java8環境，且需要在環境變數中新增 JAVA_HOME變數，指向jdk1.8的目錄，如下圖：2、下載solr並啟

搜索引擎系列四：Lucene提供的分詞器、IKAnalyze中文分詞器集成

author oid core 長度 maven項目 int get attribute clu 一、Lucene提供的分詞器StandardAnalyzer和SmartChineseAnalyzer 1.新建一個測試Lucene提供的分詞器的maven項目LuceneAn

Lucene筆記20-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器（良好設計方案）

一、目前存在的問題在getSameWords()方法中，我們使用map臨時存放了兩個鍵值對用來測試，實際開發中，往往需要很多的這種鍵值對來處理，比如從某個同義詞詞典裡面獲取值之類的，所以說，我們需要一個類，根據key提供近義詞。為了能更好的適應應用場景，我們先定義一個介面，其中定義一

Lucene筆記19-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器

一、同義詞分詞器的程式碼實現 package com.wsy; import com.chenlb.mmseg4j.Dictionary; import com.chenlb.mmseg4j.MaxWordSeg; import com.chenlb.mmseg4j.analysis.MM

Lucene筆記18-Lucene的分詞-實現自定義同義詞分詞器-思路分析

一、實現自定義同義詞分詞器思路分析前面文章我們提到同義詞分詞器，這裡我們先來分析下同義詞分詞器的設計思路。首先我們有一個需要分詞的字串string，通過new StringReader(string)拿到Reader。使用analyzer.tokenStream("co

ES:修改分詞器以及定製自己的分詞器

1、預設的分詞器

2、修改分詞器的設定

3、定製化自己的分詞器

相關推薦