ElasticSearch - 2 分詞器

阿新 • • 發佈：2020-12-28

ElasticSearch - 2 分詞器

5.1 分詞器介紹

IKAnalyzer是一個開源的，基於java語言開發的輕量級的中文分詞工具包
是一個基於Maven構建的專案
具有60萬字/秒的高速處理能力
支援使用者詞典擴充套件定義
下載地址：https://github.com/medcl/elasticsearch-analysis-ik/archive/v7.4.0.zip

安裝包在資料資料夾中提供

5.2 ik分詞器安裝

參見 ik分詞器安裝.md

執行如下命令時如果出現打包失敗（501碼）將maven映象換成阿里雲的

mvn package

/opt/apache-maven-3.1.1/conf/setting.xml

    <mirror>
        <id>alimaven</id>
        <name>aliyun maven</name>
        <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
        <mirrorOf>central</mirrorOf>
    </mirror>

5.3 ik分詞器使用（熟練）

IK分詞器有兩種分詞模式：ik_max_word和ik_smart模式。

ik_max_word

會將文字做最細粒度的拆分，比如會將“乒乓球明年總冠軍”拆分為“乒乓球、乒乓、球、明年、總冠軍、冠軍。

#方式一ik_max_word
GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "乒乓球明年總冠軍"
}

執行結果如下

{
  "tokens" : [
    {
      "token" : "乒乓球",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "乒乓",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "球",
      "start_offset" : 2,
      "end_offset" : 3,
      "type" : "CN_CHAR",
      "position" : 2
    },
    {
      "token" : "明年",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "總冠軍",
      "start_offset" : 5,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "冠軍",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 5
    }
  ]
}

ik_smart

會做最粗粒度的拆分，比如會將“乒乓球明年總冠軍”拆分為乒乓球、明年、總冠軍。

#方式二ik_smart
GET /_analyze
{
  "analyzer": "ik_smart",
  "text": "乒乓球明年總冠軍"
}

執行結果如下

{
  "tokens" : [
    {
      "token" : "乒乓球",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "明年",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "總冠軍",
      "start_offset" : 5,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 2
    }
  ]
}

5.4 使用IK分詞器-查詢文件（重點）

詞條查詢：term
- 詞條查詢不會分析查詢條件，只有當詞條和查詢字串完全匹配時才匹配搜尋，不對查詢條件分詞
全文查詢：match
- 全文查詢會分析查詢條件，先將查詢條件進行分詞，然後查詢，求並集

5.4.1 建立索引，新增對映，並指定分詞器為ik分詞器

PUT person2
{
  "mappings": {
    "properties": {
      "name": {
        "type": "keyword"
      },
      "address": {
        "type": "text",
        "analyzer": "ik_max_word"
      }
    }
  }
}

5.4.2 新增文件

POST /person2/_doc/1
{
  "name":"張三",
  "age":18,
  "address":"北京海淀區"
}

POST /person2/_doc/2
{
  "name":"李四",
  "age":18,
  "address":"北京朝陽區"
}

POST /person2/_doc/3
{
  "name":"王五",
  "age":18,
  "address":"北京昌平區"
}

5.4.3 查詢對映

**GET person2**

5.4.4 檢視分詞效果

GET _analyze
{
  "analyzer": "ik_max_word",
  "text": "北京海淀"
}

5.4.5 詞條查詢：term

查詢person2中匹配到"北京"兩字的詞條

GET /person2/_search
{
  "query": {
    "term": {
      "address": {
        "value": "北京"
      }
    }
  }
}

5.4.6 全文查詢：match

全文查詢會分析查詢條件，先將查詢條件進行分詞，然後查詢，求並集

GET /person2/_search
{
  "query": {
    "match": {
      "address":"北京昌平"
    }
  }
}

ElasticSearch - 2 分詞器

ElasticSearch - 2 分詞器 5.1 分詞器介紹 IKAnalyzer是一個開源的，基於java語言開發的輕量級的中文分詞工具包

springboot整合elasticsearch+ik分詞器+kibana

SpringBoot整合Elasticsearch+IK+Kibana ElasticSearch是一個基於Lucene的搜尋伺服器。它提供了一個分散式多使用者能力的全文搜尋引擎，基於RESTful web介面。

Elasticsearch、分詞器、kibana的linux安裝和使用

安裝包提供https://pan.baidu.com/s/1qeRSkws2e1RKoRAWg7zUXw 提取碼p8ne 由於es出於安全考慮，不可以用root使用者操作es。

elasticSearch~中文分詞器安裝及使用

技術標籤：elasticelasticsearch中文分詞分詞API 請求方式: post URL：http://192.168.18.129:9200/_analyze

elasticsearch-ik分詞器遠端停用詞彙"失效"問題

這其實是和自己沒看 IK 原始碼有關。IK的原理是先分詞，再檢視是否有禁用詞彙。

elasticsearch中文分詞器IK的使用

IK中文分詞器的安裝 es中文分詞器IK的使用新增一個索引庫 PUT /test 利用該索引庫進行分詞測試

（2）ElasticSearch在linux環境中整合IK分詞器

1.簡介 ElasticSearch預設自帶的分詞器，是標準分詞器，對英文分詞比較友好，但是對中文，只能把漢字一個個拆分。而elasticsearch-analysis-ik分詞器能針對中文詞項顆粒度進行粗細提取，所以對中文搜尋是比較友好的。

ElasticSearch - 2 IK分詞器安裝

IK分詞器安裝 1、環境準備 Elasticsearch 要使用 ik，就要先構建 ik 的 jar包，這裡要用到 maven 包管理工具，而 maven 需要java 環境，而 Elasticsearch 內建了jdk，所以可以將JAVA_HOME設定為Elasticsearch 內建的

Elasticsearch入門(1)-倒排索引和分詞器

這部分檔案主要包含：倒排索引 Analyzer分詞倒排索引舉例類比做個類比，看書時，我們看到了哪個章節，根據章節標題去目錄中檢索具體的內容。但是當我們回憶起一些隻言片語，一些句子，一些情節時，去定位它出

Elasticsearch從入門到放棄：分詞器初印象

Elasticsearch 系列回來了，先給因為這個系列關注我的同學說聲抱歉，拖了這麼久才回來，這個系列雖然叫「Elasticsearch 從入門到放棄」，但只有三篇就放棄還是有點過分的，所以還是回來繼續更新。

Elasticsearch 建立ik中文分詞器

一、建立ik中文分詞器 1、下載ik中文分詞器進入https://github.com/medcl/elasticsearch-analysis-ik

DockerFile構建ElasticSearch映象安裝IK中文分詞器外掛

DockerFile構建ElasticSearch映象安裝IK中文分詞器外掛為什麼要安裝IK中文分詞器？

ElasticSearch-分詞器analyzer

analyzer 分詞器使用的兩個情形：1，Index time analysis. 建立或者更新文件時，會對文件進行分詞2，Search time analysis. 查詢時，對查詢語句分詞

ES新增elasticsearch-analysis-ik分詞器

1、下載分詞器包 https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v5.4.3 2、將分詞器解壓並放入plugins目錄下。（一定要在plugins下面建立一個ik檔案，然後將解壓的elasticsearch-analysis-ik檔

win10 安裝Elasticsearch(es)和IK分詞器

1 安裝Elasticsearch 7.x 1.1 下載地址 https://www.elastic.co/cn/downloads/elasticsearch 1.2 下載後解壓的目錄結構

elasticsearch 安裝IK中文分詞器

1.去github下載zip包具體地址：https://github.com/medcl/elasticsearch-analysis-ik 因為我本地裝的是7.4.2版本，我ik分詞器也下載這個版本

linux 安裝ElasticSearch的中文分詞器IK

首先確保ElasticSearch映象已經啟動一定要保證ElasticSearch和ElasticSearch外掛的版本一致

elasticsearch(v2.4.6)新增中文分詞器ik

一、參考 ik github文件將maven源改為國內阿里雲映象二、編譯安裝 analysis-ik 2.1 下載原始碼

【Elasticsearch】之中文分詞器ik

技術標籤：Elasticsearch 應用筆記elasticsearcheselk 安裝分詞外掛ik mkdir plugins/ik cp elasticsearch-analysis-ik-6.5.4.zip plugins/ik

centos docker 安裝elasticsearch、ik分詞器、ingest-attachment

技術標籤：elasticsearchdockerelasticsearchdockercentos 1.安裝docker yum update -y yum install docker -y

ElasticSearch - 2 分詞器

ElasticSearch - 2 分詞器

5.1 分詞器介紹

5.2 ik分詞器安裝

5.3 ik分詞器使用（熟練）

ik_max_word

ik_smart

5.4 使用IK分詞器-查詢文件（重點）

5.4.1 建立索引，新增對映，並指定分詞器為ik分詞器

5.4.2 新增文件

5.4.3 查詢對映

5.4.4 檢視分詞效果

5.4.5 詞條查詢：term

5.4.6 全文查詢：match

相關推薦