ElasticSearch學習系列（七）分詞

阿新 • • 發佈：2020-11-03

分詞裡面有兩個名詞：Analysis、Analyzer

Analysis

文字分析是把全文字轉換一系列單詞的過程，叫成分詞。

Analyzer

分詞器（有內建的分詞器，也有相應的外掛，尤其是針對中文）
由以下三部分組成：
1.Character Filters 過濾特殊字串
2.Tokenizer 單詞切分
3.Token Filters  切分後的加工

二、使用 _analyzer API

1.standard分詞器

可以看到單詞以空格，非字元的方式分割，並轉換小寫。

2.simple分詞器

可以看到，只保留字母。

3.whitespace分詞器

可以看到只是以簡單的空格切分。

4.stop分詞器

可以看到，stop分詞器多了一個token filters環節，把a,the ,in等修飾詞給過濾掉了。

5.keyword分詞器（不分詞）

當不需要分詞時，可以設定為keyword。

6.正則表示式分詞 pattern

預設是 \W+,非字元的符號進行分隔，在Token Filters環節做了小寫轉換，和修飾詞過濾。

7.language分詞器

三、中文分詞

icu_analyzer的安裝

1.因為我是docker for windows則通過如下命令進入docker容器內部。

 bin/elasticsearch-plugin install analysis-icu

安裝好之後，重啟Docker

但還是有一些問題，比如在理。

社群裡面有ik,THULAC中文分詞外掛。

ElasticSearch學習系列（七）分詞

分詞裡面有兩個名詞：Analysis、Analyzer Analysis 文字分析是把全文字轉換一系列單詞的過程，叫成分詞。

Elasticsearch（ES）分詞器的那些事兒

1. 概述分詞器是Elasticsearch中很重要的一個元件，用來將一段文字分析成一個一個的詞，Elasticsearch再根據這些詞去做倒排索引。

Flink 系列（七）—— Flink 狀態管理與檢查點機制

一、狀態分類相對於其他流計算框架，Flink 一個比較重要的特性就是其支援有狀態計算。即你可以將中間的計算結果進行儲存，並提供給後續的計算使用：

Hive 系列（七）—— Hive 常用 DML 操作

一、載入檔案資料到表 1.1 語法 LOAD DATA [LOCAL] INPATH \'filepath\' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2 ...)]

HBase 系列（七）——HBase 過濾器詳解

一、HBase過濾器簡介 Hbase 提供了種類豐富的過濾器（filter）來提高資料處理的效率，使用者可以通過內建或自定義的過濾器來對資料進行過濾，所有的過濾器都在服務端生效，即謂詞下推（predicate push down）。這樣可

Hadoop 系列（七）—— HDFS Java API

一、簡介想要使用 HDFS API，需要匯入依賴 hadoop-client。如果是 CDH 版本的 Hadoop，還需要額外指明其倉庫地址：

Scala 系列（七）—— 常用集合型別之 Map & Tuple

一、對映(Map) 1.1 構造Map // 初始化一個空 map val scores01 = new HashMap[String,Int] // 從指定的值初始化 Map（方式一）

Spark 系列（七）—— 基於 ZooKeeper 搭建 Spark 高可用叢集

一、叢集規劃這裡搭建一個 3 節點的 Spark 叢集，其中三臺主機上均部署 Worker 服務。同時為了保證高可用，除了在 hadoop001 上部署主 Master 服務外，還在 hadoop002 和 hadoop003 上分別部署備用的 Master 服務，

Storm 系列（七）—— Storm 整合 Redis 詳解

一、簡介 Storm-Redis 提供了 Storm 與 Redis 的整合支援，你只需要引入對應的依賴即可使用：

Python學習————drf（七）

1 自定製頻率 # 自定製頻率類，需要寫兩個方法 -# 判斷是否限次：沒有限次可以請求True，限次了不可以請求False

前端程式設計師學好算法系列（七）二叉樹和遞迴

144. 二叉樹的前序遍歷給定一個二叉樹，返回它的前序遍歷。示例: 輸入: [1,null,2,3]

Pytest 系列（七）常用外掛之測試用例相關

一、失敗重跑 pytest-rerunfailures 要求：python 3.5+、pytest 5.0+ 安裝：pip install pytest-rerunfailures

Docker 系列（七）：Docker API使用

Docker API種類 docker 的api遵循rest的風格，可以檢視https://docs.docker.com/engine/api/；

Kubernetes 系列（七）：Pod、容器之間通訊方式

首先k8s裡面容器是存在於pod裡面的，所以容器之間通訊，一般分為三種類型：

Spring Boot demo系列（七）：郵件服務

1 概述 Spring Boot整合郵件服務，包括髮送普通的文字郵件以及帶附件的郵件。 2 郵箱選擇

kafka學習筆記（七）kafka的狀態機模組

概述這一篇隨筆介紹kafka的狀態機模組，Kafka 原始碼中有很多狀態機和管理器，比如之前我們學過的 Controller 通道管理器 ControllerChannelManager、處理 Controller 事件的 ControllerEventManager，等等。這些管

設計模式系列（七）UML類圖

UML類圖用於描述系統中類(物件)本身的組成和類(物件)之間的各種靜態關係類與類之間的關係：依賴、泛化(繼承)、實現、關聯、聚合與組合

Hadoop 學習筆記（七）HDFS 客戶端操作（下）

上面我們學的API操作HDFS系統都是框架封裝好的。那麼如果我們想自己實現上述API的操作該怎麼實現呢？我們可以採用IO流的方式實現資料的上傳和下載。

solr學習之（七）_學習solr的理由(solr的特點和應用領域）

Solr是一個可伸縮性的、能夠即時部署的、致力於資訊檢索的、可以處理海量資訊的、以處理自然語言文字為中心的、檢索結果按相關性排序的企業級搜尋引擎。

VUE學習系列--（一）

筆者前幾年使用的是SSM框架，之後為了緊隨主流技術棧，不被社會所淘汰就選擇使用JeecgBoot開源版本，那麼前後端分離的情況下前端框架使用的VUE全家桶完全PK掉了我，只能從基礎知識一步一步學起

ElasticSearch學習系列（七）分詞

相關推薦