乾貨 |《從Lucene到Elasticsearch全文檢索實戰》拆解實踐

阿新 • • 發佈：2019-12-31

1、題記

2018年3月初，萌生了一個想法：對Elasticsearch相關的技術書籍做拆解閱讀，該想法源自非計算機領域紅火已久的【樊登讀書會】、得到的每天聽本書、XX拆書幫等。

目前市面上Elasticsearch的中文書籍就那麼基本，針對ES5.X以上的三本左右；國外翻譯有幾本，都是針對ES1.X，2.X版本，其中《深入理解Elasticsearch》還算比較經典。

拆書的目的：

1）梳理已有的Elasticsearch知識體系；
2）拾遺拉在角落的Elasticsearch知識點；
3）通過手敲動程式碼或命令列，在實踐中再次“溫故知新”，提前增加知識儲備，避免專案/產品實戰中的“臨陣抱佛腳”；

4）最大化的節省您的寶貴時間，讓您最快的時間吸取最精華的“乾貨”。

本次解讀是《從Lucene到Elasticsearch全文檢索實戰》。

2、本書梗概

作者是中科院碩士姚攀（90後）在讀研究生期間根據實習寫成CSDN部落格，最終成書。

該書1/4章節講解Lucence相關原理及實戰；
1/2章節講解Elasticsearch基本概念：叢集入門、搜尋分類詳解、聚合分析、Java API；
1/4章節講解Elasticsearch叢集管理、專案實戰、Hadoop實戰。

總體評價：

優點：

1）涵蓋了Elasticsearch相關的基本概念、基礎原理；
2）有兩個實戰專案分享；

缺點：

1）某些概念就只是有分類，沒有講解出不同分類的區別，不同分類的適用場景；
2）某些細節點涵蓋不全，偏理論，好多知識技術點，實戰中應用會有不同。
3）書基於Elasticsearch5.4.0講解，一些特性6.X已不適用。

3、核心知識點梳理

以下的DSL都是通過ElasticsearchV6.2.2版本試驗過的。

3.1 mget 一次獲取多個檔案。

1GET test_index/test_type/_mget
2{
3  "docs":[
4  {"_id":1},5  {"_id":3}
6  ]
7}複製程式碼

最小簡化版本：

1GET test_index/test_type/_mget
2{
3  "ids":[1,3]
4}複製程式碼

3.2 update更新

——新增、刪除、更新欄位

1POST test_index/test_type/1
2{
3  "no":1,4  "name":"賓士X100",5  "addr":"德國",6  "price":1000000,7  "tags" : ["red"]
8}複製程式碼

3.2.1 新增欄位

以下添加了新欄位tags，賦值為“red”。

1POST test_index/test_type/1/_update
2{
3  "script":"ctx._source.tags = \"red\""
4}複製程式碼

修改後結果為：

1{
 2  "_index": "test_index",3  "_type": "test_type",4  "_id": "1",5  "_version": 6,6  "found": true,7  "_source": {
 8  "no": 1,9  "name": "賓士X100",10  "addr": "德國",11  "price": 1000000,12  "tags": "red"
13  }
14}複製程式碼

3.2.2 刪除欄位

1POST test_index/test_type/1/_update
2{
3  "script":"ctx._source.remove(\"new_field\")"
4}複製程式碼

3.2.3 更新欄位-新增

 1POST test_index/test_type/1/_update
 2{
 3  "script" : {
 4  "source": "ctx._source.tags.add(params.tag)",5  "lang": "painless",6  "params" : {
 7  "tag" : "blue"
 8  }
 9  }
10}複製程式碼

更新後結果如下：

1{
 2  "_index": "test_index",5  "_version": 8,12  "tags": [
13  "red",14  "blue"
15  ]
16  }
17}複製程式碼

3.2.4 刪除欄位（if判定）

 1POST test_index/test_type/1/_update
 2{
 3  "script" : {
 4  "source": "if (ctx._source.tags.contains(params.tag)) { ctx.op = 'delete' } else { ctx.op = 'none' }",6  "params" : {
 7  "tag" : "red"
 8  }
 9  }
10}複製程式碼

3.3 bulk批量請求的注意事項

每一行的結尾處都必須有換行符"n"，最後一行也要有，換行符可以有效的分隔每行。
注意一次提交檔案的大小，整個批量請求需要被載入到請求節點的記憶體裡，所以請求越大，給其他請求可用的記憶體越小。
最佳bulk請求的大小，完全取決於伺服器的硬體、檔案的大小和複雜度以及索引和搜尋的負載。

3.4 併發修改檔案導致版本衝突的問題

以下是社群的問題，我認為更切合知識點。

線上的場景可能會對一個檔案同一秒進行併發修改，導致會出現個別的VersionConflictEngineException 異常，我猜測是併發upsert請求可能存在先獲取到版本號的請求比後獲取到版本號的請求執行慢或者執行晚導致的，

畢竟預設es不會對檔案操作加鎖。但是如在不做鎖機制的情況下處理這個問題呢。

解決方案（初步）：

es版本控制有內部和外部兩種型別。預設情況下，es使用內部版本控制。

version_type=external的時候是外部值控制。在使用外部版本型別時，系統會檢查傳遞給索引請求的版本號是否大於當前儲存的檔案的版本，如果為true，則檔案將被索引並使用新的版本號。

如果提供的值小於或等於儲存檔案的版本號，則會發生版本衝突，索引操作將失敗。

1PUT /test_index/test_type/10?version=1520834740000&version_type=external
2{
3  "newadd":11,4  "test":"true"
5}複製程式碼

返回結果：

 1{
 2  "_index": "test_index",4  "_id": "10",5  "_version": 1520834740000,7  "_source": {
 8  "newadd": 11,9  "test": "true"
10  }
11}複製程式碼

所以最簡單的實現方式就是每次更新使用當前==時間戳==作為版本號，

3.5 動態對映和靜態對映的區分

動態對映：檔案寫入ES中，它會根據欄位的型別自動識別，這種稱為：動態對映；
靜態對映：寫入資料之前對欄位的屬性進行手工設定。

3.6 text欄位的特殊性

不用於排序，很少用於聚合（termsAggrions除外，未來版本會徹底禁止text型別聚合操作）。
題外話：如果需要可以藉助 multi-fields.使用:keyword 型別。
官網解讀：

http://t.cn/R6jy9Z3，http://t.cn/RnKU4tG

3.7 資料型別儲存建議

對於數字型別的欄位，在滿足需求的情況下，要儘可能的選擇範圍小的數字型別。

3.8 過濾和搜尋的區別

過濾：只根據條件對檔案進行過濾，不計算評分；
搜尋：解決的是相關度的問題。

當使用者輸入一個查詢，Elasticsearch通過排序模型計算檔案和查詢關鍵詞之間的相關度，按照評分排序後返回最想關的檔案給使用者。

e

細化：Elasticsearch接受到關鍵詞以後到倒排索引中進行查詢，通過倒排索引中維護的倒排記錄表找到關鍵詞對應的檔案集合，然後做評分、排序、高亮處理，最終返回搜尋結果給使用者。

注意：ES是按照查詢和檔案的相關度進行排序的，預設按照評分降序排序。

3.9指定搜尋欄位的權重

1GET _search
2{
3  "query":{
4    "multi_match": {
5      "query": "美國",6      "fields": ["addr^5","name"]
7    }
8  }
9}複製程式碼

3.10 返回欄位中至少有一個非控制的檔案。

1GET _search
2{
3  "query":{
4    "exists":{
5      "field":"name"
6    }
7  }
8}複製程式碼

3.11 固定得分檢索

 1GET /_search
 2{
 3    "query": {
 4        "constant_score" : {
 5            "filter" : {
 6                "term" : { "addr.keyword" : "美國"}
 7            },8            "boost" : 1.2
 9        }
10    }
11}複製程式碼

返回結果：

1{
 2  "took": 1,3  "timed_out": false,4  "_shards": {
 5    "total": 32,6    "successful": 32,7    "skipped": 0,8    "failed": 0
 9  },10  "hits": {
11    "total": 3,12    "max_score": 1.2,13    "hits": [
14      {
15        "_index": "test_index",16        "_type": "test_type",17        "_id": "5",18        "_score": 1.2,19        "_source": {
20          "no": 5,21          "name": "福特500",22          "addr": "美國",23          "price": 180000
24        }
25      },26      {
27        "_index": "test_index",28        "_type": "test_type",29        "_id": "6",30        "_score": 1.2,31        "_source": {
32          "no": 6,33          "name": null,34          "addr": "美國",35          "price": 180000
36        }
37      },38      {
39        "_index": "test_index",40        "_type": "test_type",41        "_id": "3",42        "_score": 1.2,43        "_source": {
44          "no": 3,45          "name": "福特300",46          "addr": "美國",47          "price": 300000
48        }
49      }
50    ]
51  }
52}複製程式碼

3.12 修改檔案得分檢索

藉助：function Score Query 實現。

3.13 獲取相似文章

1{
 2  "query": {
 3    "more_like_this": {
 4      "fields": [
 5        "title"
 6      ],7      "like": "新時代的領路人",8      "min_term_freq": 1,9      "max_query_terms": 12
10    }
11  },12  "_source": "title",13  "from": 1000,14  "size": 5
15}複製程式碼

3.14 指令碼檢索

以下內容是6.X驗證的。5.X版本要把source改成inline。

1POST test_index/_search
 2{
 3  "query":{
 4    "bool":{
 5      "must":{
 6         "script":{
 7        "script":{
 8          "source": "doc['price'].value > 100000",9     "lang":"painless"
10        }
11         }
12      }
13    }
14  }
15}複製程式碼

3.15 多欄位高亮

欄位高亮已經比較熟悉，有一種場景是：當我搜索title欄位的時候，我期望高亮：title、content、abstr如何做到呢？

通俗的講：不搜尋某個欄位，可以順帶高亮該欄位。

 1POST test_index/test_type/_search
 2{
 3  "query":{
 4    "match_phrase":{
 5      "addr":"美國"
 6    }
 7  },8  "highlight": {
 9    "require_field_match":false,10      "fields":{
11        "addr":{"pre_tags":["<strong>"],12          "post_tags":["</strong>"]
13        },14        "name":{"pre_tags":["<strong>"],15          "post_tags":["</strong>"]}
16      }
17  }
18}
1{
 2  "took": 116,4  "_shards": {
 5    "total": 5,6    "successful": 5,12    "max_score": 1.1143606,17        "_id": "6",18        "_score": 1.1143606,19        "_source": {
20          "no": 6,21          "name": "大片美國",23          "price": 180000
24        },25        "highlight": {
26          "name": [
27            "大片<strong>美</strong><strong>國</strong>"
28          ],29          "addr": [
30            "<strong>美</strong><strong>國</strong>"
31          ]
32        }
33      },34      {
35        "_index": "test_index",36        "_type": "test_type",37        "_id": "5",38        "_score": 0.5753642,39        "_source": {
40          "no": 5,41          "name": "福特500",42          "addr": "美國",43          "price": 180000
44        },45        "highlight": {
46          "addr": [
47            "<strong>美</strong><strong>國</strong>"
48          ]
49        }
50      },51      {
52        "_index": "test_index",53        "_type": "test_type",54        "_id": "3",55        "_score": 0.5753642,56        "_source": {
57          "no": 3,58          "name": "福特300",59          "addr": "美國",60          "price": 300000
61        },62        "highlight": {
63          "addr": [
64            "<strong>美</strong><strong>國</strong>"
65          ]
66        }
67      }
68    ]
69  }
70}複製程式碼

3.16 分片影響評分

Elasitcsearch 5.4 之後對於text型別的欄位，預設採用是BM25評分模型，而不是基於tf-idf的向量空間模型，評分模型的選擇可以通過similarity引數在對映中指出。

需要注意的是：ES在每個分片上單獨打分，分片的數量會影響打分的結果。

這個問題比較有趣的討論如下：https://elasticsearch.cn/question/2275

3.17 叢集統計

統計叢集的兩個方面資訊：

一：索引層面

分片數、儲存大小、記憶體使用情況；

二：節點層面

節點數量、節點角色、作業系統、JVM版本、記憶體、CPU、外掛資訊x-pack等。

1GET  /_cluster/stats複製程式碼

4、核心工具推薦

工欲善其事必先利其器，好的工具能提升開發效率。

4.1 Luke 工具

1、功能介紹：

檢視Luncene、Solr、Elasitcsearch索引的GUI工具，方便開發和診斷。

2、核心功能點：

檢視分析欄位內容；
搜素索引；
執行索引維護；
從HDFS讀取索引；
將全部或者部分索引轉換為XML格式匯出。
測試自定義的Lucene分詞器。

3、工具地址：https://github.com/DmitryKey/luke

4、最新版本

Upgrade to 7.2.0
http://t.cn/RnKU9dz

5、注意Luke的版本要和Lucene一致。

4.2 Tika工具

1、簡介

Apache Tika是一個用於文字檢測和檔案內容提取的庫。

2、特點

Tika 可以檢測超過1000種不同型別的檔案，比如PPT、PDF、DOC、XLS，所有的檔案型別可以通過一個簡單的介面被解析。

3、應用

Tika廣泛應用於搜素引擎、內容分析、文字翻譯、數字管理等領域。

4、下載地址http://tika.apache.org/download.htm

5、擴充套件

如果有全文知識庫檢索的專案，可以考慮使用Tika對多種不同型別的檔案進行檔案解析。

5、小結

此為拆解的第一本書，印證了我之前說的，核心知識點在Elasticsearch官網檔案中都有更詳盡的英文解讀。

目前市面上沒有一本書能涵蓋全部的知識點。

書的目的多半是作者的一些學習、實踐積累，更多的知識還得靠實踐中總結、實踐、再總結。

“書寫是為了更好的思考”，與大家共勉！一起加油！

下一本書，緊張梳理中…..

推薦閱讀：

《深入理解 Java 記憶體模型》讀書筆記

面試-基礎篇

Spring Boot 2.0 遷移指南

SpringBoot使用Docker快速部署專案

為什麼選擇 Spring 作為 Java 框架？

SpringBoot RocketMQ 整合使用和監控

Spring Boot 面試的十個問題

使用 Spring Framework 時常犯的十大錯誤

SpringBoot Admin 使用指南

SpringBoot Kafka 整合使用

SpringBoot RabbitMQ 整合使用

Elasticsearch索引增量統計及定時郵件實現

上篇好文：

Elasticsearch實戰 | 必要的時候，還得空間換時間!

乾貨 |《從Lucene到Elasticsearch全文檢索實戰》拆解實踐

1、題記 2018年3月初，萌生了一個想法：對Elasticsearch相關的技術書籍做拆解閱讀，該想法源自非計算機領域紅火已久的【樊登讀書會】、得到的每天聽本書、XX拆書幫等。

Elasticsearch全文檢索實戰小結——覆盤我帶的第二個專案

一、專案概述這是一個被我稱之為“沒有槍、沒有炮，硬著頭皮自己造”的專案。專案是和其它公司合作的三個核心模組開發。

實戰6：PostgreSQL全文檢索功能實戰

1. 前言本小節，我們一起來學習 PostgreSQL 中的一大殺器——FTS（Full Text Search，全文檢索）。

Elasticsearch 論壇實戰-如何手動控制全文檢索結果的精準度

技術標籤：Elasticsearch實戰elasticsearch Elasticsearch實戰準備資料 PUT /forum/post/_bulk {"index":{"_id":1}}

乾貨精講！Android開發最佳實踐手冊全網獨一份，從基礎到原始碼統統幫你搞定

前言現在的終端開發已經開始進入穩定期，在這個階段大廠壓力很大小廠更會收到擠壓，人們使用的App越來越固定，即使是大廠，幾年前平臺級應用發個Push就能引流幾十萬，現在這些的作用也越來越小，特別到了今年，想要

Elasticsearch網際網路主流分散式全文檢索框架實戰

本篇先了解Elasticsearch底層原理，通過docker方式搭建3臺ES叢集,安裝Head外掛和Kibana視覺化工具，加入ik分詞器支援中文分詞，通過實踐Elasticsearch基本概念和操作對其有更深的理解，掌握基礎運維知識，最後利用

一文讓你輕鬆瞭解全文檢索

全文檢索技術被廣泛的應用於搜尋引擎，查詢檢索等領域。我們在網路上的大部分搜尋服務都用到了全文檢索技術。

springboot整合ES實現磁碟檔案全文檢索的示例程式碼

最近有個朋友諮詢如何實現對海量磁碟資料進行目錄、檔名及檔案正文進行搜尋，要求實現簡單高效、維護方便、成本低廉。我想了想利用ES來實現文件的索引及搜尋是適當的選擇，於是就著手寫了一些程式碼來實現，下面就將

使用python+whoosh實現全文檢索

whoosh的官方介紹：http://whoosh.readthedocs.io/en/latest/quickstart.html 因為做的是中文的全文檢索需要匯入jieba工具包以及whoosh工具包

Django Haystack 全文檢索與關鍵詞高亮的實現

作者：HelloGitHub-追夢人物文中所涉及的示例程式碼，已同步更新到HelloGitHub-Team 倉庫

解決Django Haystack全文檢索為空的問題

Django Haystack全文檢索為空，問題：表單中的name被改了注意：name一定是q，否則檢索不到結果

django haystack實現全文檢索的示例程式碼

全文檢索裡的元件簡介 1. 什麼是haystack？ 1. haystack是django的開源搜尋框架，該框架支援Solr,Elasticsearch,Whoosh,*Xapian*搜尋引擎，不用更改程式碼，直接切換引擎，減少程式碼量。

史上最全 Appium 自動化測試從入門到框架實戰精華學習筆記（二）

本文為霍格沃茲測試學院學員學習筆記，進階學習文末加群。本系列文章彙總了從 Appium 自動化測試從基礎到框架高階實戰中，所涉及到的方方面面的知識點精華內容（如下所示），希望對大家快速總結和複習有所幫助

史上最全 Appium 自動化測試從基礎到框架實戰精華學習筆記（一）

本文為霍格沃茲測試學院學員學習筆記。對測試人來說，Appium 是非常重要的一個開源跨平臺自動化測試工具，它允許測試人員在不同的平臺（iOS、Android 等）使用同一套 API 來寫自動化測試指令碼，這樣可大幅提升

全文檢索技術

Lucene 1課程計劃 1、什麼是全文檢索，如何實現全文檢索 2、Lucene實現全文檢索的流程

淺析MongoDB 全文檢索

全文檢索對每一個詞建立一個索引，指明該詞在文章中出現的次數和位置，當用戶查詢時，檢索程式就根據事先建立的索引進行查詢，並將查詢的結果反饋給使用者的檢索方式。

Mysql實現全文檢索、關鍵詞跑分的方法例項

一、前言今天一個同事問我，如何使用 Mysql 實現類似於 ElasticSearch 的全文檢索功能，並且對檢索關鍵詞跑分？我當時腦子裡立馬產生了疑問？為啥不直接用es呢？簡單好用還賊快。但是聽他說，資料量不多，客戶給的時

全文檢索elasticsearch

全文檢索ElasticSearch 1 ElasticSearch介紹 1.1.介紹 1、ElasticSearch是一個基於Lucene的高擴充套件的分散式搜尋伺服器，支援開箱即用。

Lucene.Net -全文檢索引擎

簡介 Lucene.Net只是一個全文檢索開發包，不是一個成型的搜尋引擎，它的功能就是負責將文字資料按照某種分詞演算法進行切詞,分詞後的結果儲存在索引庫中,從索引庫檢索資料的速度灰常快

從漏洞復現到實戰提權

前提之前有過幾次實戰getshell了，但是管理員比較敏感，解決不了就下線，趁著這次管理員還沒有下線，趕緊拿出來投個稿。

乾貨 |《從Lucene到Elasticsearch全文檢索實戰》拆解實踐

1、題記

2、本書梗概

3.1 mget 一次獲取多個檔案。

3.2 update更新

3.2.1 新增欄位

3.2.2 刪除欄位

3.2.3 更新欄位-新增

3.2.4 刪除欄位（if判定）

3.3 bulk批量請求的注意事項

3.4 併發修改檔案導致版本衝突的問題

3.5 動態對映和靜態對映的區分

3.6 text欄位的特殊性

3.7 資料型別儲存建議

3.8 過濾和搜尋的區別

3.9指定搜尋欄位的權重

3.10 返回欄位中至少有一個非控制的檔案。

3.11 固定得分檢索

3.12 修改檔案得分檢索

3.13 獲取相似文章

3.14 指令碼檢索

3.15 多欄位高亮

3.16 分片影響評分

3.17 叢集統計

4、核心工具推薦

4.1 Luke 工具

4.2 Tika工具

5、小結

相關推薦