大資料求索（10）：解決ElasticSearch中文搜尋無結果------ik分詞器的安裝與使用

阿新 • • 發佈：2018-12-25

大資料求索（10）：解決ElasticSearch中文搜尋無結果-----IK中文分詞器的安裝與使用

問題所在

在中文情況下，ES預設分詞器會將漢字切分為一個一個的漢字，所以當搜尋詞語的時候，會發現無法找到結果。

解決辦法

有很多其他的分詞器外掛可以替代，這裡使用最常用的IK分詞器。

IK分詞器安裝

注意:

ik分詞器必須和ES版本嚴格對應，否則可能會產生意料之外的錯誤。

Github地址：https://github.com/medcl/elasticsearch-analysis-ik

可以直接下載releases下面的原始碼，使用maven進行編譯。

把下載的elasticsearch-analysis-ik.zip解壓

進入elasticsearch-analysis-ik-master/ 下，打包。

mvn clean package

打包後的檔案在elasticsearch-analysis-ik-master/target/relearses目錄下，名稱類似如下，是一個zip檔案。

elasticsearch-analysis-ik-5.6.2.zip

在/home/hadoop/cluster/elasticsearch/plugins建立ik資料夾，並將打包後的zip檔案解壓到此資料夾下，此時ik目錄下一般有如下幾個檔案

commons-codec-1.9.jar    config                              httpclient-4.5.2.jar     plugin-descriptor.properties
commons-logging-1.2.jar  elasticsearch-analysis-ik-5.6.2.jar  httpcore-4.4.4.jar

此時，重啟ES即可。

IK分詞器的使用

使用IK分詞器，由於認識較淺，只找到一種方法，就是改變ES中index的mapping。此外，由於mapping一旦建立就無法修改，所以，只能重新建立一個新的index，裡面沒資料

，並設定mapping。java程式碼舉例如下:

/**
     * 重新生成mapping，使用ik分詞器
     * @throws Exception
     */
    @Test
    public void setMapping() throws Exception {
        TransportClient client = getClient();

        // 設定mapping,使用ik分詞器
        // 沒有資料之前才能成功，如果已經有mapping，則無法重新建立
        XContentBuilder builder = XContentFactory.jsonBuilder()
                .startObject()
                .startObject("article")
                .startObject("properties")
                .startObject("title").field("type", "text").field("store", "yes").field("analyzer", "ik_smart").field("search_analyzer","ik_max_word").endObject()
                .endObject()
                .endObject()
                .endObject();
        PutMappingRequest mapping = Requests.putMappingRequest("blog2").type("article").source(builder);
        client.admin().indices().putMapping(mapping).actionGet();
        client.close();
    }

重新生產mapping以後，可以通過head外掛檢視，發現新的index的mapping如下：

{
"state": "open",
"settings": {
"index": {
"creation_date": "1545450199648",
"number_of_shards": "5",
"number_of_replicas": "1",
"uuid": "1GGDZoVqQV6YsRv0Sbu3gg",
"version": {
"created": "5060299"
},
"provided_name": "blog2"
}
},
"mappings": {
"article": {
"properties": {
"id": {
"type": "text",
"fields": {
"keyword": {
"ignore_above": 256,
"type": "keyword"
}
}
},
"title": {
"search_analyzer": "ik_max_word",
"analyzer": "ik_smart",
"store": true,
"type": "text"
},

注意到title的search_analyzer和analyzer已經修改為ik分詞器了，下面進行測試，首先插入兩條資料，如下所示

{
"_index": "blog2",
"_type": "article",
"_id": "2",
"_version": 1,
"_score": 1,
"_source": {
"id": "2",
"title": "基於深度學習的搜尋",
"content": "test"
},
{
"_index": "blog2",
"_type": "article",
"_id": "1",
"_version": 1,
"_score": 1,
"_source": {
"id": "1",
"title": "基於Lucene的搜尋伺服器",
"content": "提供分散式全文搜尋"
}
}

}

進行模糊查詢，程式碼如下

/**
     * 模糊查詢
     */
    @Test
    public void fuzzy() throws Exception {
        TransportClient client = getClient();
        SearchResponse searchResponse = client.prepareSearch("blog2")
                .setTypes("article")
                // 重新構造分詞器以後才可以搜尋成功，否則預設將漢字切分為單個字，所以無法檢索到結果
                .setQuery(QueryBuilders.fuzzyQuery("title", "基於"))
                .get();
        // 獲取命中次數，查詢結果有多少對
        SearchHits hits = searchResponse.getHits();

        System.out.println("查詢結果有：" + hits.getTotalHits() + "條");

        Iterator<SearchHit> iterator = hits.iterator();
        while (iterator.hasNext()) {
            SearchHit searchHit = iterator.next();
            System.out.println(searchHit.getSourceAsString());
        }

        client.close();
    }

此時結果如下

查詢結果有：2條
{"id":"2","title":"基於深度學習的搜尋","content":"test"}
{"id":"1","title":"基於Lucene的搜尋伺服器","content":"提供分散式全文搜尋"}

可以進行詞語級別的查詢，IK分詞器使用成功。

IK不同版本之間可能有小的差異，具體可以參考官方github配置。

參考

官方github地址 https://github.com/medcl/elasticsearch-analysis-ik

大資料求索（10）：解決ElasticSearch中文搜尋無結果------ik分詞器的安裝與使用

大資料求索（10）：解決ElasticSearch中文搜尋無結果-----IK中文分詞器的安裝與使用問題所在在中文情況下，ES預設分詞器會將漢字切分為一個一個的漢字，所以當搜尋詞語的時候，會發現無法找到結果。解決辦法有很多其他的分詞器外掛可以替代，這裡使用最常用

大資料求索（4）：配置Spark History Server

大資料求索（4）：配置Spark History Server 修改配置檔案修改conf/spark-default.conf cp spark-default.conf.template spark-default.conf vim spark-defau

大資料入門（10）序列化機制，mr流量求和

public class FlowBean implements WritableComparable<FlowBean>{ private String phoneNB; private long u

阿里雲搭建大資料平臺（3）：安裝JDK和Hadoop偽分佈環境

一、安裝jdk 1.解除安裝Linux自帶的JDK rpm -qa|grep jdk #查詢原始JDK yum -y remove <舊JDK> 2.解壓縮 tar -zxvf /opt/softwares/jdk-8u151-linux-x64.t

SODBASE實時大資料基礎（一）：實時同步Mysql資料庫到Kafka

在實際大資料工作中，常常有實時監測資料庫變化或實時同步資料到大資料儲存，解決大資料實時分析的需求。同時，增量同步資料庫資料相比全量查詢也減少了網路頻寬消耗。本文以Mysql的bin-log到Kafka為例，使用Canal Server，通過SODBASE引擎不用寫程式就可以

Linux之大資料技術（九）：修改ip地址

大資料技術之修改ip地址 5.2.3 修改IP地址 1）修改IP地址 [[email protected] 桌面]#vim /etc/sysconfig/network-scripts/ifcfg-eth0 以下標紅的項必須修改，有值的按照下面的值修

Linux之大資料技術（十）：修改主機名稱

大資料技術之修改主機名稱 5.3.2 修改主機名稱 1）修改linux的主機對映檔案（hosts檔案）（1）進入Linux系統檢視本機的主機名。通過hostname命令檢視 [[email protected] 桌面]# hostname hadoo

小白學 Python 資料分析（10）：Pandas （九）資料運算

![](https://cdn.geekdigging.com/python/spider-blog/Python_logo.jpg) > 人生苦短，我用 Python 前文傳送門： [小白學 Python 資料分析（1）：資料分析基礎](https://www.geekdigging.com/2020

Elasticsearch教程（二），IK分詞器安裝

怕麻煩就看上面的（極速版），是我已經打包好的 IK分詞器需要的東西。首先說說分詞器，分詞，英語分詞很好分，就是按固定的英文的空格，或者“-”。中文分詞就稍微有點複雜了，而 Elasticsearch 預設是帶分詞器了，我們來測試一下。http://123.88.88.8

拉開大變革序幕（下）：分散式計算框架與大資料

因為對大資料處理的需求，使得我們不斷擴充套件計算能力，叢集計算的要求導致分散式計算框架的誕生，用廉價的叢集計算資源在短短的時間內完成以往數週甚至數月的執行等待，有人說誰掌握了龐大的資料，誰就主導了需求。雖然在十幾年間，通過過去幾十年的積澱，誕生了mapreduc

流式大資料處理（實時）的三種框架：Storm，Spark和Samza

摘要：許多分散式計算系統都可以實時或接近實時地處理大資料流。本文將對Storm、Spark和Samza等三種Apache框架分別進行簡單介紹，然後嘗試快速、高度概述其異同。許多分散式計算系統都可以實時或接近實時地處理大資料流。本文將對三種Apache框架分別進行簡單介紹，

C++（10）：VS2015使用某些函式顯示不安全需要末尾新增_s的解決辦法

執行程式出現錯誤提示: 'fopen': This function or variable may be unsafe. Consider using fopen_s instead. To disable deprecation, use _CRT_SECURE_NO_

大資料研發（2Hbase）2.1：hbase和傳統資料庫的區別

1.hbase①hbase是一個面向列儲存的分散式儲存系統，可以實現高效能的併發讀寫操作，對資料進行透明的切分。②hbase有兩個主要概念，row key(行健)，column family（列簇）。每個列簇包含多個列。row key 是hbase中記錄的唯一標識。③hbas

小白學 Python（10）：基礎資料結構（列表）（下）

人生苦短，我選Python 前文傳送門小白學 Python（1）：開篇小白學 Python（2）：基礎資料型別（上）小白學 Python（3）：基礎資料型別（下）小白學 Python（4）：變數基礎操作小白學 Python（5）：基礎運算子（上）小白學 Python（6）：基礎運算子（下）

TensorFlow2.0（10）：載入自定義圖片資料集到Dataset

前面的部落格中我們說過，在載入資料和預處理資料時使用tf.data.Dataset物件將極大將我們從建模前的資料清理工作中釋放出來，那麼，怎麼將自定義的資料集載入為DataSet物件呢？這對很多新手來說都是一個難題，因為絕大多數案例教學都是以

Windows Phone開發（10）：常用控件（上）

androi chm att size near grid txt idt inf Windows Phone的控件有幾個來源，和傳統的桌面應用程序開發或Web開發一樣，有默認提供的控件和第三方開者發布的控件。一般而言，如果不是過於復雜的界面布局，使用默認控件就足矣。相比之

藍的成長記——追逐DBA（10）：飛刀防身，熟絡而非專長：擺弄中間件Websphere

native 歷程 server 業界 http 由於虛擬機基礎 fill 原創作品，出自 “深藍的blog” 博客。歡迎轉載，轉載時請務必註明出處。否則追究版權法律責任。深藍的blog：http://blog.csdn.net/huangyanlong/ar

拉開大變革序幕（下）：分布式計算框架與大數據

ble itl skip 下一代 .bashrc add sum 輸出 sda 由於對大數據處理的需求。使得我們不斷擴展計算能力，集群計算的要求導致分布式計算框架的誕生。用便宜的集群計算資源在短短的時間內完畢以往數周甚至數月的執行等待，有人說誰掌握了龐大

java學習（10）：求最接近點對問題

sta poi span exti ++ null @override over max 1 import java.util.ArrayList; 2 import java.util.Collections; 3 import java.util.List

《Linux學習並不難》Linux常用操作命令（10）：cal命令顯示日歷信息

Linux cal 日歷 8.10 《Linux學習並不難》Linux常用操作命令（10）：cal命令顯示日歷信息使用cal命令可以顯示計算機系統的日歷。命令語法： cal [選項] [[[日] 月] 年] 命令中各選項的含義如表所示。選項選項含義 -j顯示

大資料求索（10）： 解決ElasticSearch中文搜尋無結果------ik分詞器的安裝與使用

大資料求索（10）： 解決ElasticSearch中文搜尋無結果-----IK中文分詞器的安裝與使用

問題所在

解決辦法

IK分詞器安裝

IK分詞器的使用

參考

相關推薦

大資料求索（10）：解決ElasticSearch中文搜尋無結果------ik分詞器的安裝與使用

大資料求索（10）：解決ElasticSearch中文搜尋無結果-----IK中文分詞器的安裝與使用