Elasticsearch 配置同義詞

阿新 • • 發佈：2017-08-30

一起索引 pan provide path 轉化 eabi token pos

配置近義詞
近義詞組件已經是elasticsearch自帶的了，所以不需要額外安裝插件，但是想要讓近義詞和IK一起使用，就需要配置自己的分析器了。

首先創建近義詞文檔

在config目錄下

mkdir analysis
vim analysis/synonym.txt

編輯：

i-pod, i pod, i pad => ipod,
sea biscuit, sea biscit => seabiscuit,
中文,漢語,漢字
這裏可以看到近義詞的寫法有兩種：

a,b => c
a,b,c
第一種在分詞的時候，a,b都會解析成為c，然後把c存入索引中
第二種在分詞的時候，有a的地方，都會解析成a,b,c，把a,b,c存入索引中
第一種方法相比之下有個主詞，比較省索引。

配置elasticsearch.yml中的自定義索引，和前面的ik結合，可以這麽設置：

index:
  analysis:
    analyzer:
      ik:
          alias: [ik_analyzer]
          type: org.elasticsearch.index.analysis.IkAnalyzerProvider
      ik_max_word:
          type: ik
          use_smart:  
false
      ik_smart:
          type: ik
          use_smart: true
      my_synonyms:
          tokenizer: standard
      ik_syno:
          type: custom
          tokenizer: ik
          filter: [my_synonym_filter]
      ik_syno_smart:
          type: custom
          tokenizer: ik
          filter: [my_synonym_filter]
          use_smart:  
true
    filter:
      my_synonym_filter:
          type: synonym
          synonyms_path: analysis/synonym.txt
上面的配置文件創建了一個filter： my_synonym_filter, 然後創建了兩個自定義analyzer: ik_syno和ik_syno_smart

啟動elasticsearch:
bin/elasticsearch
案例測試
按照上面的配置，我們使用一個具體的句子進行測試：

120.55.72.158:9700/elasticsearchtest2
{
 
"index" : {
"analysis" : {
"analyzer" : {
"ik_syno" : {
"tokenizer" : "ik",
"filter" : ["my_synonym_filter"]
}
}
}
}
}

curl -XPOST "192.168.33.10:9200/elasticsearchtest/_analyze?analyzer=ik_syno" -d ‘we are eng man i pad 漢語文字‘
返回json結構：

{
    "tokens": [
        {
            "token": "we",
            "start_offset": 0,
            "end_offset": 2,
            "type": "ENGLISH",
            "position": 1
        },
        {
            "token": "eng",
            "start_offset": 7,
            "end_offset": 10,
            "type": "ENGLISH",
            "position": 2
        },
        {
            "token": "man",
            "start_offset": 11,
            "end_offset": 14,
            "type": "ENGLISH",
            "position": 3
        },
        {
            "token": "ipod",
            "start_offset": 15,
            "end_offset": 20,
            "type": "SYNONYM",
            "position": 4
        },
        {
            "token": "中文",
            "start_offset": 21,
            "end_offset": 23,
            "type": "SYNONYM",
            "position": 5
        },
        {
            "token": "漢語",
            "start_offset": 21,
            "end_offset": 23,
            "type": "SYNONYM",
            "position": 5
        },
        {
            "token": "漢字",
            "start_offset": 21,
            "end_offset": 23,
            "type": "SYNONYM",
            "position": 5
        },
        {
            "token": "文字",
            "start_offset": 23,
            "end_offset": 25,
            "type": "CN_WORD",
            "position": 6
        }
    ]
}
這裏就可以看到我們之前配置的東西都成功了：

are字被過濾，是由於are字是stop_words
i pad這個詞語被轉化為了ipod是由於近義詞字典中我們設置了 i pad=>ipod
“文字”兩個中文字是被分成一個中文詞切割，是因為ik的默認main.dic裏面有文字兩個字
“中文”“漢字”“漢語”三個詞出現是由於近義詞字典中我們設置了這三個為同等級的近義詞

參考文獻:

http://www.cnblogs.com/yjf512/p/4789239.html

Elasticsearch 配置同義詞

一起索引 pan provide path 轉化 eabi token pos 配置近義詞近義詞組件已經是elasticsearch自帶的了，所以不需要額外安裝插件，但是想要讓近義詞和IK一起使用，就需要配置自己的分析器了。首先創建近義詞文檔在co

elasticsearch配置文件詳解

配置文件文件夾 master 記錄 elasticsearch的config文件夾裏面有兩個配置文件：elasticsearch.yml和logging.yml，第一個是es的基本配置文件，第二個是日誌配置文件，es也是使用log4j來記錄日誌的，所以logging.yml裏的設置按普通

[大數據]-Logstash-5.3.1的安裝導入數據到Elasticsearch5.3.1並配置同義詞過濾

cat 3.1 send text 開啟 gui 插件 work message 閱讀此文請先閱讀上文：[大數據]-Elasticsearch5.3.1 IK分詞，同義詞/聯想搜索設置，前面介紹了ES，Kibana5.3.1的安裝配置，以及IK分詞的安裝和同義詞設置，這裏主

[大數據]-Fscrawler導入文件（txt,html,pdf,worf...）到Elasticsearch5.3.1並配置同義詞過濾

app alt pil 所在 word jar包 raw 文件名包含 fscrawler是ES的一個文件導入插件，只需要簡單的配置就可以實現將本地文件系統的文件導入到ES中進行檢索，同時支持豐富的文件格式（txt.pdf,html,word...）等等。下面詳細介紹下fs

第二篇elasticsearch配置

下載 true bin ins clas download config文件 git pos 1.去github搜索 elashsearch——head,以mobz開頭的2.在根目錄下安裝npm install 3.修改elashsearch下的config文件下的elas

Elasticsearch配置使用

eat lte erro centos refresh network con batch adb 1.實驗環境：使用8臺CentOS主機，實現filebeat+redis+logstash+els集群(3臺)+kibana來完成搜索日誌相關內容，

ELK 做日誌分析(filebeat+logstash+elasticsearch)配置

imp ati 語法 ike 合並 elk raw ins group 利用 Filebeat去讀取日誌發送到 Logstash ,再由 Logstash 處理後發送給 Elasticsearch 。一、Filebeat 項目日誌文件：利用 Filebeat 去讀取

PHP-elasticsearch配置+基於elasticsearch全文搜尋引擎的開發小結

首先參照官網內容下載與自己php以及elasticsearch版本相匹配的Php-elasticsearch，按照官網內容進行配置https://www.elastic.co/guide/en/elasticsearch/client/php-api/current/index.ht

elasticsearch 配置優化

discovery.zen.minimum_master_nodes: 1 discovery.zen.ping_timeout: 10s threadpool.bulk.queue_size: 5000 threadpool.search.queue_size:1000 http.cors.e

Elasticsearch配置

elasticsearch可以以下面這種方式啟動： bin/elasticsearch 在linux系統，這個命令將在前臺啟動程序。我們也可以在後臺執行，以守護程序的方式，加上-d引數 bin/elasticsearch -d 在啟動的時候可以指定es 程序pid

elasticsearch 配置常見錯誤彙總

使用root賬號啟動es後會遇到以下問題解決方案：因為安全問題elasticsearch 不讓用root使用者直接執行，所以要建立新使用者建議建立一個單獨的使用者用來執行ElasticSearch 建立elsearch使用者組及elsearch使用者

如何為logstash+elasticsearch配置索引模板?

在使用logstash收集日誌的時候，我們一般會使用logstash自帶的動態索引模板，雖然無須我們做任何定製操作，就能把我們的日誌資料推送到elasticsearch索引叢集中，但是在我們查詢的時候，就會發現，預設的索引模板常常把我們不需要分詞的欄位，給分詞了，這樣以來

大資料學習[15]:elasticsearch之同義詞

[ { "token": "我", "start_offset": 0, "end_offset": 1, "type": "CN_CHAR", "position": 0 }, { "token": "來自",

關於Elasticsearch配置

嗯，網上各種搜，搜完各種不好用，也不知道為啥那樣配。最後找到如下連結，裡面都是你想要的： https://elasticsearch.cn/book/elasticsearch_defini

laravel-elasticsearch 配置以及運用

參考文件：搭建elasticsearch伺服器 laravel-elastic elasticsearch官方文件執行環境： php7 laravel

Elasticsearch IK 同義詞

同義詞配置 step 1 elasticserach.yml 最後一行新增： index.analysis.analyzer.default.type: ik step 2 在elas

logback，logstash，elasticsearch配置，日誌收集

看了很多網上的其他部落格，感覺這配置上的坑好多，一天下來踩了很多坑，我寫這篇部落格就是為了防止大家繼續掉坑裡用的。廢話不多說，我們進入正題。 (java環境自己之前配置好，這我就不講了,接下去碰到的172.30.194.180這個地址是我內網測試伺服器的ip地址，你們改為自

ElasticSearch 中文同義詞實現

1：elasticserach.yml 最後一行新增如下內容（該檔案位於elasticsearch-x.x.x/config目錄下）： index.analysis.analyzer.default.type: ik 2：在elasticsearch-x

Elasticsearch-ik同義詞，近義詞，聯想詞

Elasticsearch-ik同義詞，近義詞，聯想詞1. 將ik安裝到elasticsearch/plugin/兩種方式：方式2：./bin/elasticsearch-plugin install https://github.com/medcl

elasticsearch配置檔案詳解

elasticsearch的config資料夾裡面有兩個配置檔案：elasticsearch.yml和logging.yml，第一個是es的基本配置檔案，第二個是日誌配置檔案，es也是使用log4j來記錄日誌的，所以logging.yml裡的設定按普通log4j配置檔案來

Elasticsearch 配置同義詞

相關推薦