solr(二) : 整合ik-analyzer

阿新 • • 發佈：2017-12-28

version 中文分詞器 bsp 修改分詞器 case nag encoding ik分詞

一. 問題:

技術分享圖片

在使用solr時, 分詞器解析中文的時候, 是一個一個字解析的. 這並不是我們想要的結果.

而在lucene中, 使用的中文分詞器是 IKAnalyzer. 那麽在solr裏面, 是不是任然可以用這個呢.

二. 整合 ik

1. 修改schema配置文件

打開如下路徑中的managed-schema.xml文件.

技術分享圖片

在文檔的最後面, 加入

 <!--新建 使用 ik 分詞器 解析 的域類型, 分詞,過濾都在類裏面了-->  
  <fieldType name="text_ik_type" class="solr.TextField">   
      < 
analyzer type="index" useSmart="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
      <analyzer type="query" useSmart="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
  </fieldType>
  
  <!-- <fieldType name="text_ik_type" class="solr.TextField">   
  <analyzer type="index">
    <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf" />
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
  </analyzer>
  <analyzer type="query">
    <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf" />
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
  </analyzer>
  </fieldType>  
-->

  <!--支持ik分詞器的域-->
  <field name="title_ik" type="text_ik_type" indexed="true" stored="true" />
  <field name="content_ik" type="text_ik_type" indexed="true" stored="true"  multiValued="true"/>
  <field name="text_ik" type="text_ik_type" multiValued="true" indexed="true" stored 
="true"/>

2. 加入jar包

在tomcat solr lib中加入ik分詞器的jar包

技術分享圖片

jar包可以在這裏下載: http://download.csdn.net/download/z____l/10176803

3. 加入分詞器配置文件

將前面lucene 裏面出現過的配置文件拷貝到 classes 文件夾下. 不拷貝也行, 自己新建也可以.

技術分享圖片

由於這裏我並沒有使用文件夾裝ext,stopword, 所以 IKAnalyzer.cfg.xml文件要做部分修改.

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
    <comment>IK Analyzer 擴展配置</comment>
    <!--用戶可以在這裏配置自己的擴展字典 -->
    <entry key="ext_dict">ext.dic</entry>
    
    <!--用戶可以在這裏配置自己的擴展停止詞字典-->
    <entry key="ext_stopwords">stopword.dic</entry>
    
</properties>

三. 結果

技術分享圖片

solr(二) : 整合ik-analyzer

version 中文分詞器 bsp 修改分詞器 case nag encoding ik分詞一. 問題: 在使用solr時, 分詞器解析中文的時候, 是一個一個字解析的. 這並不是我們想要的結果. 而在lucene中, 使用的中文分詞器是 IKAnalyzer. 那麽

solr 6.2.0系列教程（二）IK中文分詞器配置及新增擴充套件詞、停止詞、同義詞

前言 2、solr的不同版本，對應不同版本的IK分詞器。由於IK 2012年停止更新了。所以以前的版本不適合新版的solr。有幸在網上扒到了IK原始碼自己稍微做了調整，用來相容solr6.2.0版本。IK原始碼下載地址步驟 1、解壓下載的src.rar壓縮包，這是我建

solr 中文分詞mmeseg4j與ik analyzer效果對比

摘要：之前用solr6成功集成了中文分詞mmeseg4j，也順利整合了ik analyzer，對比一下他們分詞的效果。 1884年,中法戰爭時被派福建會辦海疆事務。 ik analyzer：18

Lucene 學習（二）：使用IK Analyzer中文分詞

import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Fie

solr 6.5 配置中文分詞 IK Analyzer

將解分詞資料裡的 ik-analyzer-solr5-5.x.jar 拷貝到 /Users/sun/Documents/solr-6.5.1/server/solr-webapp/webapp/WEB-INF/lib 目錄中去，將IKAnalyzer.cfg.xml、mydict.dic、stopword.d

Solr配置中文分詞器IK Analyzer詳解

歡迎掃碼加入Java高知群交流配置的過程中出現了一些小問題，一下將詳細講下IK Analyzer的配置過程，配置非常的簡單，但是首先主要你的Solr版本是哪個，如果是3.x版本的用IKAnalyzer2012_u6.zip如果是4.x版本的用IK Analyzer 20

solr-4.10.3 安裝在windows 7 並整合IK分詞器

硬體環境 window版本為：windows 7 64位軟體環境 JDK版本：1.7.0_17 solr版本：4.10.3 tomcat版本：tomcat 7 安裝過程步驟一：將下載好的solr-4.10.4.zip解壓，解壓後拷貝%solrh

Solr 5.0.0配置中文分詞器IK Analyzer

Solr版本和IK分詞版本一定對應（ps我版本沒對應好弄了快倆小時了）只適合Solr 5.0.0版本 1.下載IK分詞器包連結: https://pan.baidu.com/s/1hrXovly 密碼: 7yhs 2.解壓並把IKAnalyzer-5.0.jar 、solr-analyzer-extra

Solr 7.2.1 配置中文分詞器 IK Analyzer

一、什麼是中文分詞器？為什麼不來個英文分詞器呢？ “嘿，小夥子，就是你，說的就是你，你那麼有才咋不上天呢！” 首先我們來拽一句英文：“He is my favorite NBA star”

Apache solr(二)

def imp 連接 config mysq 1.0 localhost handle mysql數據庫上一篇試著進行了solr的安裝和配置，以及如何solr的檢索，今天試著簡單的將solr連接MySQL數據庫(才嘗試了單表、一對多和多對多的還有待研究) 1、MySQL的

Solr(二)Centos7 下solr-5.5.4核的創建

創建 entos director 拷貝命令 star spa mkdir cal solr核的創建一拷貝jar包創建核需要一下兩個Jar包，沒有的話創建核會失敗。 (1)solr-dataimporthandler-5.3.1jar (2)solr-datai

solr+tomcat整合

一個配置空文件夾內置 core home 添加 cal follow 一、solr安裝 http://archive.apache.org/dist/lucene/solr/ 這個地址有各個版本的這次我使用的是5.5.4版本和tomcat8 版本5.5.4已結內置了

IK Analyzer ES使用

https://github.com/medcl/elasticsearch-analysis-ik Analyzer: ik_smart , ik_max_word , Tokenizer: ik_smart , ik_max_word IK Analyzer是一個開源的，基於java

Apache CXF實戰之二整合Sping與Web容器

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Java架構-(十二) 整合spring cloud雲架構 - SSO單點登入之OAuth2.0 登出流程(3)

上一篇我根據框架中OAuth2.0的使用總結，畫了一個根據使用者名稱+密碼實現OAuth2.0的登入認證的流程圖，今天我們看一下logout的流程： Java程式碼我這裡只是簡單寫了一些登出的程式碼，我們會在後面的文章中詳細貼出所有程式碼供大家參考，而且會從建立資料庫，到執

spring boot(二):整合靜態資源訪問

在我們開發Web應用的時候，需要引用大量的js、css、圖片等靜態資源。預設配置 Spring Boot預設提供靜態資源目錄位置需置於classpath下，目錄名需符合如下規則： /static /public /resources /META-INF/r

ElasticSearch學習筆記（二）IK分詞器和拼音分詞器的安裝

ElasticSearch是自帶分詞器的，但是自帶的分詞器一般就只能對英文分詞，對英文的分詞只要識別空格就好了，還是很好做的（ES的這個分詞器和Lucene的分詞器很想，是不是直接使用Lucene的就不知道），自帶的分詞器對於中文就只能分成一個字一個字，這個顯然

Elasticsearch 系列指南（三）——整合ik分詞器

{ "tokens": [ { "token": "聯", "start_offset": 0, "end_offset": 1, "type": "<IDEOGRAPHIC>

04-SpringBoot之WEB(二)——整合Servlet、Filter、Listener

1. Servlet 1.1 自定義Servlet import javax.servlet.ServletException; import javax.servlet.http.HttpServlet; import javax.servlet.http.

Solr學習總結 IK 配置中文分詞器

預設solr沒有使用中文分詞器所有搜尋的詞都是整個句子是一個詞需要配置中文分詞器目前比較好用的是IK 但2012就停更了只支援到Lucene4.7所有solr5.5需要Lucene5支援需要修改部分原始碼來支援solr5.5找到IKAnalyze類 <dep

solr(二) : 整合ik-analyzer

相關推薦