solr中mmseg4j自定義詞庫配置

阿新 • • 發佈：2018-12-30

<fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100" >
         <analyzer>
                 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/data/web/search_cores/multicore/dic"/>
                         <filter class="solr.LowerCaseFilterFactory"/>
                         <filter class="com.chenlb.mmseg4j.solr.CutLetterDigitFilterFactory"/>
         </analyzer>
    </fieldType>
    <fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100" >
         <analyzer>
                 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
                         <filter class="solr.LowerCaseFilterFactory"/>
         </analyzer>
    </fieldType>
    <fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100" >
         <analyzer>
                 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>
                         <filter class="solr.LowerCaseFilterFactory"/>
         </analyzer>
    </fieldType>

主要是紅色部分(dicPath="/data/web/search_cores/multicore/dic"/>)，可以使用相對solr.home的地址，或者絕對地址。經過分析mmseg4j原始碼發現，如果不指定就是預設在 CWD/data 目錄（程式運行當前目錄的data子目錄）下找.如果填的是相對地址，則是相對solr.home的路徑。當然，最好使用絕對地址，相對的容易出錯，不好debug。

resin伺服器配置的solr.home：

                        <web-app id="/" document-directory="/data/web/projects/xiaozhao-solr">
                                 <stdout-log path="/data/logs/zhaopin-resin_solr-stdout.log" timestamp="[%H:%M:%S.%s]" rollover-period="1D"/>
                                 <stderr-log path="/data/logs/zhaopin-resin_solr-stderr.log" timestamp="[%H:%M:%S.%s]" rollover-period="1D"/>
                                 <character-encoding>utf-8</character-encoding>
                                 <env-entry>
                                     <env-entry-name>solr/home</env-entry-name>
                                     <env-entry-type>java.lang.String</env-entry-type>
                                     <env-entry-value>/data/web/search_cores/multicore</env-entry-value>
                                </env-entry>
                        </web-app>

不加詞庫效果如下：

自定義詞庫只要放到/data/web/search_cores/multicore/dic目錄下，以words開頭，dic結尾，每行一個詞即可。如：words-my.dic

白雲山
I
B
M
3
二次修改

加入自定義詞後分詞效果如下：

從上圖可以看出，自定義詞庫已經生效。

遺留問題：加入英文字母后，分詞效果仍沒有，目前只對中文分詞生效，英文如果想對單個字母分詞，需要進一步分析。有知道的朋友，歡迎留言~

solr中mmseg4j自定義詞庫配置

<fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100" > <analyzer> <t

solr中ik分詞配置同義詞、停止詞、自定義詞庫

版本說明(不同版本配置可能不同)： solr : 5.0.0 ik: IKAnalyzer2012FF_u2.jar 一、停止詞和自定義詞庫 IKAnalyzer2012FF_u2.jar複製到solr-5.0.0/server/solr-webapp/webapp/W

Elasticsearch5.6.11+Ik分詞器和自定義詞庫的配置與使用

1、Ik分詞器下載在https://github.com/medcl/elasticsearch-analysis-ik中下載對應版本的IK分詞器elasticsearch-analysis-ik-5.6.11.zip。 2、Ik分詞器配置在elasticsearch-5.6.11根

30_ElasticSearch IK分詞器配置檔案以及自定義詞庫

ElasticSearch IK分詞器配置檔案以及自定義詞庫更多幹貨一、概述ik配置檔案如何自己建立詞庫自己建立停用詞庫（不想去建立索引）二、ik配置檔案ik配置檔案地址：es/plugins/ik/config目錄IKAnalyzer.cfg.xml：用來配置自定義詞庫m

Elasticsearch熱詞(新詞/自定義詞)更新配置

網路詞語日新月異，如何讓新出的網路熱詞（或特定的詞語）實時的更新到我們的搜尋當中呢先用 ik 測試一下：curl -XGET 'http://localhost:9200/_analyze?pretty&analyzer=ik_max_word' -d ' 成龍原

Android Studio中如何自定義Android BuildConfig配置檔案

一個project會有多個app，不同module中都要配置compileSdkVersion、buildToolsVersion等變數值，這時候每個app中的compile工程如果不能統一，在以後升級裡會很麻煩，所以我們要把這些公共的配置項稱為共享變數。步驟

Elasticsearch之中文分詞器外掛es-ik的自定義詞庫

開發十年，就只剩下這套架構體系了！ >>>

Solr6自定義mmseg4j中文分詞庫，升級mmseg4j

摘要： mmseg4j支援使用者自定義詞庫，這個配置過程相對簡單，但是由於Solr6的API變動，使得mmseg4j無法使用自己的中文分詞庫，如果想使用這一功能，只能改原始碼了。 mmseg4j 版本與其對應的Solr版本 mmseg4j 1.8.3 只支援

spring中增加自定義配置支持

控制 images 映射獲取 path efi ade get 處理 spring.schemas 在使用spring時，我們會首先編寫spring的配置文件，在配置文件中，我們除了使用基本的命名空間http://www.springframework.org/schem

.net中webconfig自定義配置

ger nag man system style app col color ring 在configuration節點，也就是文件的根節點下，增加如下節點 <appSettings> <!--<add key="propPath"

SpringBoot中讀取自定義properties配置文件

bsp clas manage trace etl sstream factory 地址 app 配置文件放在src/main/resources目錄下 java代碼： /** * 系統配置文件 */ public class GlobalProperties {

在html中展示自己設計的字型（使用自定義字型庫實現資料加密）

在iconfont這麼發達的年代，作為前端設計工程師使用font awesome 是十分頻繁的，而“png圖”樣式圖示現在已經應用的比較少了，追溯其原因還是瀏覽器核心的渲染速度提升和字型庫多瀏覽器（包括手機）的支援，向量字型不會出現模糊的情況等等。從最早html4時代把圖示做

visual studio 配置屬性中增加自定義巨集和巨集值

visual studio中配置自己的巨集。下面是vs中的巨集，SolutionDir這個是工程所在目錄資料夾。如何建立自己的巨集呢檢視->其他視窗->屬性管理器，跳轉到屬性管理器介面。然後選擇一個工程，右鍵出現下圖所示點選新增新專案屬性表，給屬性表命名一個

build.gradle中buildConfigField自定義配置

遇到下面這種情況，就是Beta版本伺服器和Release版本伺服器通常不在一臺伺服器上，而測試希望可以同時釋出兩個伺服器的版本用於測試，這個時候我們就需要修改程式碼，然後一個一個老老實實的發包。gradle提供buildConfigField配合多渠道打不同伺服器版

在sublime 中使用自定義配置按鍵繫結模擬vim游標移動

好吧。我承認我是個sublime的新手。對於 vim也就是記住那麼幾個快捷鍵。但是這完全不影響我工作的質量。今天在寫使用sublime 寫Node的時候,感覺憋手蹩腳的.我擦.怎麼辦?想使用一些快捷鍵來操作. 下面是我的一些配置. 注意了: 在 preferences

Solr中文詞庫配置

Solr預設不支援中文分詞，需要單獨配置中文分詞外掛輸入中文測試新增中文分詞外掛：solr 7.3.1中自帶中文分詞外掛，將solr-7.3.1\contrib\analysis-extras\lucene-libs\lucene-analyzers-

Solr之——整合mmseg4j中文分詞庫

在上一篇博文《Solr之——整合Tomcat》中，我們介紹了Solr與Tomcat的整合方式，還沒有閱讀上一篇博文的朋友，請先閱讀上一篇博文《Solr之——整合Tomcat》，本文是在上一篇博文的基礎上整合mmseg4j中文分詞詞庫的。下面我們一起來實現Solr與mmse

利用Java 動態代理，自定義註解讀取配置檔案中的屬性值

Java動態代理在一些中介軟體中經常用到，或者一些大型專案中都會用到。這裡順帶使用一下自定義註解方式，基於java 反射機制讀取.properties格式檔案。 demo的大致內容包含以下： 1.配置檔案：config.properties url=http://www.

WPF呼叫類庫中的自定義控制元件

今天在專案中遇到了需要呼叫類庫中的自定義控制元件，控制元件繼承的是ContentControl ，但是發現無論如何都呼叫不成功，除錯了N個小時後發現，缺少檔案，故，不能上來直接建立類庫，需要先建立WPF程式，然後在建立自定義控制元件，最後刪除App.xaml等，總的來說就是，

在對話方塊程式中使用自定義控制元件-XT介面庫

1. 新建一個MFC對話方塊工程，以報表控制元件為例。在stdarx.h標頭檔案中加入XT介面庫的包含檔案： #include "XTToolKitPro.h"// xt介面庫 2. 向對話方塊中拖一個自定義控制元件（Custom Control），修

solr中mmseg4j自定義詞庫配置

相關推薦