1. 程式人生 > >solr安裝mmseg4j 分詞器

solr安裝mmseg4j 分詞器

1.下載資料

   https://github.com/chenlb/mmseg4j-solr

   注意版本:

  • mmseg4j-solr-2.0.0.jar 要求 lucene/solr >= 4.3.0。在 lucene/solr [4.3.0, 4.7.1] 測試過相容可用。
  • mmseg4j-solr-2.1.0.jar 要求 lucene/solr 4.8.x
  • mmseg4j-solr-2.2.0.jar 要求 lucene/solr [4.9, 4.10.x]
  • mmseg4j-solr-2.3.0.jar 要求 lucene/solr [5.0, ]

2.拷貝jar

mmseg4j-solr-2.2.0.jar、mmseg4j-core-1.10.0.jar拷貝到%TOMCAT_HOME%\webapps\solr\WEB-INF\lib目錄下

3.準備自定義詞庫

1.6版支援多個詞庫檔案,定義的目錄下讀到"words"字首且".dic"為字尾的檔案,如:F:\dic\words-mmseg4j.dic。新增自定義詞條,一條一行(注意,必須UTF-8編碼格式)。如下圖所示:


4.配置schema.xml

<pre name="code" class="html">  <fieldtype name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="F:\dic"/>
    </analyzer>
  </fieldtype>

  <fieldtype name="text_mmseg4j_MaxWord" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
    </analyzer>
  </fieldtype>

  <fieldtype name="text_mmseg4j_Simple" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" <span style="color:#ff6666;"><strong>dicPath="F:\dic" </strong></span>/>
    </analyzer>
  </fieldtype>

其中,dicPath為自定義詞庫路徑,絕對路徑測試通過。相對路徑,說是相對於solr_home的,沒有測試通過,有通過的請指點!

5.重啟tomcat測試即可,如果是solrcloud,不需要重啟,重新建立索引即可。如下圖:

          

其中,州廣為自定義詞