solr安裝mmseg4j 分詞器
阿新 • • 發佈:2018-12-31
1.下載資料
https://github.com/chenlb/mmseg4j-solr
注意版本:
- mmseg4j-solr-2.0.0.jar 要求 lucene/solr >= 4.3.0。在 lucene/solr [4.3.0, 4.7.1] 測試過相容可用。
- mmseg4j-solr-2.1.0.jar 要求 lucene/solr 4.8.x
- mmseg4j-solr-2.2.0.jar 要求 lucene/solr [4.9, 4.10.x]
- mmseg4j-solr-2.3.0.jar 要求 lucene/solr [5.0, ]
2.拷貝jar
將mmseg4j-solr-2.2.0.jar、mmseg4j-core-1.10.0.jar拷貝到%TOMCAT_HOME%\webapps\solr\WEB-INF\lib目錄下
3.準備自定義詞庫
1.6版支援多個詞庫檔案,定義的目錄下讀到"words"字首且".dic"為字尾的檔案,如:F:\dic\words-mmseg4j.dic。新增自定義詞條,一條一行(注意,必須UTF-8編碼格式)。如下圖所示:
4.配置schema.xml
<pre name="code" class="html"> <fieldtype name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="F:\dic"/> </analyzer> </fieldtype> <fieldtype name="text_mmseg4j_MaxWord" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" /> </analyzer> </fieldtype> <fieldtype name="text_mmseg4j_Simple" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" <span style="color:#ff6666;"><strong>dicPath="F:\dic" </strong></span>/> </analyzer> </fieldtype>
其中,dicPath為自定義詞庫路徑,絕對路徑測試通過。相對路徑,說是相對於solr_home的,沒有測試通過,有通過的請指點!
5.重啟tomcat測試即可,如果是solrcloud,不需要重啟,重新建立索引即可。如下圖:
其中,州廣為自定義詞