Solr6.0.1配置中文分詞器mmseg4j
阿新 • • 發佈:2019-01-04
1、下載mmseg4j包和所需dic檔案
2、配置mmseg4j中文分詞器
在solrhome中建立dic資料夾,並將dic欄位檔案複製進去
將mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar放到tomcat下solr中的lib中,即:tomcat_solr/webapps/solr/WEB-INF/lib中
- 修改solr專案下的managed-schema檔案,新增如下內容
<!-- mmseg4j-->
<fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" >
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic資料夾目錄"/>
</analyzer>
</fieldType>
<fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap ="100" >
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic資料夾目錄"/>
</analyzer>
</fieldType>
<fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" >
<analyzer >
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic資料夾目錄"/>
</analyzer>
</fieldType>
<!-- mmseg4j-->
- 新增與fieldType對應的field(這個在專案中按自己需求新增):
<!-- mmseg4j -->
<field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/>
<field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/>
<field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/>
<!--mmseg4j -->