Solr-6.5.1配置中文分詞器smartcn
阿新 • • 發佈:2019-01-01
solr的同步發行包smartcn可進行中文切詞,smartcn的分詞準確率不錯,但就是不能自己定義新的詞庫,不過smartcn是跟solr同步的,所以不需要額外的下載,只需在solr的例子中拷貝進去即可。
第一步:
找到如下目錄,複製中文分詞器jar到solr專案的WEB-INF/lib目錄下:
第二步:
在自定義的core下配置schema(schema目錄可檢視之前的文章):
<types>
........
<!-- 配置中文分詞器 -->
<fieldType name="text_smartcn" class ="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory" />
</analyzer>
</fieldType>
</types>
第三步:
將需要中文分詞的欄位型別替換成上述型別:
<field name="goodsName" type="text_smartcn" indexed="true" stored="true" required="true" multiValued="false" />