Solr之SolrCloud配置mmseg4j同義詞

阿新 • • 發佈：2019-01-08

前提，已經安裝配置好Tomcat與Solr，並且配置好mmseg4j中文分詞。

1.修改$SOLR_HOME/collection1/conf/schema.xml
在fields節點下面的mmseg4j分詞器相關配置修改為類似於如下的內容：

<fieldType name="textSimple" class="solr.TextField" >
	<analyzer type="index">
	 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="solr_home/testcollection/conf/mm4jdic"/>
	  <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
	</analyzer>
	<analyzer type="query">
	 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="solr_home/testcollection/conf/mm4jdic"/>
	  <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
	</analyzer>
</fieldType>

2.修改$SOLR_HOME/testcollection/conf/synonyms.txt
在裡面加入你認為中同義詞的資料，形如：
手機 => 行動電話
大陸 => 中國
需要將此檔案儲存為UTF-8格式。如果是用UltraEdit編輯，可以在選單中選擇“檔案”-》“轉換”-》“ASCII到UTF-8”即可。記事本編輯的話，選單選擇“另存為”，編碼型別選擇UTF-8即可。
3.所有複雜的同義詞（就是還不在詞庫中的詞），應該在自定義詞典中有設定
如：“行動電話”這個詞應該在mmseg4j的自定義詞典中已經配置，否則建立索引的時候根本有沒有“行動電話”這個詞，查詢“手機”的時候，是不可能把“行動電話”查詢出來的。mmseg4j自定義詞典的路徑，按前文的設定是在$SOLR_HOME/testcollection/conf/mm4jdic/words-my.dic檔案中。
4.同義詞只能出現一次
即如果已經配置了“大陸 => 中國”，那麼是不能再配置“中國 => 中華人民共和國”這樣的詞條的，否則後一條將覆蓋前一條的資訊。
5.重新啟動Tomcat
即可以在查詢中使用同義詞。比如：查詢“大陸”，會將“中國”的資訊全部顯示出來。

Solr之SolrCloud配置mmseg4j同義詞

Solr之SolrCloud配置mmseg4j同義詞

Solr之——整合mmseg4j中文分詞庫

Solr之配置suggest功能

Solr之配置中文分詞器

Flask入門之SQLAlchemy配置與數據庫連接

mysql性能優化之優化配置my.cnf文件

solr的安裝配置與helloworld

Solr - 無*.war版solr安裝及配置

Jenkins進階系列之——09配置Linux系統ssh免密碼登陸

openvpn之EasyRSA配置篇

78 solr搜索配置權重

mybatis 整合spring之mapperLocations配置的問題

php擴展之xdebug配置

yii2.x之web配置

hystrix熔斷器之相關配置

centos6.8服務器配置之MYSQL配置

centos6.8服務器配置之vsftpd配置

ELK 學習筆記之 Logstash之filter配置

Maven（五）之Maven配置阿裏雲鏡像飛快下jar包

Nginx+Keepalive高可用之主從配置

Solr之SolrCloud配置mmseg4j同義詞

相關推薦