搜尋引擎solr系列---自定義擴充套件詞庫的配置
阿新 • • 發佈:2019-01-07
如果配置好分詞,它會智慧分詞,對於一些特殊的詞句,可能不會分成你想要的詞
比如這麼一句話,“清池街辦新莊村”,配置好分詞後,會有如下的結果:
分詞後的結果,並沒有你想要的“清池街辦新莊村”的這個詞,這種情況就需要配置自定義的擴充套件詞庫了。
擴充套件詞庫的配置很簡單,具體步驟如下:
2.然後找到你的執行solr的tomcat,找到它下邊的webapps/solr/WEB-INF/classes資料夾,開啟裡邊應該已經有了一個log4j.properties
(當然如果你在以前,把log4j.properties檔案放到了lib資料夾中,那需要新建一個classes資料夾,放進去)在classes
資料夾中新建三個檔案,命名分別為IKAnalyzer.cfg.xml
、ext.dic
、stopword.dic
具體的下載地址三個配置檔案的下載位置
IKAnalyzer.cfg.xml 檔案即配置ext.dic和stopword.dic兩個字典庫的位置。具體配置如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 擴充套件配置</comment >
<!--使用者可以在這裡配置自己的擴充套件字典,多個以分號隔開 -->
<entry key="ext_dict">ext.dic;</entry>
<!--使用者可以在這裡配置自己的擴充套件停止詞字典,多個以分號隔開-->
<entry key="ext_stopwords">stopword.dic;</entry>
</properties>
ext.dic即擴充套件詞庫的儲存檔案,比如我打算建立一個詞“清池街辦新莊村”這樣一個詞,那開啟該檔案,在裡邊新添一個即可:
新增的每個詞都自己佔一行就可以的。
stopword.dic停止詞字典的配置,你可以將空格什麼的填進去,這裡不用這個字典配置。