為coreseek新增mmseg分詞
由於在工作中遇到了林書豪這個詞,原來的分詞庫裡面沒有就找了下文件,自己整理了一份,以交流備忘。
1.準備好需要新增的詞表,一般都是每行一詞,注意要儲存為utf-8;
例如:
--
林書豪
--
2.利用UltraEdit的查詢替換功能,使詞表格式符合mmseg的要求;
例如:
開啟UltraEdit的正則替換功能,將“^p”替換為“^t1^px:1^p”
結果是:
--
林書豪[tab]1
x:1
--
其他的也行
3.將生成的符合格式要求的詞表貼上到原詞表unigram.txt末尾,儲存為unigram_new.txt,並拷貝到mmseg所在的目錄下;
4.生成新的
/usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/unigram_new.txt
就會生成新的詞典檔案unigram_new.txt.uni
5.將新的unigram_new.txt.uni 替換原有的uni.lib
mv /usr/local/mmseg3/etc/unigram_new.txt.uni /usr/local/mmseg3/etc/uni.lib
6.重新建立索引庫、重啟searchd
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/c.conf --all --pidfile --rotate
關閉searchd
ps auxww | grep searchd
kill 923230
啟動searchd
/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/c.conf --console --pidfile
搜尋試下就出來了。
注意:需要重啟searchd