1. 程式人生 > >為coreseek新增mmseg分詞

為coreseek新增mmseg分詞

由於在工作中遇到了林書豪這個詞,原來的分詞庫裡面沒有就找了下文件,自己整理了一份,以交流備忘。

1.準備好需要新增的詞表,一般都是每行一詞,注意要儲存為utf-8; 
    例如: 
    -- 
    林書豪
    -- 
2.利用UltraEdit的查詢替換功能,使詞表格式符合mmseg的要求; 
    例如: 
    開啟UltraEdit的正則替換功能,將“^p”替換為“^t1^px:1^p” 
    結果是: 
    -- 
    林書豪[tab]1 
    x:1 
    -- 

    其他的也行
3.將生成的符合格式要求的詞表貼上到原詞表unigram.txt末尾,儲存為unigram_new.txt,並拷貝到mmseg所在的目錄下; 

4.生成新的

uni

    /usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/unigram_new.txt

    就會生成新的詞典檔案unigram_new.txt.uni 

5.將新的unigram_new.txt.uni 替換原有的uni.lib
    mv /usr/local/mmseg3/etc/unigram_new.txt.uni /usr/local/mmseg3/etc/uni.lib

6.重新建立索引庫、重啟searchd
     /usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/c.conf --all --pidfile --rotate
    關閉searchd
      ps auxww | grep searchd
      kill 923230


    啟動searchd
    /usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/c.conf --console --pidfile  

    搜尋試下就出來了。

注意:需要重啟searchd