1. 程式人生 > >中文分詞器(IK)的配置檔案

中文分詞器(IK)的配置檔案

中文(IK)分詞器是在IKAnalyzer分詞包中使用的,使用前請自行下載相應的jar包
將這個檔案(IKAnalyzer.cfg.xml)放入到src的的目錄先,

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
    <comment>IK Analyzer 擴充套件配置</comment>
    <!--使用者可以在這裡配置自己的擴充套件字典    -->
<entry key="ext_dict">ext.dic;</entry> <!--使用者可以在這裡配置自己的擴充套件停止詞字典--> <entry key="ext_stopwords">stopword.dic;</entry> </properties>

根據上面的配置檔案可以定義自己的分詞(ext.dic)放入到src的目錄下,在裡面可以直接寫需要分的詞

程式設計師
工程師
流行語
老司機

也可以新增自己的停詞(stopword.dic檔案),也需要放入到src目錄下,在檔案裡面直接新增自己的停詞即可:例如

是
啊
恩
嗎
個