1. 程式人生 > >Java分散式中文分片語件word分詞v1.2釋出

Java分散式中文分片語件word分詞v1.2釋出

word分詞是一個Java實現的分散式的中文分片語件,提供了多種基於詞典的分詞演算法,並利用ngram模型來消除歧義。能準確識別英文、數字,以及日期、時間等數量詞,能識別人名、地名、組織機構名等未登入詞。同時提供了Lucene、Solr、ElasticSearch、Luke外掛。

自1.0之後,在1.1和1.2中,word分詞有了重大改進,優化了分詞演算法、利用多執行緒提升分詞速度、支援分散式、支援資源變化自動檢測、新增了全切分演算法、支援三元模型、支援Luke外掛、增加gradle支援等等,同時,word1.2支援最新的ElasticSearch1.5.1、Lucene4.10.4、Solr4.10.4以及Luke4.0。