1. 程式人生 > >SnowNLP:處理中文文字內容

SnowNLP:處理中文文字內容

這是一個比yaha更加強大的中文分詞工具。yaha簡單來說只是使用最短路徑演算法(Dijstra)實現了中文分詞,而SnowNLP則實現了詞性標標準,情感分析,文字分類,轉換成拼音,繁體轉簡體,文字關鍵詞提取,文字摘要提取,tf,idf,Tokenization(分割成句子),文字相似。 為實現上面的功能用到了不少的演算法和模型,比如textrank、貝葉斯分類器、隱含馬爾科夫模型等。對於學習研究中文分詞和貝葉斯分類有一定的幫助。