1. 程式人生 > >R包之tm:文字挖掘包

R包之tm:文字挖掘包

關於中文支援

利用預設的reader讀入文件時,如果文件為中文,tm還是會以空格作為單詞的分割符。這樣基本對中文不適用。為了能夠處理中文,需要 圖換掉預設的reader。新的reader應該讀入文章,並進行分詞,然後將分詞的結果儲存為一個新的檔案,該檔案中,各中文單詞以空格隔開 。然後再利用tm的預設reader進行處理就可以了。關於自定義reader的格式,詳見這篇部落格

rmmseg4j 以前在cran中的,後來被移除了,原因是不符合java的原始碼政策 ( Archived on 2014-08-30 as does not comply with policy on Java sources. )