1. 程式人生 > >NLP常用語料集合

NLP常用語料集合

常用語料資源

 

下面提供一些網上能下載到的中文的好語料,供研究人員學習使用。
(1).中科院自動化所的中英文新聞語料庫 http://www.datatang.com/data/13484
中文新聞分類語料庫從鳳凰、新浪、網易、騰訊等版面蒐集。英語新聞分類語料庫為Reuters-21578的ModApte版本。
(2).搜狗的中文新聞語料庫 http://www.sogou.com/labs/dl/c.html
包括搜狐的大量新聞語料與對應的分類資訊。有不同大小的版本可以下載。
(3).李榮陸老師的中文語料庫 http://www.datatang.com/data/11968
壓縮後有240M大小
(4).譚鬆波老師的中文文字分類語料 http://www.datatang.com/data/11970
不僅包含大的分類,例如經濟、運動等等,每個大類下面還包含具體的小類,例如運動包含籃球、足球等等。能夠作為層次分類的語料庫,非常實用。這個網址免積分(譚鬆波老師的主頁):http://www.searchforum.org.cn/tansongbo/corpus1.

PHP
(5).網易分類文字資料 http://www.datatang.com/data/11965
包含運動、汽車等六大類的4000條文字資料。
(6).中文文字分類語料 http://www.datatang.com/data/11963
包含Arts、Literature等類別的語料文字。
(7).更全的搜狗文字分類語料 http://www.sogou.com/labs/dl/c.html
搜狗實驗室釋出的文字分類語料,有不同大小的資料版本供免費下載
(8).2002年中文網頁分類訓練集 http://www.datatang.com/data/15021

2002年秋天北京大學網路與分散式實驗室天網小組通過動員不同專業的幾十個學生,人工選取形成了一個全新的基於層次模型的大規模中文網頁樣本集。它包括11678個訓練網頁例項和3630個測試網頁例項,分佈在11個大類別中。

 

常用分詞工具

將預料庫進行分詞並去掉停用詞,常用分詞工具有:

 

StandardAnalyzer(中英文)、ChineseAnalyzer(中文)、CJKAnalyzer(中英文)、IKAnalyzer(中英文,相容韓文,日文)、paoding(中文)、MMAnalyzer(中英文)、MMSeg4j(中英文)、imdict(中英文)、NLTK(中英文)、Jieba(中英文)。

 

提供一份DEMO語料資源

原始語料 http://pan.baidu.com/s/1nviuFc1
訓練語料 http://pan.baidu.com/s/1kVEmNTd