自然語言處理語言資源專案
阿新 • • 發佈:2018-11-28
專案地址:https://github.com/liuhuanyong/LanguageResources
致力於利用web公開資訊,採用爬蟲指令碼,加工處理形成語言資源包括詞彙知識庫,領域語料等語言資源,該資源可用於自然語言處理任務.
1、 corpus_resources.py:詞庫,包括:
name:人民日報語料 link:https://pan.baidu.com/s/1_E2YA7u61s_ZSSFV0IrHJA pwd:ux12 desc:人民日報199801語料 name:領域小說文字語料 link:https://pan.baidu.com/s/1JC3UyOu8PuJrnn_JUyF9UQ pwd:bguf desc:13個領域的小說文字集合,5000+小說文字 name:字幕文字語料 link:https://pan.baidu.com/s/19BI81W7rFwvLKEjVBPXaUA pwd:mpfz desc:基於字幕網抓取,70W字幕文字語料 name:段子文字語料 link:https://pan.baidu.com/s/1go84Pt8O-AHJJOgJhkG89Q pwd:eju6 desc:基於內涵段子等短文字網站抓取,約50W name:歌詞文字語料 link:https://pan.baidu.com/s/1IOCH9EfZInTdI_GvnuedJA pwd:nq69 desc:基於歌詞網站抓取,歌詞數量約20W
2 word_resources.py:領域語料
包括:
name:語義詞庫 link:https://pan.baidu.com/s/1b663-MVQ2UG69wvmKg912g pwd:flg8 desc:語法資訊詞典,知網義原、程度副詞、現代漢語詞典、否定詞、同義詞詞林等 name:領域詞庫 link:https://pan.baidu.com/s/1fzwE94sC77PDo-36IKCkWg pwd:x57t desc:33個領域詞詞庫 name:情感詞庫 link:https://pan.baidu.com/s/10KECT0kxiRDt43vuSBOdeA pwd:mn5u desc:通用、微博、食物、財經等領域情感詞,以及公開情感詞(清華、臺灣大學、大連理工等) name:敏感詞詞庫 link:https://pan.baidu.com/s/1DIkV-RyiEVaNMPNYiiKVsA pwd:asol desc:敏感詞詞庫,可用於敏感資訊檢測 name:搜狗輸入法詞庫 link:https://pan.baidu.com/s/11H8L0021TgnWEs8p4cjGkQ pwd:wpr8 desc:基於搜狗輸入法抓取與轉換生成,1W+個詞庫文字
3 wordvector_resource.py:預訓練詞向量檔案
name:多領域詞向量 link:https://pan.baidu.com/s/10j2Ozt9rOspVDsn_UNIfdw pwd:cw04 desc:基於騰訊歷時滾動新聞訓練的多領域詞向量,包括財經、軍事、體育、科技等領域 *********** name:中文字向量 link:https://pan.baidu.com/s/1m7E86igkOglQsl7hwn0QVw pwd:b2mg desc:基於維基百科生成的字向量
資源已經共享至百度網盤,詳細見相應的.py檔案
If any question about the project or me ,see https://liuhuanyong.github.io/
專案地址:https://github.com/liuhuanyong/LanguageResources