1. 程式人生 > >自然語言處理語言資源專案

自然語言處理語言資源專案

專案地址:https://github.com/liuhuanyong/LanguageResources
致力於利用web公開資訊,採用爬蟲指令碼,加工處理形成語言資源包括詞彙知識庫,領域語料等語言資源,該資源可用於自然語言處理任務.
1、 corpus_resources.py:詞庫,包括:

        name:人民日報語料
        link:https://pan.baidu.com/s/1_E2YA7u61s_ZSSFV0IrHJA
        pwd:ux12
        desc:人民日報199801語料
        name:領域小說文字語料
        link:https://pan.baidu.com/s/1JC3UyOu8PuJrnn_JUyF9UQ
        pwd:bguf
        desc:13個領域的小說文字集合,5000+小說文字
        name:字幕文字語料
        link:https://pan.baidu.com/s/19BI81W7rFwvLKEjVBPXaUA
        pwd:mpfz
        desc:基於字幕網抓取,70W字幕文字語料
        name:段子文字語料
        link:https://pan.baidu.com/s/1go84Pt8O-AHJJOgJhkG89Q
        pwd:eju6
        desc:基於內涵段子等短文字網站抓取,約50W
        name:歌詞文字語料
        link:https://pan.baidu.com/s/1IOCH9EfZInTdI_GvnuedJA
        pwd:nq69
        desc:基於歌詞網站抓取,歌詞數量約20W

2 word_resources.py:領域語料
包括:

	    name:語義詞庫
	    link:https://pan.baidu.com/s/1b663-MVQ2UG69wvmKg912g
	    pwd:flg8
	    desc:語法資訊詞典,知網義原、程度副詞、現代漢語詞典、否定詞、同義詞詞林等
	    name:領域詞庫
	    link:https://pan.baidu.com/s/1fzwE94sC77PDo-36IKCkWg
	    pwd:x57t
	    desc:33個領域詞詞庫
	    name:情感詞庫
	    link:https://pan.baidu.com/s/10KECT0kxiRDt43vuSBOdeA
	    pwd:mn5u
	    desc:通用、微博、食物、財經等領域情感詞,以及公開情感詞(清華、臺灣大學、大連理工等)
	    name:敏感詞詞庫
	    link:https://pan.baidu.com/s/1DIkV-RyiEVaNMPNYiiKVsA
	    pwd:asol
	    desc:敏感詞詞庫,可用於敏感資訊檢測
	    name:搜狗輸入法詞庫
	    link:https://pan.baidu.com/s/11H8L0021TgnWEs8p4cjGkQ
	    pwd:wpr8
	    desc:基於搜狗輸入法抓取與轉換生成,1W+個詞庫文字

3 wordvector_resource.py:預訓練詞向量檔案

            name:多領域詞向量
            link:https://pan.baidu.com/s/10j2Ozt9rOspVDsn_UNIfdw
            pwd:cw04
            desc:基於騰訊歷時滾動新聞訓練的多領域詞向量,包括財經、軍事、體育、科技等領域
            ***********
            name:中文字向量
            link:https://pan.baidu.com/s/1m7E86igkOglQsl7hwn0QVw
            pwd:b2mg
            desc:基於維基百科生成的字向量

資源已經共享至百度網盤,詳細見相應的.py檔案
If any question about the project or me ,see https://liuhuanyong.github.io/
專案地址:https://github.com/liuhuanyong/LanguageResources