1. 程式人生 > >NLP 常用語料庫

NLP 常用語料庫

1.Sogou News Corpus

搜狗新聞語料庫. Containing in total 2,909,551 news articles in various topic channels.
參考文獻[1] 中是這麼描述與使用的: :

There are a large number categories but most of them contain only few articles. We choose 5 categories – “sports”, “finance”, “entertainment”, “automobile” and “technology”. The number of training samples selected for each class is 90,000 and testing 12,000.

2. YFCC 100M

YaHoo 實驗室的多媒體資料集, 用處不侷限於NLP. 地址在參考文獻[3]中.
內含約 1億 張圖片 與 100 萬個視訊, 有 標題, 說明 與 標籤. 即 title, captions and tags.
它的標註是多元的, 比如一隻小狗, 會被標註 動物/小狗/寵物/獅子狗 等.
FastText 論文中, 用到了它作 Tag Prediction.

參考

相關推薦

NLP 常用語料

1.Sogou News Corpus 搜狗新聞語料庫. Containing in total 2,909,551 news articles in various topic channels. 參考文獻[1] 中是這麼描述與使用的: : Th

NLP常用語料集合

常用語料資源   下面提供一些網上能下載到的中文的好語料,供研究人員學習使用。(1).中科院自動化所的中英文新聞語料庫 http://www.datatang.com/data/13484中文新聞分類語料庫從鳳凰、新浪、網易、騰訊等版面蒐集。英語新聞分類語料庫為Reuters-21578的Mod

小白使用百度 NLP 實現語料 TTR 統計

本人是一個文科生,本科學英語,碩士學翻譯。學院裡都流行的是語言學研究,我個人更喜歡的是計算語言學,看了幾本書和論文之後就對計算語言學和語料庫語言學深感興趣。奈何讀書那會對這些技術一竅不通,程式碼也看不進去,工作幾年後還是對這方面感興趣,就從10月份開始學python,做了個基礎的入門,然後開始挑選適合自己的N

NLP】大資料之行,始於足下:談談語料知多少

作者:白寧超 2016年7月20日13:47:51 摘要:大資料發展的基石就是資料量的指數增加,無論是資料探勘、文字處理、自然語言處理還是機器模型的構建,大多都是基於一定量的資料,資料規模達到一定程度,採用基於規則方法或者概率統計學的方法進行模型構建,感興趣知識的獲取才更有意義。那麼,是不是資料足

NLP之路-檢視獲取文字語料

繼續學習NLP in Python #coding=UTF-8 #上面一句解決中文註釋編碼錯誤問題 import nltk #檢視獲取到的文字語料庫 nltk.corpus.gutenberg.fil

九. 常用、向量與哈希5.向量及其應用

構造 pty obj 元素 init container right setsize 使用數組 Vector(向量)是 java.util 包中的一個類,該類實現了類似動態數組的功能。向量和數組相似,都可以保存一組數據(數據列表)。但是數組的大小是固定的,一旦指定,就不能改

常用之.NET(轉)

等等 pat arm lac enc nth 隨機文件 dal source 常用類庫之.NET中的字符串 字符串的特性 1.不可變性 由於字符串是不可變的的,每次修改字符串,都是創建了一個單獨字符串副本(拷貝了一個字符串副本)。之所

Python運維中20個常用和模塊

python 運維 1、psutil是一個跨平臺庫(https://github.com/giampaolo/psutil)能夠實現獲取系統運行的進程和系統利用率(內存,CPU,磁盤,網絡等),主要用於系統監控,分析和系統資源及進程的管理。2、IPy(http://github.com/haypo/p

go語言常用開源整理

red ces href app ptc github 時間插件 ova 單元 框架 https://github.com/go-martini/martini 圖形驗證碼 https://github.com/dchest/captcha ORM https://gith

Python 常用

zlib 文件和目錄 val server shelf 註冊表 sep 同步方法 註冊 python除了關鍵字(keywords)和內置的類型和函數(builtins),更多的功能是通過libraries(即modules)來提供的。 常用的libraries(module

Android常用依賴搜集

android 依賴庫 常用 androi square .com 處理 com hub 圖片處理 CircleImageView   Git地址:https://github.com/hdodenhof/CircleImageView 網絡通信庫 okhttp  

Python常用第三方

encode pan util odi char 1.0 TE japan 圖像 Pillow圖像處理庫 requests 訪問網絡資源 chardet 用於檢測編碼 import chardet print(chardet.detect(b‘Hello,world‘

Java 常用 之 比較類 Comparable

instance 多少 一個 public 類關系 name length compare 實例 http://www.verejava.com/?id=169930999133100 /** 知識點: 比較類 Comparable 題目: 將某班學生按數

Java 常用 之 Random 隨機數類實例

com clas CA java arraylist wan 隨機 TP array http://www.verejava.com/?id=169931132381103 /** 知識點:Random 隨機數類 實際應用: 敵人飛機隨機從屏幕的上方出現

Java 常用 之 Date 日期類

ID ret ati 轉換成 知識 HR text exceptio imp http://www.verejava.com/?id=16993074079095 /** 知識點: Date 日期類 */ import java.util.Date; import

Java 常用 之 SimpleDateFormat 日期格式化

pareto parse out oid turn sta AS 對象 ref http://www.verejava.com/?id=16993055673892 /** 知識點:Calandar 日期處理類 */ import java.util.*; impo

Java 常用 之 大精度數值

++ mat CI 數值 ger import str big sta http://www.verejava.com/?id=17159675312132 import java.math.BigDecimal; import java.math.BigInteger;

c++ 常用標準

struct friend 開始 lac 適用於 repl 函數 數組 常用 vector: 在vc6中,如果要鑲嵌使用vector, 如vector<vector<int> >, 後面的兩個> 應該用,空格隔開, 否則被編譯器認為是移位符 s

python常用標準

lose lac red 字符數 part odin rev tip 日歷 -------------------系統內建函數-------------------1、字符串str=‘這是一個字符串數據測試數據‘對應str[0]:獲取str字符串中下標為0的字符。str[3

數據挖掘-語料的構建

實驗室 walk () 目錄命名 編號 rup 系統 數據 16px 語料庫:是我們要分析的所有文檔的集合 使用搜狗實驗室提供的語料庫,裏面有一個classlist,裏面內容是文件的編號及分類名稱 1、導入模塊 import os import os.path