資料集彙總

阿新 • • 發佈：2018-11-28

原始資料的採集

下面是對原始採集資料質量的評估：
1）影象、視訊：解析度，清晰度，光照，色彩等
2）語音：清晰度，背景音等
3）文字：是否自然語言，是否專業，與主題相關性等

下面是對資料標註質量的評估：
標註正確率（類別資料）
標註精確度（座標、時間點、個數、文字等）
標註完備性（是否漏，是否重複）
標註一致性（前後規則是否一致）

人工標記的大規模資料一般都會含有噪聲，一些經典資料集也含有噪聲，例如人臉LFW、MS COCO等，這是不可避免的，不過在可以接受的限度內就行。

經典資料集

MNIST資料集

深度學習領域的“Hello World!”！
THE MNIST DATABASE of handwritten digits。MNIST是一個手寫數字資料集，它有60000個訓練樣本集和10000個測試樣本集，每個樣本影象的寬高為28*28。需要注意的是，此資料集是以二進位制儲存的，不能直接以影象格式檢視。

常見的用於分類的資料集

在這裡插入圖片描述

開源資料集 https://www.kaggle.com/datasets

CIFAR/cifar

用於分類演算法測試的中小規模資料集。

1）CIFAR-10包含10個類別，50,000個訓練影象，彩色影象大小：32x32，10,000個測試影象。
CIFAR-10 is an image classi cation benchmark dataset. It consists of a training set of size 50K and a test set of size 10K, where instances are 32 * 32 color images representing airplanes, automobiles, birds, cats, deer, dogs, frogs, horses, ships and trucks.

2）CIFAR-100與CIFAR-10類似，包含100個類，每類有600張圖片，其中500張用於訓練，100張用於測試；這100個類分組成20個超類。影象類別均有明確標註。

COCO common objects Dataset(Common Objects in Context)

COCO資料集由微軟贊助，其對於影象的標註資訊不僅有類別、位置資訊，還有對影象的語義文字描述，COCO資料集的開源使得近兩三年來影象分割語義理解取得了巨大的進展，也幾乎成為了影象語義理解演算法效能評價的“標準”資料集。

它有如下特點：
1）Object segmentation
2）Recognition in Context
3）Multiple objects per image
4）More than 300,000 images
5）More than 2 Million instances
6）80 object categories
7）5 captions per image
8）Keypoints on 100,000 people

三大子集

1）目標檢測（COCO Detection Challenge），包含兩項比賽：用於目標檢測、語義分割

2）影象標註（COCO Captioning Challenge）
具體說來就是一句話準確描述圖片上的資訊（producing image captions that are informative and accurate）。那這個怎麼評分呢？目前是靠人工評分。

3）人體關鍵點檢測（COCO Keypoint Challenge）
比賽要求是找到人在哪，然後定位到人體的一些關鍵點位置（The keypoint challenge involves simultaneously detecting people and localizing their keypoints）。

Pascal VOC

PASCAL VOC挑戰賽是視覺物件的目標分類和目標檢測的一個基準測試，提供了檢測演算法和學習效能的標準影象註釋資料集和標準的評估系統。
PASCAL VOC圖片集包括20個目錄：人類；動物（鳥、貓、牛、狗、馬、羊）；交通工具（飛機、自行車、船、公共汽車、小轎車、摩托車、火車）；室內（瓶子、椅子、餐桌、盆栽植物、沙發、電視）。
PASCAL VOC挑戰賽在2012年後便不再舉辦，但其資料集影象質量好，標註完備，非常適合用來測試演算法效能。

ImageNet資料集

1）Total number of non-empty synsets（同義詞）: 21841
2）Total number of images: 14,197,122
3）Number of images with bounding box annotations: 1,034,908
4）Number of synsets with SIFT features: 1000
5）Number of images with SIFT features: 1.2 million

WebVision競賽

超越 ILSVRC：側重影象學習和理解的 WebVision競賽
超越 ILSVRC”workshop 將正式宣佈ImageNet 競賽的完結。ImageNet 之所以不再正式舉辦，是因為在 2016 年 ILSVRC 的影象識別錯誤率已經達到 2.9% 左右，遠遠超越人類（5.1%），今後再進行這類競賽意義就不大了。
未來，計算機視覺的重點在影象和視訊的理解。由此，便產生了一個值得關注的問題——繼 ImageNet 之後成為計算機視覺界標誌性競賽的是什麼。

The Street View House Numbers (SVHN)

SVHN是一個真實世界的街道門牌號數字識別資料集，該資料集有兩種格式：Full Numbers和Cropped Digit。
其中，Cropped Digit，這裡面是被裁剪成32*32的彩色影象，訓練集有73257張，測試集有26032張，另有包含了531131張影象的extra訓練集。
在這裡插入圖片描述

ILSVRC-2012

由於ILSVRC-2012測試集標籤是不公開的，我們不能對試過的所有模型都報告測試誤差率。在本段的其餘部分，我們將驗證誤差率與測試誤差率互換，因為根據我們的經驗，它們之間相差不超過0.1%。

LFW+

LFW+是基於LFW構建的一個包含年齡，性別，種族標註的資料集。每張人臉影象通過至少3個 amazon mechanical turk 標註，然後通過計算年齡均值作為年齡的標註，通過投票確定性別和種族的標註。此外，因為LFW資料集中青少年的影象偏少，LFW+中增加了2000多張青少年的人臉影象。
LFW+資料集可以用於人臉屬性學習方面的研究，例如年齡估計，性別分類，種族分類。
獲取方式： http://biometrics.cse.msu.edu/Publications/Databases/MSU_LFW+/

各個領域的資料集

CityScapes資料集（自動駕駛）

自動駕駛演算法公開排行榜Cityscapes，Cityscapes主要專注於畫素級別的分割和識別。
在這裡插入圖片描述

KITTI

KITTI由德國卡爾斯魯厄理工學院(Karlsruhe Institute of Technology)和豐田芝加哥技術研究院(Toyota Technological Institute at Chicago)於2012年聯合創辦，是目前國際上最大的自動駕駛場景下的計算機視覺演算法評測資料集。
用於評測3D 目標（機動車、非機動車、行人等）檢測、3D 目標跟蹤、道路分割等計算機視覺技術在車載環境下的效能。KITTI包含市區、鄉村和高速公路等場景採集的真實影象資料，每張影象中多達15輛車和30個行人，還有各種程度的遮擋。

Omniglot dataset

1623個手工繪製的字元從50個字母。為每個字元只有20個例項，每一個不同的人畫在解析度105x105。

JFT-300M

谷歌希望利用300M的大資料集進一步檢驗模型的能力和提升空間。
具體來說，我們已經構建包含300M影象的內部資料集（JFT-300M），這些影象被標註為18291個類別。影象標註演算法使用了原始網路訊號的複雜混合體和網頁與使用者反饋之間的連線，這導致300M影象擁有10億多標籤（一個影象可具備多個標籤）。10億影象標籤中，谷歌通過將所選影象的標籤精度最大化而獲取了375M標註。然而，標籤中仍然存在大量噪聲：所選影象的標籤中約有20%帶有噪聲。由於缺乏詳細註釋，我們無法評估標籤的召回率。
新的最優結果。我們的論文展示了在JFT-300M上訓練的模型，該模型在多個基準上獲得了最佳的結果。例如，單模型（沒有任何附加技巧）在COCO檢測基準上獲得了37.4AP（相對於原來的34.3AP）

谷歌的目標：10億+ 規模資料集
在模型越來越複雜的現在，谷歌的目標是——朝著 10 億+ 的資料集前進。
Gupta 補充強調說，由於沒有搜尋最佳的超引數集合（因為需要相當大的計算量），所以本次實驗得出的結果很可能還不是最佳。也就是說，這次他們的實驗可能還沒有完全將資料對效能的影響表現出來。由此，Gupta 指出，雖然難度很大，但獲取針對某一任務的大規模資料應當成為未來研究的重點。

Common Voice

mozilla基金會(即開發firefox瀏覽器的）開源語音識別模型，和世界第二大語音資料集。
Mozilla 在今年七月份啟動了 Common Voice 專案（https://voice.mozilla.org/）。該專案的目標是使人們能輕鬆地將他們的語音資料貢獻到一個公開資料集上。
Mozilla 公佈了貢獻資料集的第一部分：大約 400,000 份錄音，500 個小時時長。
所有人都可以在這裡下載：https://voice.mozilla.org/data。
雖然目前主要是英文資料，但是未來 Common Voice 將支援對多種語言的貢獻，這個計劃將從 2018 年上半年開始。

CMU Multi-PIE Face Database

A large (305GB) database of images for training facial recognition software. （300多G,都是花錢買的,誰能免費給你啊）
contains more than 750,000 images of 337 people, with 15 different views and 19 lighting conditions.
所謂“PIE”就是姿態（Pose），光照（Illumination）和表情（Expression）的縮寫。CMU Multi-PIE人臉資料庫是在CMU-PIE人臉資料庫的基礎上發展起來的。包含337位志願者的75000多張多姿態，光照和表情的面部影象。其中的姿態和光照變化影象也是在嚴格控制的條件下采集的，目前已經逐漸成為人臉識別領域的一個重要的測試集合。