1. 程式人生 > >深度學習的一些資料集介紹

深度學習的一些資料集介紹

資料集分為三類:影象處理相關資料集,自然語言處理相關資料集和語音處理相關資料集。參考:here

以下主要是影象處理相關資料集。

1、mnist:詳情

MNIST資料來自美國國家標準與技術研究所,National Institute of Standards and Technology(NIST)訓練集(training set)來自250不同的人手寫的數字構成,其中50%是高中學生,50%來自人口普查局(the Census Bureau)的工作人員。測試集(test set)也是同樣比例的手寫數字資料。

共分為四個檔案:

train-images-idx3-ubyte.gz training set images(9912422 bytes),55000張訓練圖片,5000張驗證圖片,共60000張
train-labels-idx1-ubyte.gz training set labels(28881 bytes),
t10k-images-idx3-ubyte.gz test set images(1648877 bytes),10000張圖片
t10k-labels-idx1-utype.gz test set labels(4542 bytes),
   

資料是IDX檔案格式,是一種用來儲存向量與多維度矩陣的檔案格式。基本格式如下:

TRAINING SET IMAGE FILE (train-images-idx3-ubyte):
    [offset] [type]          [value]          [description]
    0000     32 bit integer  0x00000803(2051) magic number
    0004     32 bit integer  60000            number of images
    0008     32 bit integer  28               number of rows
    0012     32 bit integer  28               number of columns
    0016     unsigned byte   ??               pixel
    0017     unsigned byte   ??               pixel
    ........
    xxxx     unsigned byte   ??               pixel
    Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).

TRAINING SET LABEL FILE (train-labels-idx1-ubyte):
    [offset] [type]          [value]          [description]
    0000     32 bit integer  0x00000801(2049) magic number (MSB first)
    0004     32 bit integer  60000            number of items
    0008     unsigned byte   ??               label
    0009     unsigned byte   ??               label
    ........
    xxxx     unsigned byte   ??               label
    The labels values are 0 to 9.


TEST SET IMAGE FILE (t10k-images-idx3-ubyte):
    [offset] [type]          [value]          [description]
    0000     32 bit integer  0x00000803(2051) magic number
    0004     32 bit integer  10000            number of images
    0008     32 bit integer  28               number of rows
    0012     32 bit integer  28               number of columns
    0016     unsigned byte   ??               pixel
    0017     unsigned byte   ??               pixel
    ........
    xxxx     unsigned byte   ??               pixel
    Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).


TEST SET LABEL FILE (t10k-labels-idx1-ubyte):
    [offset] [type]          [value]          [description]
    0000     32 bit integer  0x00000801(2049) magic number (MSB first)
    0004     32 bit integer  10000            number of items
    0008     unsigned byte   ??               label
    0009     unsigned byte   ??               label
    ........
    xxxx     unsigned byte   ??               label
    The labels values are 0 to 9.

大小:約50M

數量:10個類別,70000張圖片

最新技術結果論文(SOTA)Dynamic Routing Between Capsules

 

2、MS-COCO【官方說明網址】:Microsoft COCO, 2014年釋出【一個詳細的COCO學習筆記】。

COCO是一個可用於Object detection, Segmentation and caption的大型資料集。有以下特點:

  • 目標分割
  • 上下文關係識別
  • 超畫素分割
  • 330K影象(>200K已經標記)
  • 150萬個目標
  • 80個分類
  • 91種目標
  • 每張圖片包含5個字幕(5 captions per image)
  • 包含250000個人(已標記)

大小:約25GB(壓縮包),500MB左右的標籤檔案。標籤檔案標記了每個segmentation+bounding box(即分割物+分割物的邊界)的精確座標,精度均為小數點後兩位。

數量:330K張圖片,80個物件類別,每個影象5萬個描述,25萬個人(已標記)

(最新技術論文)SOTA:Mask rcnn

 

3、ImageNet:【官方

ImageNet是基於WordNet層次結構組織的影象資料集。WordNet包含約100000個短語,ImageNet平均提供了約1000個圖片來說明每個短語。

大小:約150GB

數量:影象總數是14000000+;類別1000。每個都有多個邊界框和相應的類標籤。

SOTAAggregated Residual Transformations for Deep Neural Networks

 

ISLVRC(ImageNet Large Scale Visual Recognition Challenge):比賽用的ImageNet的子資料集。

比賽包含有目標定位、目標檢測、視訊序列的目標檢測、場景分類、場景分析這幾個專案。

ISLVRC歷年的資料集:2016201520142013201220112010

 

4、Open Images Dataset:【github連結

Open Images Dataset是一個包含了超過900w個連結影象的資料集。其中包含9011219張影象的訓練集,41260張影象的驗證集以及125436張影象的測試集。它的影象中類跨越千個類別,且有影象層級的標註框進行註釋。

大小:500G(壓縮包)

數量:9011219張超過5K標籤的影象

SOTA:Resnet  101 image classfication model(trained on v2 data):Model checkpoint, Checkpoint readme, inference code.

5、CIFAR-10

數量:10個類別,60000個32x32彩色影象,共分為50000個訓練圖和10000個側檢視。資料集分為6個部分-5個訓練批次(training batches)和1個測試批次(test batches),每個批次(batch)有10000個影象。

大小:170M

SOTA:ShakeDrop regularization

 

CIFAR-100:

共100個類,每個類包含600個影象,每個類各有500個訓練影象和100個測試影象。CIFAR-100中的100個類被分成20個超類。每個影象都帶有一個”精細“標籤(它所屬的類)和一個”粗糙“的標籤(它所屬的超類)

 

6、pascal_voc【資料集直接下載地址:2012_trainval2007_trainval2007_test

Pattern Analysis, Statistical Modelling and Computational Learning

VOC:Visual Object Classes

包含了20類的物體。

主要任務是:

  • 分類
  • 檢測
  • Segmentation
  • 人體動作識別
  • Large scale recognition(由ImageNet主辦)