1. 程式人生 > >關於資料集(你知道哪些資料集?)(影象)

關於資料集(你知道哪些資料集?)(影象)

1.MNIST

d232ec9c62087f6060aac961678344187aca3140

MNIST是最受歡迎的深度學習資料集之一,這是一個手寫數字資料集,包含一組60,000個示例的訓練集和一個包含10,000個示例的測試集。這是一個很好的資料庫,用於在實際資料中嘗試學習技術和深度識別模式,同時可以在資料預處理中花費最少的時間和精力。

大小:50 MB

記錄數量: 70,000張圖片被分成了10個組。

17c48f5075d912d34d36f716a918876f3993e629

COCO(Common Objects in Context)是一個新的影象識別、分割和影象語義資料集,它有如下特點:
1)Object segmentation
2)Recognition in Context
3)Multiple objects per image
4)More than 300,000 images
5)More than 2 Million instances
6)80 object categories
7)5 captions per image
8)Keypoints on 100,000 people

COCO資料集由微軟贊助,其對於影象的標註資訊不僅有類別、位置資訊,還有對影象的語義文字描述,COCO資料集的開源使得近兩三年來影象分割語義理解取得了巨大的進展,也幾乎成為了影象語義理解演算法效能評價的“標準”資料集。

Google開源的開源了圖說生成模型show and tell就是在此資料集上測試的,想玩的可以下下來試試哈。

MNIST將初學者領進了深度學習領域,而Imagenet資料集對深度學習的浪潮起了巨大的推動作用。深度學習領域大牛Hinton在2012年發表的論文《ImageNet Classification with Deep Convolutional Neural Networks》在計算機視覺領域帶來了一場“革命”,此論文的工作正是基於Imagenet資料集。

Imagenet資料集有1400多萬幅圖片,涵蓋2萬多個類別;其中有超過百萬的圖片有明確的類別標註和影象中物體位置的標註,具體資訊如下:
1)Total number of non-empty synsets: 21841
2)Total number of images: 14,197,122
3)Number of images with bounding box annotations: 1,034,908
4)Number of synsets with SIFT features: 1000
5)Number of images with SIFT features: 1.2 million

Imagenet資料集是目前深度學習影象領域應用得非常多的一個領域,關於影象分類、定位、檢測等研究工作大多基於此資料集展開。Imagenet資料集文件詳細,有專門的團隊維護,使用非常方便,在計算機視覺領域研究論文中應用非常廣,幾乎成為了目前深度學習影象領域演算法效能檢驗的“標準”資料集。

與Imagenet資料集對應的有一個享譽全球的“ImageNet國際計算機視覺挑戰賽(ILSVRC)”,以往一般是google、MSRA等大公司奪得冠軍,今年(2016)ILSVRC2016中國團隊包攬全部專案的冠軍。

Imagenet資料集是一個非常優秀的資料集,但是標註難免會有錯誤,幾乎每年都會對錯誤的資料進行修正或是刪除,建議下載最新資料集並關注資料集更新。

21b8626be1dccea953d18af1cd1622a145c0bfb3

過去幾年機器學習的發展使得計算機視覺有了快速的進步,系統能夠自動描述圖片,對共享的圖片創造自然語言迴應。其中大部分的進展都可歸因於 ImageNet 、COCO這樣的資料集的公開使用。谷歌作為一家偉大的公司,自然也要做出些表示,於是乎就有了Open Image。

Open Image是一個包含~900萬張影象URL的資料集,裡面的圖片通過標籤註釋被分為6000多類。該資料集中的標籤要比ImageNet(1000類)包含更真實生活的實體存在,它足夠讓我們從頭開始訓練深度神經網路。

谷歌出品,必屬精品!唯一不足的可能就是它只是提供圖片URL,使用起來可能不如直接提供圖片方便。

此資料集,筆者也未使用過,不過google出的東西質量應該還是有保障的。

5.PASCAL VOC

PASCAL VOC挑戰賽是視覺物件的分類識別和檢測的一個基準測試,提供了檢測演算法和學習效能的標準影象註釋資料集和標準的評估系統。PASCAL VOC圖片集包括20個目錄:人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機、自行車、船、公共汽車、小轎車、摩托車、火車);室內(瓶子、椅子、餐桌、盆栽植物、沙發、電視)。PASCAL VOC挑戰賽在2012年後便不再舉辦,但其資料集影象質量好,標註完備,非常適合用來測試演算法效能。

d3ea65e5cd106dc02dae823d703a4fea8b33ff8e

CIFAR-10包含10個類別,50,000個訓練影象,彩色影象大小:32x32,10,000個測試影象。CIFAR-100與CIFAR-10類似,包含100個類,每類有600張圖片,其中500張用於訓練,100張用於測試;這100個類分組成20個超類。影象類別均有明確標註。CIFAR對於影象分類演算法測試來說是一個非常不錯的中小規模資料集。

5d8a664b459fa0c7861de72e185b4e8c0709e215

VQA是一個包含相關影象的開放式問題的資料集,這些問題需要理解視野和語言。這個資料集的一些有趣的特點是:

· 265,016張圖片(COCO和抽象場景);

· 每張圖片至少有3個問題(平均5.4個問題);

· 每個問題有10個基本事實答案;

· 每個問題有3個似乎合理(但可能不正確)的答案;

· 自動評估指標。

大小:25 GB(壓縮)

記錄數量:265,016張圖片,每張圖片至少3個問題,每個問題10個基本事實答案。

15fc42619e7db1e9b70d41d3dc2fcb6be83d2e0b

這是用於開發物件檢測演算法的真實世界的影象資料集,它需要最少的資料預處理。它與本列表中提到的MNIST資料集類似,但具有更多標籤資料(超過600,000個影象),這些資料是從谷歌街景中檢視的房屋號碼中收集的。

大小:2.5 GB

記錄數量:6,30,420張圖片被分佈在10個類中。

e36ccb028a0302f3ae4e88bc4cff7b42010250a2

Fashion-MNIST包含60,000個訓練影象和10,000個測試影象,它是一個類似MNIST的時尚產品資料庫。開發人員認為MNIST已被過度使用,因此他們將其作為該資料集的直接替代品。每張圖片都以灰度顯示,並與10個類別的標籤相關聯。

大小:30 MB

記錄數量:70,000張圖片被分為10個類。