機器學習，深度學習，免費資料集彙總

阿新 • • 發佈：2018-12-18

【第一波】

目前系統整理了一些網上開放的免費科研資料集，以下是分類列表以及下載地址，供高校和科研機構免費下載和使用。

金融

交通

商業

推薦系統

醫療健康

影象資料

綜合影象

場景影象

Web標籤影象

人形輪廓影象

視覺文字識別影象

特定一類事物影象

材質紋理影象

物體分類影象

人臉影象

姿勢動作影象

指紋識別

NIST FIGS 指紋識別資料

其它影象資料

Visual Question Answering 影象資料

視訊資料

綜合視訊

人類動作視訊

行人檢測視訊

密集人群視訊

其它視訊

Fire Detection 視訊資料

音訊資料

綜合音訊

Google Audioset 音訊資料【資料太大僅有介紹】

語音識別

自然語言處理

社會資料

處理後的科研和競賽資料

NIPS 2003 屬性選擇競賽資料http://dataju.cn/Dataju/web/datasetInstanceDetail/370
臺灣大學林智仁教授處理為 LibSVM 格式的分類建模資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/296
Large-scale 分類建模資料http://dataju.cn/Dataju/web/datasetInstanceDetail/297
幾個UCI 中 large-scale 分類建模資料http://dataju.cn/Dataju/web/datasetInstanceDetail/298
Social Computing http://dataju.cn/Dataju/web/datasetInstanceDetail/299
Data Repository 社交網路資料http://dataju.cn/Dataju/web/datasetInstanceDetail/300
貓和狗分類識別競賽資料【Kaggle競賽】http://dataju.cn/Dataju/web/datasetInstanceDetail/318
DSTL 衛星影象識別競賽資料【Kaggle競賽】http://dataju.cn/Dataju/web/datasetInstanceDetail/328
根據手機應用軟體使用行為預測使用者性別年齡競賽資料【Kaggle競賽】 http://dataju.cn/Dataju/web/datasetInstanceDetail/332
人臉關鍵點標定競賽資料【Kaggle競賽】 http://dataju.cn/Dataju/web/datasetInstanceDetail/331
Kaggle競賽資料合輯（部分競賽資料）http://dataju.cn/Dataju/web/datasetInstanceDetail/368

【第二波】

ImageNet挑戰賽中超越人類的計算機視覺系統
微軟亞洲研究院視覺計算組基於深度卷積神經網路（CNN）的計算機視覺系統，在ImageNet 1000挑戰中首次超越了人類進行物件識別分類的能力。他們的系統在ImageNet 2012分類資料集中的錯誤率已降低至4.94%。
這個資料集包含約120萬張訓練影象、5萬張驗證影象和10萬張測試影象，分為1000個不同的類別。
該研究團隊由微軟亞洲研究院研究員孫劍、何愷明以及來自西安交通大學和中國科學技術大學的實習生張祥雨和任少卿組成。

百度網盤裡有Imagenet資料下載(有140G以上)：連結：http://pan.baidu.com/s/1pJT8kLd 密碼：12kx

======================================
公開的海量資料集 Public Research-Quality Datasets

海量資料（又稱大資料）已經成為各大網際網路企業面臨的最大問題，如何處理海量資料，提供更好的解決方案，是目前相當熱門的一個話題。類似MapReduce、 Hadoop等架構的普遍推廣，大家都在構建自己的大資料處理，大資料分析平臺。

相應之下，目前對於海量資料處理人才的需求也在不斷增多，此類人才可謂炙手可熱！越來越多的開發者把目光轉移到海量資料的處理上。但是不是所有人都能真正接觸到，或者有機會去處理海量資料的，所以就需要一些公開的海量資料集來研究。

在Quora上有人就問到，如何獲取海量資料集。此問題得到了很多人的關注。具體可以看看回答，資料集的種類多種多樣，有化學分析，基因遺傳等等，從中你肯定能得到自己想要個數據集。
Where can I get large datasets open to the public?

首先說說幾個收集資料集的網站：
1、Public Data Sets on Amazon Web Services (AWS)
http://aws.amazon.com/datasets
Amazon從2008年開始就為開發者提供幾十TB的開發資料。

2、Yahoo! Webscope
http://webscope.sandbox.yahoo.com/index.php

3、Konect is a collection of network datasets
http://konect.uni-koblenz.de/

4、Stanford Large Network Dataset Collection
http://snap.stanford.edu/data/index.html

再就是說說幾個跟網際網路有關的資料集：
1、Dataset for "Statistics and Social Network of YouTube Videos"
http://netsg.cs.sfu.ca/youtubedata/

2、1998 World Cup Web Site Access Logs
http://ita.ee.lbl.gov/html/contrib/WorldCup.html
這個是1998年世界盃期間的資料集。從1998/04/26 到 1998/07/26 的92天中，發生了 1,352,804,107次請求。

3、Page view statistics for Wikimedia projects
http://dammit.lt/wikistats/

4、AOL Search Query Logs - RP
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs

5、livedoor gourmet
http://blog.livedoor.jp/techblog/archives/65836960.html

海量影象資料集：
1、ImageNet
http://www.image-net.org/
包含1400萬的影象。

2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000萬的32x32影象。

3、 MirFlickr1M
http://press.liacs.nl/mirflickr/
Flickr中的100萬的影象集。

4、 CoPhIR
http://cophir.isti.cnr.it/whatis.html
Flickr中的1億600萬的影象

5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
Flickr中的100萬的影象集。

6、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/
包含2億影象

7、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
Flickr中的27萬的影象集。

8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/
包含13萬的影象

9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/
包含100萬的影象，23000視訊

10、TRECVID
http://trecvid.nist.gov/

Stack Overflow Dump Files
7.3G stackoverflow.com-Posts.7z
573.1K stackoverflow.com-Tags.7z
153.0M stackoverflow.com-Users.7z
2.2G stackoverflow.com-Comments.7z

截止目前好像還沒有國內的企業或者組織開放自己的資料集。希望也能有企業開發自己的資料集給研究人員使用，從而推動海量資料處理在國內的發展！

2014/07/07 雅虎釋出超大Flickr資料集 1億的圖片+視訊
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for

============================================
資料探勘資料集下載資源

1、氣候監測資料集 http://cdiac.ornl.gov/ftp/ndp026b

2、幾個實用的測試資料集下載的網站
http://www.fs.fed.us/fire/fuelman/
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的網址可以找到reuters資料集：http://www.research.att.com/~lewis/reuters21578.html
該網址有各種資料集：http://kdd.ics.uci.edu/summary.data.type.html
進行文字分類，還有一個數據集是可以用的，即rainbow的資料集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

3、UCI收集的機器學習資料集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm

4、statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

5、關於基金的資料探勘的網站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

6、進行文字分類&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html

7、時間序列資料的網址
http://www.stat.wisc.edu/~reinsel/bjr-data/

8、apriori演算法的測試資料
http://www.almaden.ibm.com/cs/quest/syndata.html

9、資料生成器的連結
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
10、關聯：
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

11、WEKA：
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

12、癌症基因：
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

13、金融資料：
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

14、一個很好的資源網址為：http://kdd.ics.uci.edu/，裡面包含的資料資源按應用領域劃分的。

============================================================================================

1、Public Data Sets on Amazon Web Services (AWS)
http://aws.amazon.com/datasets
Amazon從2008年開始就為開發者提供幾十TB的開發資料。

2、Yahoo! Webscope
http://webscope.sandbox.yahoo.com/index.php

3、Konect is a collection of network datasets
http://konect.uni-koblenz.de/

4、Stanford Large Network Dataset Collection
http://snap.stanford.edu/data/index.html

再就是說說幾個跟網際網路有關的資料集：
1、Dataset for "Statistics and Social Network of YouTube Videos"
http://netsg.cs.sfu.ca/youtubedata/

3、Page view statistics for Wikimedia projects
http://dammit.lt/wikistats/

4、AOL Search Query Logs - RP
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs

5、livedoor gourmet
http://blog.livedoor.jp/techblog/archives/65836960.html

海量影象資料集：
1、ImageNet
http://www.image-net.org/
包含1400萬的影象。

2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000萬的32x32影象。

3、 MirFlickr1M
http://press.liacs.nl/mirflickr/
Flickr中的100萬的影象集。

4、 CoPhIR
http://cophir.isti.cnr.it/whatis.html
Flickr中的1億600萬的影象

5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
Flickr中的100萬的影象集。

6、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/
包含2億影象

7、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
Flickr中的27萬的影象集。

8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/
包含13萬的影象

9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/
包含100萬的影象，23000視訊

10、TRECVID
http://trecvid.nist.gov/

Stack Overflow Dump Files
7.3G stackoverflow.com-Posts.7z
573.1K stackoverflow.com-Tags.7z
153.0M stackoverflow.com-Users.7z
2.2G stackoverflow.com-Comments.7z

2014/07/07 雅虎釋出超大Flickr資料集 1億的圖片+視訊
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for

============================================

資料探勘資料集下載資源

1、氣候監測資料集 http://cdiac.ornl.gov/ftp/ndp026b

3、UCI收集的機器學習資料集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm

4、statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

5、關於基金的資料探勘的網站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

6、進行文字分類&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

7、時間序列資料的網址
http://www.stat.wisc.edu/~reinsel/bjr-data/

8、apriori演算法的測試資料
http://www.almaden.ibm.com/cs/quest/syndata.html

12、癌症基因：
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

13、金融資料：
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

14、一個很好的資源網址為：http://kdd.ics.uci.edu/，裡面包含的資料資源按應用領域劃分的。

【第三波】來一波另類資料集

100+詭異的資料集，20萬Eclipse Bug、死囚遺言等

Robert Seaton整理了100多個最有趣的資料集，其中包括Jeopardy真題，死囚的最後一句話，20萬個Eclipse Bug，足球比賽相關，柏拉圖式的愛情，太陽系以外的行星，11.3萬個恐怖事件等。
在資料爆發式增長的逼迫下，當下資料分析能力已得到長足的發展，機器學習更成為資料處理中必不可缺少的一環。這裡，為大家分享Robert Seaton在其個人部落格上整理的100+最有趣的資料集，從柏拉圖式的愛情到政治競選再到死刑囚犯，可謂是應有盡有，旨在給大家的模型訓練的過程增加一些樂趣。

在尋找資料集？這裡給你準備了100多個最有趣的，從柏拉圖式的愛情到政治競選再到死刑囚犯，應有盡有。

個人對“資訊時代”這個名詞非常不感冒，就好像隨便來了個人，往過一坐，然後說：“當下的資訊已經非常多了，我們該如何形容？我覺得‘資訊時代’這個詞不錯。”個人認為這是極度不負責的，沒有創意，命名者太懶了；其次，如此多的資料帶來更多的是處理上的無助和絕望，用“drinking from the firehose” 比喻起來或許更貼切一點。因此，與其叫“資訊時代”，我們不妨稱之為“飽和時代”，或者是“氾濫時代”。然而，不管稱之為什麼，毫無疑問的是，我們已經被資料淹沒了。這裡為大家分享100+最有意思的資料集。無他，在提供資料分析材料的同時，給大家增加一點樂趣。

100+ Most Interesting Data Sets

1. 如果你是智力競賽節目Jeopardy的參賽選手，你該如何準備？你可以下載這個資料集—— 215930個Jeopardy真題。把這個資料集放到記憶系統中，你就是下一個贏家。

2. 想知道被判死刑是什麼樣的感受？看看這個資料集—— 德克薩斯州將1984年以來每個死刑犯的最後一句放到了網上。藉助這些資料，我們可以進行臨刑者的情感分析。

3. 談到監獄，還有很多關於囚犯的資訊，如“犯罪史，家庭背景和個人性格，藥物史、酗酒史、治療方案，槍支所有權和使用史、監獄活動，專案，服務”。

4. 想讀他人的郵件麼？即使你想，你也沒有那個技術，更沒有哪個膽量去。來看看安然公司的文集資料庫吧。這個資料庫包括來自 150多個使用者的100萬封郵件，大部分郵件來自Enron公司的管理層，以資料夾的形式呈現。

5. 想了解網際網路使用者都關心什麼？這個問題不好回答，我們可以先回答一個更簡單的問題：Reddit（新聞網站）使用者都關心什麼。有人將 Reddit上250萬個帖子進行了分析，公佈到了GitHub上。通過這些資料，我們可以瞭解使用者對貓的喜愛程度，一個數據是否支援r/circlejerk。

6. 談到貓，還有一個數據集上 10000張有註釋的貓圖片。當我們想訓練機器人消滅除了貓以外的所有生物時，這個資料集會非常有用。

7. 如果你對構建金融演算法有興趣，或者只是對預測美國最大經濟作物的套利機會感興趣，那你應該看看這個資料集，該資料集包含了從2010年9月2日到現在的所有大麻價格資料。

8. 哪些人用了哪些藥物？多長時間用一次？

9. 有關象棋比賽的記錄最早可追溯到10世紀，產生於巴格達的歷史學家和一位學者之間博弈。從那以後，記錄象棋比賽中的每一步成為一種傳統——尤其是對於那些有重大意義的比賽，比如兩個強勁的對手之間的勝負之戰。因此，今天的象棋學生們可以藉助包含這些比賽記錄的豐富資料集進行象棋學習。“Million Base”或許是世界上最大的象棋比賽資料集，聲稱有220萬條比賽記錄，你可以通過此連結下載該資料集。

10. 說起比賽這個主題，少不了足球，我已經找到了關於足球比賽、足球運動員、球隊、得分等資訊的資料集。如果這些還不夠，你還可以利用S occermetrics API的python包獲取更多的資料。我想只要教練們想要戰勝對手，這些資料遲早會發揮作用。通常我們說：極客和賭徒區別，就在於極客們通過構建分析模型獲得勝利。

11. Google已經開放了所有的Google Book字串資料（n-gram）。每個字串實際上是由n個單片語成的短語，開放的資料集中包括了1-gram到5-gram等不同長度的字串資料。該資料集的建立是“基於1500年到2008年之間出版的520萬冊書籍”。我們可以通過這一資料集來判斷哪些短語被過度使用，哪些短語已經過時，哪些短語面臨被淘汰的危險（友情提醒：有些人甚至已經搶先註冊了clichealert.com域名）。

12. 亞馬遜有大量開放的資料集（雖說是免費的，但免費只是針對AWS的使用者），該資料集包括了從超過280萬個網頁上抓取的資料。分析抓取的資料，買下有升值空間的網址後，你可以再賣給那些需要做SEO的人，或者你也可以自己用來建立下一個Google。

13. 少數民族的電腦科學跳級考試成績如何？你可以自己查一下然後告訴我。

14. 有一個百萬歌曲（Million Song）資料集，包含了一百多首不同的歌曲，包括“舞曲”。如果配備一個晚會專用的媒體播放機可能會更好，這些資料還適用於聚類演算法（比如，自動型別檢測），但我不太確定能起到多大的作用。許多人試過基於這些資料構建推薦演算法，包括 Kagglers和 Cornell的一個團隊。一種做法是：按照時間，比如按年分析音樂——70年代、80年代或者90年代（或者找出“模仿-領導“效應，比如一首歌因為風格獨特而流行，還會有很多模仿者）。

15. 說道音樂的資料集，last.fm有大量可用的音樂資料。last.fm從它的36萬用戶那裡收集資料，這些資料可能是以“使用者，藝術家，以及歌曲的播放資訊”這樣的形式呈現，這時候用聚類演算法自動給音樂分類或者構建推薦系統會更好。

16. 我一想起極客，總會聯想到數學和計算機黑客，但是極客遠不止這麼簡單。CescRosselló、Ricardo Alberich和Joe Miro描繪出了一個神奇宇宙的“社交網路圖”，使用 Facebook的社交網路圖，還可以做一個新的“什麼是超級英雄？”測驗。

15. Yelp有免費的資料子集，包括餐館排名和評論資料。通過挖掘Twitter來獲取你需要的資料，可以讓你擁有可以匹敵Yelp的競爭力。

18.如果你對資料（元資料）中的資料感興趣，你或許也會對Jürgen Schwärzler感興趣，Jürgen Schwärzler是Google公共資料團隊中的一名統計學家，他整理出一個排名，記錄下常被搜尋的資料。前5位分別是學校對比、失業、人口、營業稅和工資。

19. 我的讀者中無疑有一些邪惡的天才，當然也存在一些想要拯救世界的英雄。這兩類人可能都會對超級智慧機器人感興趣，但是要建造這樣的一個機器人，你必須教會它事實，然而，手動輸入1千萬條事實是一件痛苦的事情。還好， Freebase為我們減少了工作量，它為我們免費開放的資料集包含了19億條事實。

20. 你或許沒有打算建造一個超級機器人，只要比一般的數學家聰明一點就行。如果是這種情況的話，那你就需要教你的機器人許多數學知識（定義和定理），因此，你可能需要了解一下 Mizar專案，該專案為我們提供了9400條定義和49000條定理。

21. 那我們假設你建造出了這樣的機器“數學家”，它能在證明上為你提供幫助，但那又能怎樣？你還需要一個能和你在更深層次交流的人，一個能對某些抽象的主題進行概括的人。這樣，你就需要給你的機器人“喂”維基百科的資料了，所有維基百科的資料都是免費開放的。

22. 當你對數學和維基百科都厭倦時（事實上，這些是掙不到錢的），你會決定成為一名軟體工程師。這時，你面臨讓一個對程式設計沒有基本概念的機器來教你程式設計的尷尬，在哪能找到相關的資料呢？你可以下載 730萬個StackOverflow問題（這些都是免費的）

機器學習，深度學習，免費資料集彙總

【第一波】

【第二波】

【第三波】來一波另類資料集

機器學習，深度學習，免費資料集彙總

機器學習的 50 個最佳免費資料集

讀懂人工智慧、機器學習、深度學習、大資料，自然語言處理……

38套大資料，雲端計算，架構，資料分析師，Hadoop，Spark，Storm，Kafka，人工智慧，機器學習，深度學習，專案實戰視訊教程

Java，大資料，機器學習，深度學習，學習資源

機器學習，大資料，深度學習競賽網站，學習網站，演算法刷題網站

大數據、人工智能、機器學習、深度學習，這些到底在說什麽？

人工智慧，機器學習，神經網路，深度學習的關係

機器學習 vs 深度學習到底有啥區別，為什麼更多人選擇機器學習

機器學習與深度學習系列連載：第二部分深度學習（十六）迴圈神經網路 4（BiDirectional RNN， Highway network， Grid-LSTM）

機器學習與深度學習系列連載：第二部分深度學習（十二）卷積神經網路 3 經典的模型（LeNet-5，AlexNet ，VGGNet，GoogLeNet，ResNet）

未明學院：機器學習vs深度學習，如何規劃學習與就業路徑

深度學習，周志華，機器學習，西瓜書，TensorFlow，Google，吳軍，數學之美，李航，統計學習方法，吳恩達，深度學習筆記，pdf下載

人工智慧，深度學習，計算機視覺，自然語言處理，機器學習，百度網盤視訊教程

人工智能，神經網絡算法，機器學習，深度學習三者關系

人工智慧，神經網路演算法，機器學習，深度學習三者關係

人工智慧，機器學習和深度學習之間，主要有什麼差異？

人工智慧，機器學習與深度學習，到底是什麼關係

人工智慧，機器學習，深度學習的關係；智慧演算法

淺談數學、數學建模與人工智慧（機器學習，深度學習）之間的關係？

機器學習，深度學習，免費資料集彙總

【第一波】

【第二波】

【第三波】來一波另類資料集

相關推薦