機器學習,深度學習,免費資料集彙總
【第一波】
目前系統整理了一些網上開放的免費科研資料集,以下是分類列表以及下載地址,供高校和科研機構免費下載和使用。
金融
- 美國勞工部統計局官方釋出資料
- 上證A股日線資料,1999.12.09 至 2016.06.08,前復權,1095支股票
- 深證A股日線資料,1999.12.09 至 2016.06.08,前復權,1766支股票
- 深證創業板日線資料,1999.12.09 至 2016.06.08,前復權,510支股票
- MT4平臺外匯交易歷史資料
- Forex平臺外匯交易歷史資料
- 幾組外匯交易逐筆(Ticks)資料
- 美國股票新聞資料【Kaggle資料】
- 美國醫療保險市場資料【
- 美國金融客戶投訴資料【Kaggle資料】
- Lending Club 網貸違約資料【Kaggle資料】
- 信用卡欺詐資料【Kaggle 資料】
- 某個金融產品實時交易資料【Kaggle資料】
- 美國股票資料XBRL【Kaggle資料】
- 紐約股票交易所資料【Kaggle資料】
交通
- 2013年紐約出租車行駛資料
- Udacity自動駕駛資料
- 紐約 Uber 接客資料 【Kaggle資料】
- 英國車禍資料(2005-2015)【Kaagle資料】
- 芝加哥汽車超速資料【Kaggle資料】
商業
- Amazon 食品評論資料
- Amazon 無鎖手機評論資料【Kaggle資料】
- 美國視訊遊戲銷售和評價資料【Kaggle資料】
- Kaggle 各項競賽情況資料【Kaggle資料】
推薦系統
醫療健康
- 人識別物體時大腦核磁共振影像資料
- 人理解單詞時大腦核磁共振影像資料
- 心臟病心房影象及標註資料
- 細胞病理識別
- 食物營養成分資料 【Kaggle資料】
- EGG 大腦電波形狀資料【Kaggle資料】
影象資料
綜合影象
- Visual Genome 影象資料
- Visual7w 影象資料
- COCO 影象資料
- SUFR 影象資料
- ILSVRC 2014 訓練資料(ImageNet的一部分)
- PASCAL Visual Object Classes 2012 影象資料
- PASCAL Visual Object Classes 2011 影象資料
- PASCAL Visual Object Classes 2010 影象資料
- 80 Million Tiny Image 影象資料【資料太大僅有介紹】
- ImageNet【資料太大僅有介紹】
場景影象
- Street Scences 影象資料
- Places2 場景影象資料
- UCF Google Street View 影象資料
- SUN 場景影象資料
- The Celebrity in Places 影象資料
Web標籤影象
人形輪廓影象
視覺文字識別影象
- Street View House Number 門牌號影象資料
- MNIST 手寫數字識別影象資料
- 3D MNIST 數字識別影象資料【Kaggle資料】
- MediaTeam Document 文件影印和內容資料
特定一類事物影象
- 著名的貓影象標註資料
- Caltech-UCSD Birds200 鳥類影象資料
- Stanford Car 汽車影象資料
- Cars 汽車影象資料
- MIT Cars 汽車影象資料
- Stanford Cars 汽車影象資料
- Food-101 美食影象資料
- 17_Category_Flower 影象資料
- 102_Category_Flower 影象資料
- UCI Folio Leaf 影象資料
- Labeled Fishes in the Wild 魚類影象
- 美國 Yelp 點評網站酒店照片
- CMU-Oxford Sculpture 塑像雕像影象
- Oxford-IIIT Pet 寵物影象資料
材質紋理影象
物體分類影象
- COIL-20 影象資料
- COIL-100 影象資料
- Caltech-101 影象資料
- Caltech-256 影象資料
- CIFAR-10 影象資料
- CIFAR-100 影象資料
- STL-10 影象資料
- LabelMe_12_50k影象資料
- NORB v1.0 影象資料
- NEC Toy Animal 影象資料
- iCubWorld 影象分類資料
- Multi-class 影象分類資料
- GRAZ 影象分類資料
人臉影象
- IMDB-WIKI 500k+ 人臉影象、年齡性別資料
- Labeled Faces in the Wild 人臉資料
- Extended Yale Face Database B 人臉資料
- Bao Face 人臉資料
- DC-IGN 論文人臉資料
- 300 Face in Wild 影象資料
- BioID Face 人臉資料
- CMU Frontal Face Images
- FDDB_Face Detection Data Set and Benchmark
- NIST Mugshot Identification Database
- Faces in the Wild 人臉資料
- CelebA 名人人臉影象資料
- VGG Face 人臉影象資料
姿勢動作影象
指紋識別
其它影象資料
視訊資料
綜合視訊
人類動作視訊
- Microsoft Research Action 人類動作視訊資料
- UCF50 Action Recognition 動作識別資料
- UCF101 Action Recognition 動作識別資料
- UT-Interaction 人類動作視訊資料
- UCF iPhone 運動中感測器資料
- UCF YouTube 人類動作視訊資料
- UCF Sport 人類動作視訊資料
- UCF-ARG 人類動作視訊資料
- HMDB 人類動作視訊
- HOLLYWOOD2 人類行為動作視訊資料
- Recognition of human actions 動作視訊資料
- Motion Capture 動作捕捉視訊資料
- SBU Kinect Interaction 肢體動作視訊資料
行人檢測視訊
- UCSD Pedestrian 行人視訊資料
- Caltech Pedestrian 行人視訊資料
- ETH 行人視訊資料
- INRIA 行人視訊資料
- TudBrussels 行人視訊資料
- Daimler 行人視訊資料
密集人群視訊
其它視訊
音訊資料
綜合音訊
Google Audioset 音訊資料【資料太大僅有介紹】
語音識別
- Sinhala TTS 英語語音識別
- TIMIT 美式英語語音識別資料
- LibriSpeech ASR corpus 語音資料
- Room Impulse Response and Noise 語音資料
- ALFFA 非洲語音資料
自然語言處理
- RCV1英語新聞資料
- 20news 英語新聞資料
- First Quora Release Question Pairs
- JRC Names各國語言專有實體名稱
- Multi-Domain Sentiment V2.0
- LETOR 資訊檢索資料
- Yale Youtube Vedio Text
- 斯坦福問答資料【Kaggle資料】
- 美國假新聞資料【Kaggle資料】
- NIPS會議文章資訊資料(1987-2016)【Kaggle資料】
- 2016年美國總統選舉辯論資料【Kaggle資料】
社會資料
- 希拉里郵件門洩露郵件
- 波士頓 Airbnb 公開資料【Kaggle資料】
- 世界各國經濟發展資料【Kaagle資料】
- 世界大學排名芝加哥犯罪資料(2001-2017)【Kaagle資料】
- 世界範圍顯著地震資料(1965-2016)【Kaagle資料】
- 美國嬰兒姓名資料【Kaagle資料】
- 全世界鯊魚襲擊人類資料【Kaagle資料】
- 1908年以來空難資料【Kaagle資料】
- 2016年美國總統大選資料【Kaagle資料】
- 2013年美國社群統計資料【Kaagle資料】
- 歐洲足球運動員賽事表現資料【Kaagle資料】
- 美國環境汙染資料【Kaagle資料】
- 美國H1-B簽證申請數據【Kaggle資料】
- IMDB五千部電影資料【Kaggle資料】
- 2015年航班延誤和取消資料【Kaggle資料】
- 凶殺案報告資料【Kaggle資料】
- 人力資源分析資料【Kaggle資料】
- 某人基因序列資料【Kaggle資料】
- 美國費城犯罪資料【Kaggle資料】
- 安然公司郵件資料【Kaggle資料】
- 歷史棒球資料【Kaggle資料】
- 美聯航 Twitter 使用者評論資料【Kaggle資料】
- 波士頓 Airbnb 公開資料【Kaggle資料】
處理後的科研和競賽資料
- NIPS 2003 屬性選擇競賽資料http://dataju.cn/Dataju/web/datasetInstanceDetail/370
- 臺灣大學林智仁教授處理為 LibSVM 格式的分類建模資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/296
- Large-scale 分類建模資料http://dataju.cn/Dataju/web/datasetInstanceDetail/297
- 幾個UCI 中 large-scale 分類建模資料http://dataju.cn/Dataju/web/datasetInstanceDetail/298
- Social Computing http://dataju.cn/Dataju/web/datasetInstanceDetail/299
- Data Repository 社交網路資料http://dataju.cn/Dataju/web/datasetInstanceDetail/300
- 貓和狗分類識別競賽資料【Kaggle競賽】http://dataju.cn/Dataju/web/datasetInstanceDetail/318
- DSTL 衛星影象識別競賽資料【Kaggle競賽】http://dataju.cn/Dataju/web/datasetInstanceDetail/328
- 根據手機應用軟體使用行為預測使用者性別年齡競賽資料【Kaggle競賽】 http://dataju.cn/Dataju/web/datasetInstanceDetail/332
- 人臉關鍵點標定競賽資料【Kaggle競賽】 http://dataju.cn/Dataju/web/datasetInstanceDetail/331
- Kaggle競賽資料合輯(部分競賽資料)http://dataju.cn/Dataju/web/datasetInstanceDetail/368
【第二波】
ImageNet挑戰賽中超越人類的計算機視覺系統
微軟亞洲研究院視覺計算組基於深度卷積神經網路(CNN)的計算機視覺系統,在ImageNet 1000挑戰中首次超越了人類進行物件識別分類的能力。他們的系統在ImageNet 2012分類資料集中的錯誤率已降低至4.94%。
這個資料集包含約120萬張訓練影象、5萬張驗證影象和10萬張測試影象,分為1000個不同的類別。
該研究團隊由微軟亞洲研究院研究員孫劍、何愷明以及來自西安交通大學和中國科學技術大學的實習生張祥雨和任少卿組成。
百度網盤裡有Imagenet資料下載(有140G以上):連結:http://pan.baidu.com/s/1pJT8kLd 密碼:12kx
======================================
公開的海量資料集 Public Research-Quality Datasets
海量資料(又稱大資料)已經成為各大網際網路企業面臨的最大問題,如何處理海量資料,提供更好的解決方案,是目前相當熱門的一個話題。類似MapReduce、 Hadoop等架構的普遍推廣,大家都在構建自己的大資料處理,大資料分析平臺。
相應之下,目前對於海量資料處理人才的需求也在不斷增多,此類人才可謂炙手可熱!越來越多的開發者把目光轉移到海量資料的處理上。但是不是所有人都能真正接觸到,或者有機會去處理海量資料的,所以就需要一些公開的海量資料集來研究。
在Quora上有人就問到,如何獲取海量資料集。此問題得到了很多人的關注。具體可以看看回答,資料集的種類多種多樣,有化學分析,基因遺傳等等,從中你肯定能得到自己想要個數據集。
Where can I get large datasets open to the public?
首先說說幾個收集資料集的網站:
1、Public Data Sets on Amazon Web Services (AWS)
http://aws.amazon.com/datasets
Amazon從2008年開始就為開發者提供幾十TB的開發資料。
2、Yahoo! Webscope
http://webscope.sandbox.yahoo.com/index.php
3、Konect is a collection of network datasets
http://konect.uni-koblenz.de/
4、Stanford Large Network Dataset Collection
http://snap.stanford.edu/data/index.html
再就是說說幾個跟網際網路有關的資料集:
1、Dataset for "Statistics and Social Network of YouTube Videos"
http://netsg.cs.sfu.ca/youtubedata/
2、1998 World Cup Web Site Access Logs
http://ita.ee.lbl.gov/html/contrib/WorldCup.html
這個是1998年世界盃期間的資料集。從1998/04/26 到 1998/07/26 的92天中,發生了 1,352,804,107次請求。
3、Page view statistics for Wikimedia projects
http://dammit.lt/wikistats/
4、AOL Search Query Logs - RP
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs
5、livedoor gourmet
http://blog.livedoor.jp/techblog/archives/65836960.html
海量影象資料集:
1、ImageNet
http://www.image-net.org/
包含1400萬的影象。
2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000萬的32x32影象。
3、 MirFlickr1M
http://press.liacs.nl/mirflickr/
Flickr中的100萬的影象集。
4、 CoPhIR
http://cophir.isti.cnr.it/whatis.html
Flickr中的1億600萬的影象
5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
Flickr中的100萬的影象集。
6、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/
包含2億影象
7、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
Flickr中的27萬的影象集。
8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/
包含13萬的影象
9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/
包含100萬的影象,23000視訊
10、TRECVID
http://trecvid.nist.gov/
Stack Overflow Dump Files
7.3G stackoverflow.com-Posts.7z
573.1K stackoverflow.com-Tags.7z
153.0M stackoverflow.com-Users.7z
2.2G stackoverflow.com-Comments.7z
截止目前好像還沒有國內的企業或者組織開放自己的資料集。希望也能有企業開發自己的資料集給研究人員使用,從而推動海量資料處理在國內的發展!
2014/07/07 雅虎釋出超大Flickr資料集 1億的圖片+視訊
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for
============================================
資料探勘資料集下載資源
1、氣候監測資料集 http://cdiac.ornl.gov/ftp/ndp026b
2、幾個實用的測試資料集下載的網站
http://www.fs.fed.us/fire/fuelman/
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的網址可以找到reuters資料集:http://www.research.att.com/~lewis/reuters21578.html
該網址有各種資料集:http://kdd.ics.uci.edu/summary.data.type.html
進行文字分類,還有一個數據集是可以用的,即rainbow的資料集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
3、UCI收集的機器學習資料集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm
4、statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/
5、關於基金的資料探勘的網站
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
6、進行文字分類&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
7、時間序列資料的網址
http://www.stat.wisc.edu/~reinsel/bjr-data/
8、apriori演算法的測試資料
http://www.almaden.ibm.com/cs/quest/syndata.html
9、資料生成器的連結
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
10、關聯:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
11、WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar
12、癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
13、金融資料:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
14、一個很好的資源網址為:http://kdd.ics.uci.edu/,裡面包含的資料資源按應用領域劃分的。
============================================================================================
1、Public Data Sets on Amazon Web Services (AWS)
http://aws.amazon.com/datasets
Amazon從2008年開始就為開發者提供幾十TB的開發資料。
2、Yahoo! Webscope
http://webscope.sandbox.yahoo.com/index.php
3、Konect is a collection of network datasets
http://konect.uni-koblenz.de/
4、Stanford Large Network Dataset Collection
http://snap.stanford.edu/data/index.html
再就是說說幾個跟網際網路有關的資料集:
1、Dataset for "Statistics and Social Network of YouTube Videos"
http://netsg.cs.sfu.ca/youtubedata/
2、1998 World Cup Web Site Access Logs
http://ita.ee.lbl.gov/html/contrib/WorldCup.html
這個是1998年世界盃期間的資料集。從1998/04/26 到 1998/07/26 的92天中,發生了 1,352,804,107次請求。
3、Page view statistics for Wikimedia projects
http://dammit.lt/wikistats/
4、AOL Search Query Logs - RP
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs
5、livedoor gourmet
http://blog.livedoor.jp/techblog/archives/65836960.html
海量影象資料集:
1、ImageNet
http://www.image-net.org/
包含1400萬的影象。
2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000萬的32x32影象。
3、 MirFlickr1M
http://press.liacs.nl/mirflickr/
Flickr中的100萬的影象集。
4、 CoPhIR
http://cophir.isti.cnr.it/whatis.html
Flickr中的1億600萬的影象
5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
Flickr中的100萬的影象集。
6、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/
包含2億影象
7、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
Flickr中的27萬的影象集。
8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/
包含13萬的影象
9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/
包含100萬的影象,23000視訊
10、TRECVID
http://trecvid.nist.gov/
Stack Overflow Dump Files
7.3G stackoverflow.com-Posts.7z
573.1K stackoverflow.com-Tags.7z
153.0M stackoverflow.com-Users.7z
2.2G stackoverflow.com-Comments.7z
截止目前好像還沒有國內的企業或者組織開放自己的資料集。希望也能有企業開發自己的資料集給研究人員使用,從而推動海量資料處理在國內的發展!
2014/07/07 雅虎釋出超大Flickr資料集 1億的圖片+視訊
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for
============================================
資料探勘資料集下載資源
1、氣候監測資料集 http://cdiac.ornl.gov/ftp/ndp026b
2、幾個實用的測試資料集下載的網站
http://www.fs.fed.us/fire/fuelman/
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的網址可以找到reuters資料集:http://www.research.att.com/~lewis/reuters21578.html
該網址有各種資料集:http://kdd.ics.uci.edu/summary.data.type.html
進行文字分類,還有一個數據集是可以用的,即rainbow的資料集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
3、UCI收集的機器學習資料集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm
4、statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/
5、關於基金的資料探勘的網站
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
6、進行文字分類&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
7、時間序列資料的網址
http://www.stat.wisc.edu/~reinsel/bjr-data/
8、apriori演算法的測試資料
http://www.almaden.ibm.com/cs/quest/syndata.html
9、資料生成器的連結
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
10、關聯:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
11、WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar
12、癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
13、金融資料:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
14、一個很好的資源網址為:http://kdd.ics.uci.edu/,裡面包含的資料資源按應用領域劃分的。
【第三波】來一波另類資料集
100+詭異的資料集,20萬Eclipse Bug、死囚遺言等
Robert Seaton整理了100多個最有趣的資料集,其中包括Jeopardy真題,死囚的最後一句話,20萬個Eclipse Bug,足球比賽相關,柏拉圖式的愛情,太陽系以外的行星,11.3萬個恐怖事件等。
在資料爆發式增長的逼迫下,當下資料分析能力已得到長足的發展,機器學習更成為資料處理中必不可缺少的一環。這裡,為大家分享Robert Seaton在其個人部落格上整理的100+最有趣的資料集,從柏拉圖式的愛情到政治競選再到死刑囚犯,可謂是應有盡有,旨在給大家的模型訓練的過程增加一些樂趣。
在尋找資料集?這裡給你準備了100多個最有趣的,從柏拉圖式的愛情到政治競選再到死刑囚犯,應有盡有。
個人對“資訊時代”這個名詞非常不感冒,就好像隨便來了個人,往過一坐,然後說:“當下的資訊已經非常多了,我們該如何形容?我覺得‘資訊時代’這個詞不錯。”個人認為這是極度不負責的,沒有創意,命名者太懶了;其次,如此多的資料帶來更多的是處理上的無助和絕望,用“drinking from the firehose” 比喻起來或許更貼切一點。因此,與其叫“資訊時代”,我們不妨稱之為“飽和時代”,或者是“氾濫時代”。然而,不管稱之為什麼,毫無疑問的是,我們已經被資料淹沒了。這裡為大家分享100+最有意思的資料集。無他,在提供資料分析材料的同時,給大家增加一點樂趣。
100+ Most Interesting Data Sets
1. 如果你是智力競賽節目Jeopardy的參賽選手,你該如何準備?你可以下載這個資料集—— 215930個Jeopardy真題。把這個資料集放到記憶系統中,你就是下一個贏家。
2. 想知道被判死刑是什麼樣的感受?看看這個資料集—— 德克薩斯州將1984年以來每個死刑犯的最後一句放到了網上。藉助這些資料,我們可以進行臨刑者的情感分析。
3. 談到監獄,還有很多關於囚犯的資訊,如“犯罪史,家庭背景和個人性格,藥物史、酗酒史、治療方案,槍支所有權和使用史、監獄活動,專案,服務”。
4. 想讀他人的郵件麼?即使你想,你也沒有那個技術,更沒有哪個膽量去。來看看安然公司的文集資料庫吧。這個資料庫包括來自 150多個使用者的100萬封郵件,大部分郵件來自Enron公司的管理層,以資料夾的形式呈現。
5. 想了解網際網路使用者都關心什麼?這個問題不好回答,我們可以先回答一個更簡單的問題:Reddit(新聞網站)使用者都關心什麼。有人將 Reddit上250萬個帖子進行了分析,公佈到了GitHub上。通過這些資料,我們可以瞭解使用者對貓的喜愛程度,一個數據是否支援r/circlejerk。
6. 談到貓,還有一個數據集上 10000張有註釋的貓圖片。當我們想訓練機器人消滅除了貓以外的所有生物時,這個資料集會非常有用。
7. 如果你對構建金融演算法有興趣,或者只是對預測美國最大經濟作物的套利機會感興趣,那你應該看看 這個資料集,該資料集包含了從2010年9月2日到現在的所有大麻價格資料。
8. 哪些人用了哪些藥物?多長時間用一次?
9. 有關象棋比賽的記錄最早可追溯到10世紀,產生於巴格達的歷史學家和一位學者之間博弈。從那以後,記錄象棋比賽中的每一步成為一種傳統——尤其是對於那些有重大意義的比賽,比如兩個強勁的對手之間的勝負之戰。因此,今天的象棋學生們可以藉助包含這些比賽記錄的豐富資料集進行象棋學習。“Million Base”或許是世界上最大的象棋比賽資料集,聲稱有220萬條比賽記錄,你可以通過 此連結下載該資料集。
10. 說起比賽這個主題,少不了足球,我已經找到了 關於足球比賽、足球運動員、球隊、得分等資訊的資料集。如果這些還不夠,你還可以利用S occermetrics API的python包獲取更多的資料。我想只要教練們想要戰勝對手,這些資料遲早會發揮作用。通常我們說:極客和賭徒區別,就在於極客們通過構建分析模型獲得勝利。
11. Google已經開放了所有的Google Book字串資料(n-gram)。每個字串實際上是由n個單片語成的短語,開放的資料集中包括了1-gram到5-gram等不同長度的字串資料。該資料集的建立是“基於1500年到2008年之間出版的520萬冊書籍”。我們可以通過這一資料集來判斷哪些短語被過度使用,哪些短語已經過時,哪些短語面臨被淘汰的危險(友情提醒:有些人甚至已經搶先註冊了clichealert.com域名)。
12. 亞馬遜有大量 開放的資料集(雖說是免費的,但免費只是針對AWS的使用者),該資料集包括了從超過280萬個網頁上抓取的資料。分析抓取的資料,買下有升值空間的網址後,你可以再賣給那些需要做SEO的人,或者你也可以自己用來建立下一個Google。
13. 少數民族的電腦科學跳級考試成績如何? 你可以自己查一下然後告訴我。
14. 有一個百萬歌曲(Million Song)資料集,包含了一百多首不同的歌曲,包括“舞曲”。如果配備一個晚會專用的媒體播放機可能會更好,這些資料還適用於聚類演算法(比如,自動型別檢測),但我不太確定能起到多大的作用。許多人試過基於這些資料構建推薦演算法,包括 Kagglers和 Cornell的一個團隊。一種做法是:按照時間,比如按年分析音樂——70年代、80年代或者90年代(或者找出“模仿-領導“效應,比如一首歌因為風格獨特而流行,還會有很多模仿者)。
15. 說道音樂的資料集,last.fm有大量可用的音樂資料。last.fm從它的36萬用戶那裡收集資料,這些資料可能是以“使用者,藝術家,以及歌曲的播放資訊”這樣的形式呈現,這時候用聚類演算法自動給音樂分類或者構建推薦系統會更好。
16. 我一想起極客,總會聯想到數學和計算機黑客,但是極客遠不止這麼簡單。CescRosselló、Ricardo Alberich和Joe Miro描繪出了一個神奇宇宙的“社交網路圖”,使用 Facebook的社交網路圖,還可以做一個新的“什麼是超級英雄?”測驗。
15. Yelp有免費的資料子集,包括餐館排名和評論資料。通過挖掘Twitter來獲取你需要的資料,可以讓你擁有可以匹敵Yelp的競爭力。
18.如果你對資料(元資料)中的資料感興趣,你或許也會對Jürgen Schwärzler感興趣,Jürgen Schwärzler是Google公共資料團隊中的一名統計學家,他整理出一個排名,記錄下 常被搜尋的資料。前5位分別是學校對比、失業、人口、營業稅和工資。
19. 我的讀者中無疑有一些邪惡的天才,當然也存在一些想要拯救世界的英雄。這兩類人可能都會對超級智慧機器人感興趣,但是要建造這樣的一個機器人,你必須教會它事實,然而,手動輸入1千萬條事實是一件痛苦的事情。還好, Freebase為我們減少了工作量,它為我們免費開放的資料集包含了19億條事實。
20. 你或許沒有打算建造一個超級機器人,只要比一般的數學家聰明一點就行。如果是這種情況的話,那你就需要教你的機器人許多數學知識(定義和定理),因此,你可能需要了解一下 Mizar專案,該專案為我們提供了9400條定義和49000條定理。
21. 那我們假設你建造出了這樣的機器“數學家”,它能在證明上為你提供幫助,但那又能怎樣?你還需要一個能和你在更深層次交流的人,一個能對某些抽象的主題進行概括的人。這樣,你就需要給你的機器人“喂”維基百科的資料了,所有 維基百科的資料都是免費開放的。
22. 當你對數學和維基百科都厭倦時(事實上,這些是掙不到錢的),你會決定成為一名軟體工程師。這時,你面臨讓一個對程式設計沒有基本概念的機器來教你程式設計的尷尬,在哪能找到相關的資料呢?你可以下載 730萬個StackOverflow問題(這些都是免費的)