1. 程式人生 > 其它 >[轉貼]太有用了,留存!Kaggle資料下載

[轉貼]太有用了,留存!Kaggle資料下載

注:轉帖自知乎

各領域公開資料集下載

趙熙 謙謙君子,卑以自牧

整理了一些網上的免費資料集,分類下載地址如下,希望能節約大家找資料的時間。歡迎資料達人加入QQ群 674283733 交流。

金融

美國勞工部統計局官方釋出資料

房地產公司 Zillow 公開美國房地產歷史資料

滬深股票除權除息、配股增發全量資料,截止 2016.12.31

上證主機板日線資料,截止 2017.05.05,原始價、前復權價、後復權價,1260支股票

深證主機板日線資料,截止 2017.05.05,原始價、前復權價、後復權價,466支股票

深證中小板日線資料,截止 2017.05.05,原始價、前復權價、後復權價,852支股票

深證創業板日線資料,截止 2017.05.05,原始價、前復權價、後復權價,636支股票

上證A股日線資料,1999.12.09至 2016.06.08,前復權,1095支股票

深證A股日線資料,1999.12.09至 2016.06.08,前復權,1766支股票

深證創業板日線資料,1999.12.09 至2016.06.08,前復權,510支股票

MT4平臺外匯交易歷史資料

Forex平臺外匯交易歷史資料

幾組外匯交易逐筆(Ticks)資料

美國股票新聞資料【Kaggle資料】

美國醫療保險市場資料【Kaggle資料】

美國金融客戶投訴資料【Kaggle資料】

Lending Club 網貸違約資料【Kaggle資料】

信用卡欺詐資料【Kaggle資料】

美國股票資料XBRL【Kaggle資料】

紐約股票交易所資料【Kaggle資料】

貸款違約預測競賽資料【Kaggle競賽】

Zillow 網站房地產價值預測競賽資料【Kaggle競賽】

Sberbank 俄羅斯房地產價值預測競賽資料【Kaggle競賽】

Homesite 保險定價競賽資料【Kaggle競賽】

Winton 股票回報率預測競賽資料【Kaggle競賽】

房屋租賃資訊查詢次數預測競賽【Kaggle競賽】

交通

2013年紐約出租車行駛資料

2013年芝加哥計程車行駛資料

Udacity自動駕駛資料

紐約Uber 接客資料 【Kaggle資料

英國車禍資料(2005-2015)【Kaagle資料】

芝加哥汽車超速資料【Kaggle資料】

KITTI 自動駕駛任務資料【資料太大僅有部分】

Cityscapes 場景標註資料【資料太大僅有部分】

德國交通標誌識別資料

交通訊號識別資料

芝加哥Divvy共享自行車騎行資料(2013年至今)

美國查塔努加市共享單車騎行資料

Capital 共享單車騎行資料

Bay Area 共享單車騎行資料

Nice Ride 共享單車騎行資料

花旗銀行共享單車騎行資料

運用衛星資料跟蹤亞馬遜熱帶雨林中的人類軌跡競賽【Kaggle競賽】

紐約出租車管理委員會官方的乘車資料(2009年-2016年)

商業

Airbnb 開放的民宿資訊和住客評論資料

Amazon 食品評論資料【Kaggle資料】

Amazon 無鎖手機評論資料【Kaggle資料】

美國視訊遊戲銷售和評價資料【Kaggle資料】

Kaggle 各項競賽情況資料【Kaggle資料】

Bosch 生產流水線降低次品率競賽資料【Kaggle競賽】

預測公寓租金競賽資料

廣告點選預測競賽資料

餐廳營業收入預測建模競賽

銀行產品推薦競賽資料

網站使用者推薦點選預測競賽資料

線上廣告實時競價資料【Kaggle資料】

購物車商品關聯競賽資料【Kaggle競賽】

Airbnb 新使用者的民宿預定預測競賽資料【Kaggle競賽】

Yelp 點評網站公開資料

KKBOX 音樂使用者續訂預測競賽【Kaggle競賽】

Grupo Bimbo 麵包店庫存和銷量預測競賽【Kaggle競賽】

推薦系統

Netflix 電影評價資料

MovieLens 20m 電影推薦資料集

WikiLens

JesterHetRec2011

Book CrossingLarge MovieReview

Retailrocket 商品評論和推薦資料

1萬本暢銷書的6百萬讀者評分資料

醫療健康

人識別物體時大腦核磁共振影像資料

人理解單詞時大腦核磁共振影像資料

心臟病心房影象及標註資料

細胞病理識別

FIRE 視網膜眼底病變影象資料

食物營養成分資料 【Kaggle資料】

EGG 大腦電波形狀資料【Kaggle資料】

某人基因序列資料【Kaggle資料】

癌症CT影像資料【Kaggle資料】

軟組織肉瘤CT影象資料【Kaggle資料】

美國國家健康與服務部-國家癌症研究所發起的癌症資料倉庫介紹【僅有介紹】

Data ScienceBowl 2017 肺癌識別競賽資料【資料太大僅有介紹】

TCGA-LUAD 肺癌CT影象資料

RIDER Lung CT 肺癌CT影像

TCGA-COAD癌症CT影像資料

TCIA-TCGA-OV 癌症CT影像資料

TCIA RIDER NEURO癌症MRI影像資料

QIN Beast 乳腺癌MRI影像資料

SPIE-AAPM-NCIPROSTATEx競賽第1部分資料(MRI核磁共振影像識別前列腺癌程度資料)SPIE-AAPM-NCIPROSTATEx競賽第2部分資料(MRI核磁共振影像識別前列腺癌程度資料)RIDER Breast 乳腺癌 MRI影像資料

Lung Phantom 癌症 CT 影像資料集

TCIA-QIN-LUNG 肺癌 CT 影像資料集

醫療CT影像、年齡和對比標註資料【Kaggle競賽】

TCGA-ESCA癌症 CT 影像資料集

TCGA-CESC癌症 CT 影像資料集

TCGA-KICH癌症 CT 影像資料集

從 CT 影像中對肺部影像進行分割並識別肺部容積【Kaggle競賽】

通過Egg腦電影象預測患者癲癇病發作競賽【Kaggle競賽】

遺傳突變分類競賽【Kaggle競賽】

MIMIC-III 臨床監護資料

影象資料

綜合影象

Visual Genome 影象資料

Visual7w 影象資料

COCO 影象資料

SUFR 影象資料

ILSVRC 2014 訓練資料(ImageNet的一部分)

PASCAL VisualObject Classes 2012 影象資料

PASCAL VisualObject Classes 2011 影象資料

PASCAL VisualObject Classes 2010 影象資料

80 Million TinyImage 影象資料【資料太大僅有介紹】

ImageNet【資料太大僅有介紹】

Google OpenImages【資料太大僅有介紹】

Imagenet 小尺寸影象資料集

Yahoo Flickr 照片和視訊資料集

場景影象

Street Scences 影象資料

Places2 場景影象資料

UCF GoogleStreet View 影象資料

SUN 場景影象資料

The Celebrity inPlaces 影象資料

Web標籤影象

HARRISON 社交標籤影象

NUS-WIDE 標籤影象

Visual Synset 標籤影象

Animals WithAttributes 標籤影象

人形輪廓影象

MPII Human Shape人體輪廓資料

Biwi Kinect HeadPose 頭部姿勢資料

上半身人像資料INRIA Person 資料集

視覺文字識別影象

Street ViewHouse Number 門牌號影象資料

MNIST 手寫數字識別影象資料

3D MNIST 數字識別影象資料【Kaggle資料】

MediaTeamDocument 文件影印和內容資料

Text Recognition文字影象資料

NIST HandprintedForms and Characters 手寫英文字元資料

NIST StructuredForms Reference Set of Binary Images (SFRS) 影象資料

NIST StructuredForms Reference Set of Binary Images (SFRS) II 影象資料

特定一類事物影象

著名的貓影象標註資料

Caltech-UCSDBirds200 鳥類影象資料

Stanford Car 汽車影象資料

Cars 汽車影象資料

MIT Cars 汽車影象資料

Stanford Cars 汽車影象資料

Food-101 美食影象資料

17_Category_Flower影象資料

102_Category_Flower影象資料

UCI Folio Leaf 影象資料

Labeled Fishesin the Wild 魚類影象

美國Yelp 點評網站酒店照片

CMU-OxfordSculpture 塑像雕像影象

Oxford-IIIT Pet 寵物影象資料

NatureConservancy Fisheries Monitoring 過度捕撈監控影象資料【Kaggle資料】

Stanford DogsDataset 資料集

辛普森一家卡通形象影象【Kaggle競賽】

Fashion-MNIST 時尚服飾影象資料

材質紋理影象

CURET 紋理材質影象資料

ETHZSynthesizability 紋理影象資料

KTH-TIPS 紋理材質影象資料

DescribableTextures 紋理影象資料

物體分類影象

COIL-20 影象資料

COIL-100 影象資料

Caltech-101 影象資料

Caltech-256 影象資料

CIFAR-10 影象資料

CIFAR-100 影象資料

STL-10 影象資料

LabelMe_12_50k影象資料

NORB v1.0 影象資料

NEC Toy Animal 影象資料

iCubWorld 影象分類資料

Multi-class 影象分類資料

GRAZ 影象分類資料

人臉影象

IMDB-WIKI 500k+ 人臉影象、年齡性別資料

Labeled Faces inthe Wild 人臉資料

Extended YaleFace Database B 人臉資料

Bao Face 人臉資料

DC-IGN 論文人臉資料

300 Face in Wild影象資料

BioID Face 人臉資料

CMU Frontal FaceImages

FDDB_FaceDetection Data Set and Benchmark

NIST MugshotIdentification DatabaseFaces in theWild 人臉資料

CelebA 名人人臉影象資料

VGG Face 人臉影象資料

Caltech 10k WebFaces 人臉影象資料

姿勢動作影象

HMDB_a largehuman motion database

Human Actionsand Scenes Dataset

Buffy StickmenV3 人體輪廓識別影象資料

Human PoseEvaluator 人體輪廓識別影象資料

Buffy pose 人類姿勢影象資料

VGG Human PoseEstimation 姿勢影象標註資料

指紋識別

NIST FIGS 指紋識別資料

NISTSupplemental Fingerprint Card Data (SFCD) 指紋識別資料

NIST Plain andRolled Images from Paired Fingerprint Cards in 500 pixels per inch 指紋識別資料

NIST Plain andRolled Images from Paired Fingerprint Cards 1000 pixels per inch 指紋識別資料

其它影象資料

Visual QuestionAnswering V1.0 影象資料

Visual QuestionAnswering V2.0 影象資料

視訊資料

綜合視訊

DAVIS_DenselyAnnotated Video Segmentation 資料

YouTube-8M 視訊資料集【資料太大僅有介紹】

YouTube 網站視訊備份【資料太大僅有介紹】

人類動作視訊

MicrosoftResearch Action 人類動作視訊資料

UCF50 Action Recognition動作識別資料

UCF101 ActionRecognition 動作識別資料

UT-Interaction 人類動作視訊資料

UCF iPhone 運動中感測器資料

UCF YouTube 人類動作視訊資料

UCF Sport 人類動作視訊資料

UCF-ARG 人類動作視訊資料

HMDB 人類動作視訊

HOLLYWOOD2 人類行為動作視訊資料

Recognition ofhuman actions 動作視訊資料

Motion Capture 動作捕捉視訊資料

SBU KinectInteraction 肢體動作視訊資料

目標檢測視訊

UCSD Pedestrian 行人視訊資料

CaltechPedestrian 行人視訊資料

ETH 行人視訊資料

INRIA 行人視訊資料

TudBrussels 行人視訊資料

Daimler 行人視訊資料

ALOV++ 物體追蹤視訊資料

密集人群視訊

Crowd Counting 高密度人群影象

CrowdSegmentation 高密度人群視訊資料

Tracking in HighDensity Crowds 高密度人群視訊

其它視訊

Fire Detection 視訊資料

音訊資料

綜合音訊

Google Audioset 音訊資料【資料太大僅有介紹】

語音識別

Sinhala TTS 英語語音識別

TIMIT 美式英語語音識別資料

LibriSpeech ASRcorpus 語音資料

Room ImpulseResponse and Noise 語音資料

ALFFA 非洲語音資料

THUYG-20 維吾爾語語音資料

AMI Corpus 語音識別

自然語言處理

RCV1英語新聞資料

20news 英語新聞資料

First QuoraRelease Question Pairs 問答資料

JRC Names各國語言專有實體名稱

Multi-DomainSentiment V2.0

LETOR 資訊檢索資料

Yale YoutubeVedio Text斯坦福問答資料【Kaggle資料】

美國假新聞資料【Kaggle資料】

NIPS會議文章資訊資料(1987-2016)【Kaggle資料】

2016年美國總統選舉辯論資料【Kaggle資料】

WikiLinks 跨文件指代語料

EuropeanParliament Proceedings Parallel Corpus 機器翻譯資料

WikiText 英語語義詞庫資料

WMT 2011 NewsCrawl 機器翻譯資料

StanfordSentiment Treebank 詞彙資料

英語語言模型單詞預測競賽資料

WikiAnswers 問題複述資料集

中文經典典籍語料

幾個網上採集的自然語言語料中文姓名語料

81萬網際網路詞彙詞庫

Question-Answer 問答資料集

Wikilinks 跨文件語料擴充套件版

幾個聊天機器人語料

TED 平行語料庫

社會資料

希拉里郵件門洩露郵件

波士頓Airbnb公開資料【Kaggle資料】

世界各國經濟發展資料【Kaagle資料】

世界大學排名芝加哥犯罪資料(2001-2017)【Kaagle資料】

世界範圍顯著地震資料(1965-2016)【Kaagle資料】

美國嬰兒姓名資料【Kaagle資料】

全世界鯊魚襲擊人類資料【Kaagle資料】

1908年以來空難資料【Kaagle資料】

2016年美國總統大選資料【Kaagle資料】

2013年美國社群統計資料【Kaagle資料】

2014年美國社群統計資料【Kaagle資料】

2015年美國社群統計資料【Kaagle資料】

歐洲足球運動員賽事表現資料【Kaagle資料】

美國環境汙染資料【Kaagle資料】

美國H1-B簽證申請數Kaggle資料】

IMDB五千部電影資料【Kaggle資料】

2015年航班延誤和取消資料【Kaggle資料】

凶殺案報告資料【Kaggle資料】

人力資源分析資料【Kaggle資料】

美國費城犯罪資料【Kaggle資料】

安然公司郵件資料【Kaggle資料】

歷史棒球資料【Kaggle資料】

美聯航Twitter 使用者評論資料【Kaggle資料】

波士頓Airbnb 公開資料【Kaggle資料】

芝加哥市2001年以來犯罪記錄資料

美國查塔努加市犯罪記錄資料(2003年至今)

芝加哥街邊咖啡廳季節中的人行道咖啡廳許可資料

芝加哥餐館衛生檢查結果資料

幾個人類運動位置路線GPS資料集(騎行、跑步等)

希拉里 vs 特朗普競選期間 Twitter 資料【Kaggle競賽】

美國連環凶案資料(1980-2014)【Kaggle競賽】

廣告實時競價資料【Kaggle競賽】

美國費城犯罪記錄資料【Kaggle競賽】

Reddit 使用者互動記錄【Kaggle競賽】

泰坦尼克災難資料【Kaggle競賽】

Wikipedia 頁面點選流量資料【Kaggle競賽】

紐約市計程車乘車時間預測競賽資料【Kaggle競賽】

新聞和網頁內容推薦及點選競賽【Kaggle競賽】

科比布萊恩特投籃命中率資料【Kaggle競賽】

幾個城市氣象交換站日間天氣資料

Reddit 2.5 百萬社交新聞資料

Google的機群訪問資料

MIT Saliency 眼睛瀏覽軌跡資料集

根據安檢人體掃描成像預測威脅競賽【Kaggle競賽】

處理後的科研和競賽資料

NIPS 2003 屬性選擇競賽資料

臺灣大學林智仁教授處理為 LibSVM 格式的分類建模資料

Large-scale 分類建模資料

幾個UCI中 large-scale 分類建模資料

Social ComputingData Repository 社交網路資料

貓和狗分類識別競賽資料【Kaggle競賽】

DSTL 衛星影象識別競賽資料【Kaggle競賽】

根據手機應用軟體使用行為預測使用者性別年齡競賽資料【Kaggle競賽】

人臉關鍵點標定競賽資料【Kaggle競賽】

Kaggle競賽資料合輯(部分競賽資料)

UCI多分類組合出的二分類資料集

UCI經典二分類資料集

場景影象分類競賽資料【ChallengerAI 競賽】

人體骨骼關鍵點檢測競賽資料【ChallengerAI 競賽】

影象中文表述競賽資料【ChallengerAI 競賽】

英文同聲傳譯競賽資料【ChallengerAI 競賽】

中英文字翻譯競賽資料【ChallengerAI 競賽】

虛擬股票趨勢預測【ChallengerAI 競賽資料】

機器視覺推理實驗資料

BigMM 2015 競賽驗證資料集

KONECT 網路圖結構和網路科學資料合輯

釋出於 2017-02-08