[轉載] 機器學習資料集統計系列一
連結:https://www.zhihu.com/question/63383992/answer/222718972
來源:知乎
1. 綜合資料集
UCI資料集
UCI資料集中包括了眾多用於監督式和非監督式學習的資料集,數量大概400多個,其中很多資料集在其他眾多資料工具中被反覆引用,例如Iris、Wine、Adult、Car
Evaluation、Forest Fires等。
每個資料集中都有關於資料例項數、資料產生領域、值域分佈、特徵數量、資料產生時間、模型方向、是否有缺失值等詳細資料介紹,可用於分類、迴歸、聚類、時間序列、推薦系統等。
推薦度:★★★,推薦應用方向:監督式、非監督式機器學習,資料探勘
介紹和下載地址:http://archive.ics.uci.edu/ml/
UCI KDD資料集
UCI KDD(知識發現)是資料探勘和視覺化的研究專案,專注於大型資料收集中的實體事件關係。它是涉及幾所大學的更廣泛的KDD專案的一部分,UCI始於2002年10月。
推薦度:★★,推薦應用方向:監督式、非監督式機器學習
下載地址:http://kdd.ics.uci.edu/databases/
雅虎Webscope
雅虎Webscope用於為學者和其他科學家在非商業用途中使用。所有資料集已經過審查,以符合雅虎的資料保護標準,包括嚴格的隱私控制。資料集中包含了多個主題資料集:廣告和市場營銷、自然語言資料、科學資料、圖形和社會化資料、影象資料等7個主題。需要注意的是:資料集只適用於同意資料共享協議的教師和大學研究人員的在學術上使用。
推薦度:★★★,推薦應用方向:監督式、非監督式機器學習、深度學習、自然語言理解等
介紹和下載地址:https://webscope.sandbox.yahoo.com/
AWS 公開資料集
亞馬遜提供的資料集涵蓋氣候、紅外影象、衛星遙感、人類微生物、日本人口普查、公共電子郵件檔案、歌曲、材料安全、谷歌圖書語料庫、石油等非常多的主題資料,並且這些資料可直接整合到AWS進行資料探勘和學習。
推薦度:★★★,推薦應用方向:監督式、非監督式機器學習、深度學習、神經網路、自然語言理解等
介紹和下載地址:https://aws.amazon.com/cn/datasets/
斯坦福網路資料集
斯坦福網路分析平臺(SNAP)是一種用於分析和操縱大型網路的通用高效能系統,其本身使用的網路相關資料也對外開放,包括設計、社群、通訊、網路圖、網際網路、道路、維基百度網路、線上社群和評論等不同主題,可用於分析大型社會和資訊網路方面的研究成果。
推薦度:★★★,推薦應用方向:神經網路
介紹和下載地址:http://snap.stanford.edu/data/index.html
KONECT網路資料集
KONECT資料集是一個大型網路資料集的專案,在科布倫茨-蘭道大學網路科學與技術研究所的網路科學和相關領域進行研究。KONECT包含數百種各種型別的網路資料集,包括有向、無向、二分、加權、未加權、簽名和評級的網路。 KONECT的網路覆蓋了許多不同領域,如社交網路,超連結網路、作者網路、物理網路、互動網路和通訊網路等。
推薦度:★★★,推薦應用方向:神經網路
介紹和下載地址:http://konect.uni-koblenz.de/
2. 影象和視訊資料集
MNIST資料集
機器學習領域內用於手寫字識別的資料集,資料集中包含6個萬訓練集、10000個示例測試集。,每個樣本影象的寬高為28*28。這些資料集的大小已經歸一化,並且形成固定大小,因此預處理工作基本已經完成。在機器學習中,主流的機器學習工具(包括sklearn)很多都使用該資料集作為入門級別的介紹和應用。
推薦度:★★★,推薦應用方向:機器學習入門
介紹和下載地址:http://yann.lecun.com/exdb/mnist/
CIFAR 10 & CIFAR 100資料集
CIFAR-10資料集由10個類別的60000 32x32彩色影象組成,每個類別有6000張影象。 有50000個訓練影象和10000個測試影象。資料集的類別涵蓋航空、車輛、鳥類、貓類、狗類、狐狸類、馬類、船類、卡車等日常生活類別,可用於計算機視覺相關方向。
推薦度:★★★,推薦應用方向:影象處理和影象識別
介紹和下載地址:http://www.cs.toronto.edu/~kriz/cifar.html/
谷歌Open Images Dataset影象資料集
其中包括大約9百萬標註圖片、橫跨6000個類別標籤,平均每個影象擁有8個標籤。該資料集的標籤涵蓋比擁有1000個類別標籤的ImageNet具體更多的現實實體,可用於計算機視覺方向的訓練。
推薦度:★★★,推薦應用方向:影象處理和影象識別
介紹地址:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html
下載地址:https://github.com/openimages/dataset
ImageNet資料集
ImageNet資料集是目前深度學習影象領域應用得非常多的一個領域,該資料集有1000多個影象,涵蓋影象分類、定位、檢測等應用方向。Imagenet資料集文件詳細,有專門的團隊維護,在計算機視覺領域研究論文中應用非常廣,幾乎成為了目前深度學習影象領域演算法效能檢驗的“標準”資料集。很多大型科技公司都會參加ImageNet影象識別大賽,包括百度、谷歌、微軟等。
推薦度:★★★,推薦應用方向:影象識別
介紹和下載地址:http://www.image-net.org/
Tiny Images Dataset
該資料集由79302017張影象組成,每張影象為32x32彩色影象。 該資料以二進位制檔案的形式儲存,大約有400Gb影象。
推薦度:★★,推薦應用方向:影象識別
介紹和下載地址:http://horatio.cs.nyu.edu/mit/tiny/data/index.html
CoPhIR
CoPhIR是從Flickr中採集的大概1.06億個影象資料集,影象中不僅包含了圖表本身的資料,例如位置、標題、GPS、標籤、評論等,還可提取出顏色模式、顏色佈局、邊緣直方圖、均勻紋理等資料。
推薦度:★★,推薦應用方向:影象識別
介紹和下載地址:http://cophir.isti.cnr.it/whatis.html
LSUN資料集
國外的PASCAL
VOC和ImageNet ILSVRC比賽使用的資料集,資料領域包括臥室、冰箱、教師、廚房、起居室、酒店等多個主題。
推薦度:★★,推薦應用方向:影象識別
介紹和下載地址:http://lsun.cs.princeton.edu
Labeled Faces in the Wild資料集
該資料集是用於研究無約束面部識別問題的面部照片資料庫。資料集包含從網路收集的13000多張影象。每張臉都貼上了所畫的人的名字,圖片中的1680人在資料集中有兩個或更多不同的照片。
推薦度:★★,推薦應用方向:人臉識別
介紹和下載地址:http://vis-www.cs.umass.edu/lfw/
SVHN
SVHN資料來源於 Google 街景檢視中房屋資訊,它是一個真實世界的影象資料集,用於開發機器學習和物件識別演算法,對資料預處理和格式化的要求最低。它跟MNIST相似,但是包含更多數量級的標籤資料(超過60萬個數字影象),並且來源更加多樣,用來識別自然場景影象中的數字。
推薦度:★★,推薦應用方向:機器學習、影象識別
介紹和下載地址:http://ufldl.stanford.edu/housenumbers/
COCO
COCO(Common Objects in Context)是一個新的影象識別、分割和影象語義資料集,由微軟贊助,影象中不僅有標註類別、位置資訊,還有對影象的語義文字描述。COCO資料集的開源使得近兩、三年來影象分割語義理解取得了巨大的進展,也幾乎成為了影象語義理解演算法效能評價的“標準”資料集。
推薦度:★★★,推薦應用方向:影象識別、影象語義理解
介紹和下載地址:http://mscoco.org/
谷歌YouTube-8M
YouTube-8M一個大型的多樣性標註的視訊資料集,目前擁有700萬的YouTube視訊連結、45萬小時視訊時長、3.2億視訊/音訊特徵、4716個分類、平均每個視訊擁有3個標籤。
推薦度:★★★,推薦應用方向:視訊理解、表示學習(representation learning)、嘈雜資料建模、轉移學習(transfer learning)和視訊域適配方法(domain
adaptation approaches)
資料集介紹和下載地址:https://research.google.com/youtube8m/。
Udacity開源的車輛行使視訊資料集
資料集大概有223G,主要是有關車輛駕駛的資料,其中除了車輛拍攝的影象以外,還包括車輛本身的屬性和引數資訊,例如經緯度、制動器、油門、轉向度、轉速等。這些資料可用於車輛自動駕駛方向的模型訓練和學習。
推薦度:★★★,推薦應用方向:自動駕駛
介紹和下載地址:https://github.com/udacity/self-driving-car
牛津RobotCar視訊資料集
RobotCar資料集包含時間範圍超過1年,測試超過100次的相同路線的駕駛資料。資料集採集了天氣、交通、行人、建築和道路施工等不同組合的資料。
推薦度:★★★,推薦應用方向:自動駕駛
介紹和下載地址:http://robotcar-dataset.robots.ox.ac.uk/
Udacity開源的自然場景短視訊資料集
資料集大概為9T,由3500萬個視訊剪輯組成,每個視訊為短視訊(32幀),大約1秒左右的時長。
推薦度:★★★,推薦應用方向:目標跟蹤、視訊目標識別
介紹和下載地址:http://web.mit.edu/vondrick/tinyvideo/#data
3. 自然語言資料集
MS MARCO
MS MARCO是一種新的大規模閱讀理解和問答資料集。 在MS MARCO中,所有問題都是從真正的匿名使用者查詢中抽取的。使用先進的Bing搜尋引擎版本,從實際的Web文件中提取資料集中的答案的上下文段落。
推薦度:★★★,推薦應用方向:自然語言理解、智慧問答
介紹和下載地址:http://www.msmarco.org/
Question Pairs
第一個來源於
Quora 的包含重複/語義相似性標籤的資料集。資料集由超過40萬行的潛在問題的問答組成。每行資料包含問題ID、問題全文以及指示該行是否真正包含重複對的二進位制值。
推薦度:★★★,推薦應用方向:自然語言理解、智慧問答
介紹和下載地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
SQuAD
斯坦福問答回答資料集(SQuAD)是一個新的閱讀理解資料集,從維基百科中提煉出的問題組成,每個問題的答案都是相應段落的一段文字。在500多篇文章中有超過10萬個問答對。
推薦度:★★★,推薦應用方向:文字挖掘、自然語言理解、智慧問答
介紹和下載地址:https://rajpurkar.github.io/SQuAD-explorer/
Maluuba NewsQA
Maluuba的NewsQA資料集的目的是幫助研究團隊建立能夠回答需要人為理解和推理技能的問題的演算法。它包含了從DeepMind問答資料集中的CNN文章中抽取了120K個常見問題。
推薦度:★★,推薦應用方向:文字挖掘、自然語言理解、智慧問答
介紹地址:https://datasets.maluuba.com/NewsQA
下載地址:https://github.com/Maluuba/newsqa
1 Billion Word Language Model Benchmark
這是一個大型、通用的語言建模資料集,該專案的目的是提供語言建模實驗的標準培訓和測試,常用於如 word2vec 或 Glove 的分散式詞語表徵。
推薦度:★★,推薦應用方向:文字挖掘、自然語言理解
介紹和下載地址:http://www.statmt.org/lm-benchmark/
Maluuba Datasets
這是一個用於自然語言理解研究的複雜的人工資料集,主要包括NewsQA和Frames。它主要用於機器閱讀理解、面向物件的對話系統、對話介面和加強學習。
推薦度:★★,推薦應用方向:自然語言理解、智慧問答
介紹和下載地址:https://datasets.maluuba.com/
Common Crawl
Common Crawl包含了超過7年的網路爬蟲資料集,擁有PB級規模,常用於學習詞嵌入。
推薦度:★★,推薦應用方向:文字挖掘、自然語言理解
介紹和下載地址:http://commoncrawl.org/the-data/
20 Newsgroups
該資料集包含大約20000個新聞組文件,在20個不同的新聞組中平均分配,是一個文字分類的經典資料集,它是機器學習技術的文字應用中的實驗的流行資料集,如文字分類和文字聚類。
推薦度:★★,推薦應用方向:文字挖掘
介紹和下載地址:http://qwone.com/~jason/20Newsgroups/
4. 音訊資料集
大型音樂分析資料集FMA
該資料集是免費音樂存檔(FMA)的轉儲,這是一個高質量的合法音訊下載的互動庫。這些資料集中包含歌曲名稱、音樂型別、曲目計數等資訊,共計689種歌曲和68種類型。該資料集可用於音樂分析。
推薦度:★★★,推薦應用方向:音樂分析挖掘
介紹和下載地址:https://lts2.epfl.ch/datasets/fma/
音訊資料集AudioSet
谷歌釋出的大規模一品資料集,AudioSet 包括 632 個音訊事件類的擴充套件類目和從YouTube視訊繪製的 2084320 個人類標記的10秒聲音剪輯的集合。類目被指定為事件類別的分層圖,覆蓋廣泛的人類和動物聲音,樂器和風格以及常見的日常環境聲音。
推薦度:★★★,推薦應用方向:音樂、人聲、車輛、樂器、室內等自然和人物聲音分析挖掘
介紹和下載地址:https://github.com/audioset/ontology
2000 HUB5 English Evaluation Transcripts
該資料集由NIST(國家標準與技術研究院)2000年發起的HUB5評估中使用的40個英語電話對話的成績單組成,其僅包含英語的語音資料集,百度最近的論文《深度語音:擴充套件端對端語音識別》使用的是這個資料集。
推薦度:★★★,推薦應用方向:音樂、人聲、車輛、樂器、室內等自然和人物聲音識別
介紹和下載地址:https://catalog.ldc.upenn.edu/LDC2002T43
LibriSpeech
該資料集為包含文字和語音的有聲讀物資料集,由Vassil Panayotov編寫的大約1000小時的16kHz讀取英語演講的語料庫。資料來源於LibriVox專案的閱讀有聲讀物,並經過細緻的細分和一致。
推薦度:★★,推薦應用方向:自然語音理解和分析挖掘
介紹和下載地址:http://www.openslr.org/12/
VoxForge
該資料集是帶口音的語音清潔資料集,對測試模型在不同重音或語調下的魯棒性非常有用。
推薦度:★★,推薦應用方向:語音識別
介紹和下載地址:http://www.voxforge.org/
TIMIT
這是一份英文語音識別資料集,包含630個揚聲器的寬頻錄音,八個主要方言的美式英語,每個閱讀十個語音豐富的句子。TIMIT語料庫包括時間對齊的正字法,語音和單詞轉錄以及每個話語的16位,16kHz語音波形檔案。
推薦度:★★,推薦應用方向:語音識別
介紹和下載地址:https://catalog.ldc.upenn.edu/LDC93S1
CHIME
這份語音一份包含環境噪音的用於語音識別挑戰賽(CHiME Speech Separation and Recognition Challenge)的資料集。該資料集包含了訓練集、開發機、測試集三部分,每份裡面包括了多個揚聲器在不同噪音環境下的資料。
推薦度:★★★,推薦應用方向:語音識別
介紹和下載地址:http://spandh.dcs.shef.ac.uk/chime_challenge/index.html
TED-LIUM
TED Talk 的音訊資料集,包含1495個錄音和音訊會議、159848條發音詞典和部分WMT12公開的語料庫。
推薦度:★★★,推薦應用方向:語音識別
介紹和下載地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
除了上述公開資料集外,不要忘記大多數機器學習和資料探勘工具本身也附帶有datasets資源,甚至像sklearn還提供了生成模擬資料的功能(實際上專業的資料工具都有很多),請見sklearn中的datasets方法。