機器學習常用資料集

阿新 • • 發佈：2021-11-21

人臉檢測演算法

其中，包含了英偉達去年12月開源的人臉資料集FFHQ（Flickr-Faces-HQ），內含7萬張1024×1024解析度的高清人臉大圖。

騰訊開源的Tencent ML-Images專案，其多標籤影象資料集ML-Images包含了1800萬影象和1.1萬多種常見物體類別，比谷歌開源的Open Images資料集還豐富不少。

nlp：

斯坦福大學NLP組的SQuAD 2.0你得了解一下，和一代相比，2.0版在增加對抗性問題的同時，也新增了一項“判斷一個問題能否根據提供的閱讀文字作答”的任務。

CoQA資料集也是斯坦福開發的對話資料集，包含來自8k組對話的127k個帶有答案的問題。這些對話涉及 7 個不同領域，每組對話的平均長度為15輪，每一輪對話都由問題和回答組成。

此外，DeepMind的Q&A問答資料集、微軟的MS MARCO機器閱讀理解資料集、三名中國學生推出的HotpotQA新型問答資料集等，都可以在這份清單中一鍵直達。

audio：

谷歌的大規模音訊資料集AudioSet，包含632類的音訊類別以及2084320 條人工標記的每段10秒的聲音剪輯片段，覆蓋大範圍人類與動物、樂器與音樂流派、日常環境聲音。

谷歌NSynth資料集，收錄了從1000種樂器中採集的大量註釋的音符，包括不同的音高和速率，比同類的公共資料集大了一個數量級。

初創公司Mozilla公佈的Common Voice資料集，內含2萬名英語志願者500小時、40萬份錄音，語料庫也在不斷擴充中。

還有LibriSpeech ASR corpus語音資料集，包括1000小時的英文發音和對應文字，資料來自LibriVox專案的有聲讀物，是一個大型的語料資料庫。

資料集網站

https://www.datasetlist.com/

other：

MegaFace 是由華盛頓大學(University of Washington)電腦科學與工程實驗室於2015年針對名為 ”MegaFace Challenge” 的挑戰而釋出並維護的公開人臉資料集,是

DAVIS(Densely-Annotated VIdeo Segmentation)資料集是視訊目標分割(VOS)任務中最重要的資料集

之一。從2017年開始,DAVIS官方團隊每年都會舉辦“DAVIS Challeng.

近日崑山杜克大學與AISHELL共同推出了一個基於遠場文字相關的說話人認證資料庫﹣HI-MIA釋出在語音資料開源平臺openslr上(http://www.openslr.org/85/)。

機器學習常用資料集

人臉檢測演算法其中，包含了英偉達去年12月開源的人臉資料集FFHQ（Flickr-Faces-HQ），內含7萬張1024×1024解析度的高清人臉大圖。

分散式機器學習常用資料集

今天開始跑分散式機器學習論文實驗了，這裡介紹一下論文的常用資料集和實驗手段（因為我的研究領域是分散式機器學習，所以下面列出的資料集可能偏向這方面，做其他方向的童鞋參考下就好）。

nyuv240類資料集_機器學習：資料劃分與交叉驗證

技術標籤：nyuv240類資料集函式1：train_test_split from sklearn.model_selection import train_test_split # 資料劃分所需的函式

人工智慧機器學習常用演算法總結及各個常用演算法精確率對比

本文講解了機器學習常用演算法總結和各個常用分類演算法精確率對比。收集了現在比較熱門的TensorFlow、Sklearn，借鑑了Github和一些國內外的文章。

Python學習--常用資料型別

Python常用資料型別一、Number(數字) Python Number 資料型別用於儲存數值。資料型別是不允許改變的,這就意味著如果改變 Number 資料型別的值，將重新分配記憶體空間

機器學習系列-資料分析-平行座標圖

機器學習系列-資料分析-平行座標圖目錄機器學習系列-資料分析-平行座標圖平行座標圖簡介平行座標圖的繪製iris鳶尾花資料集iris平行座標圖影象繪製結語

機器學習、資料科學、人工智慧、深度學習和統計學之間的區別！

來源：機器之心本文約3000字，建議閱讀5分鐘在本文中，資料科學家與分析師 Vincent Granville 明晰了資料科學家所具有的不同角色，以及資料科學與機器學習、深度學習、人工智慧、統計學、物聯網、運籌學

機器學習：資料預處理之獨熱編碼（One-Hot）

前言在機器學習演算法中，我們經常會遇到分類特徵，例如：人的性別有男女，祖國有中國，美國，法國等。這些特徵值並不是連續的，而是離散的，無序的。通常我們需要對其進行特徵數字化。

sigmoid函式_機器學習第33集：什麼是sign函式？什麼是sigmoid函式？( 含有筆記、程式碼、註釋 )...

技術標籤：sigmoid函式什麼是sign函式？什麼是sigmoid函式？ ① sign(x)將大於0的分為1，小於0的分為-1。

機器學習&資料探勘筆記_15（關於凸優化的一些簡單概念）

　　沒有系統學過數學優化，但是機器學習中又常用到這些工具和技巧，機器學習中最常見的優化當屬凸優化了，這些可以參考Ng的教學資料：http://cs229.stanford.edu/section/cs229-cvxopt.pdf，從中我們可以大致瞭解到

機器學習常用損失函式

機器學習三要素——模型、學習準則、優化演算法。其中學習準則可以簡單理解為損失函式，優化演算法就是用來優化損失函式的。根據任務不同，損失函式可以分為迴歸損失函式和分類損失函式，每種類別的損失函式有很多種

機器學習和資料分析專案_工程化流程

工程化開發對比機器學習系統傳統的軟體工程專案有著非常大的差異傳統的軟體工程專案

機器學習常用工具

本文了解下一些機器學習的常用工具。 Anconda Anaconda 是一個整合各類Python工具的整合平臺（例如：conda、Python等軟體包，numpy，pandas（資料分析），scipy等科學計算包），它本身不是一個開發工具，它只是將很

機器學習與資料探勘——分類與預測模型

Override the entrypoint of an image Introduced in GitLab and GitLab Runner 9.4. Read more about the extended configuration options.

Mercari資料集——機器學習&深度學習視角

作者|Yogeeshwari S 編譯|VK 來源|Towards Data Science 我很高興與大家分享我的機器學習和深度學習經驗，同時我們將在一個Kaggle競賽得到解決方案。學習過程的分析也是非常直觀，具有娛樂性和挑戰性。希望這個部落格

機器學習之 KNN近鄰演算法（二）鳶尾花資料集訓練

一、鳶尾花資料集 from sklearn.datasets import load_iris，通過datas= load_iris()獲得鳶尾花資料集用於測試

在機器學習和深度學習中建立屬於自己的資料集

技術標籤：機器學習深度學習python機器學習深度學習 def CreateDataSet(file_path): """ demo :

【機器學習實戰】-- Titanic 資料集（3）-- 邏輯迴歸

1. 寫在前面: 本篇屬於實戰部分，更注重於演算法在實際專案中的應用。如需對邏輯迴歸演算法本身有詳細的瞭解，可參考以下連結，在本人學習的過程中，起到了很大的幫助：

機器學習演算法-樸素貝葉斯（二）：模擬離散資料集--貝葉斯分類（程式碼附詳細註釋）

技術標籤：樸素貝葉斯機器學習 step 1：庫函式匯入 import random import numpy as np # 使用基於類目特徵的樸素貝葉斯

【機器學習實戰】-- Titanic 資料集（4）-- 支援向量機

1. 寫在前面: 本篇屬於實戰部分，更注重於演算法在實際專案中的應用。如需對感知機演算法本身有進一步的瞭解，可參考以下連結，在本人學習的過程中，起到了很大的幫助：

機器學習常用資料集

相關推薦