20 Newsgroups資料集介紹

阿新 • • 發佈：2019-01-02

20newsgroups資料集是用於文字分類、文字挖據和資訊檢索研究的國際標準資料集之一。資料集收集了大約20,000左右的新聞組文件，均勻分為20個不同主題的新聞組集合。一些新聞組的主題特別相似(e.g. comp.sys.ibm.pc.hardware/ comp.sys.mac.hardware)，還有一些卻完全不相關 (e.g misc.forsale /soc.religion.christian)。

comp.graphics comp.os.ms-windows.misc comp.sys.ibm.pc.hardware comp.sys.mac.hardware comp.windows.x	rec.autos rec.motorcycles rec.sport.baseball rec.sport.hockey	sci.crypt sci.electronics sci.med sci.space
misc.forsale	talk.politics.misc talk.politics.guns talk.politics.mideast	talk.religion.misc alt.atheism soc.religion.christian

20newsgroups資料集有三個版本。第一個版本19997是原始的並沒有修改過的版本。第二個版本bydate是按時間順序分為訓練(60%)和測試(40%)兩部分資料集，不包含重複文件和新聞組名（新聞組，路徑，隸屬於，日期）。第三個版本18828不包含重複文件，只有來源和主題。

在sklearn中，該模型有兩種裝載方式，第一種是sklearn.datasets.fetch_20newsgroups，返回一個可以被文字特徵提取器（如sklearn.feature_extraction.text.CountVectorizer）自定義引數提取特徵的原始文字序列；第二種是sklearn.datasets.fetch_20newsgroups_vectorized，返回一個已提取特徵的文字序列，即不需要使用特徵提取器。

20 Newsgroups資料集介紹

20newsgroups資料集是用於文字分類、文字挖據和資訊檢索研究的國際標準資料集之一。資料集收集了大約20,000左右的新聞組文件，均勻分為20個不同主題的新聞組集合。一些新聞組的主題特別相似(e.g. comp.sys.ibm.pc.hardware/ comp.

ICDAR 2017 資料集介紹

ICDAR即國際文件分析和識別大會，根據wiki的介紹： International Conference on Document Analysis and Recognition (ICDAR) is an international academic conference

深度學習的一些資料集介紹

資料集分為三類：影象處理相關資料集，自然語言處理相關資料集和語音處理相關資料集。參考：here 以下主要是影象處理相關資料集。 1、mnist：詳情 MNIST資料來自美國國家標準與技術研究所，National Institute of Standards and Technology（

【資料集介紹】The Idiap Research Institute REPLAY-Mobile Database

【時間】2018.11.14 【資料集介紹】The Idiap Research Institute REPLAY-Mobile Database 概述本文是對資料集REPLAY-Mobile Database中的readme.md檔案的中英對照翻譯，是對這個資料庫的內容與使用方法的介

視訊分類資料集介紹

視訊分類資料集在視訊分類專案中，有很多經典的公開資料集，目前主要的資料集如列表所示：重點介紹三個中等規模的資料集。 1. UCF101 動作識別資料集，從youtube收集而得，共包含101類動作。其中每類動作由25個人做動作，每人做4-

《TensorFlow：實戰Google深度學習框架》——6.1 影象識別中經典資料集介紹

1、CIFAR資料集 CIFAR是一個影響力很大的影象分類資料集，CIFAR資料集中的圖片為32*32的彩色圖片，由Alex Krizhevsky教授、Vinod Nair博士和Geoffrey Hinton教授整理的。 CIFAR是影象詞典專案（Visual Dictionar

Cityscapes資料集介紹

下載連結是百度雲下載：https://pan.baidu.com/s/1w3W_dQBUiHcwkLOtbSJ1Tg 提取碼：1bln 該資料集的其他講解可以參考https://github.com/mcordts/cityscapesScript

影象分類和目標檢測常用資料集介紹

The Caltech-UCSD birds-200-2011 dataset（加利福尼亞理工學院鳥類資料集）：分類數量：200 圖片數量：11,788 每個影象的註釋：15個部分位置，312個二進位制屬性，1邊界框 Labeled faces in the wild： L

Udacity Self-Driving資料集介紹

前言之前，博主為了得到更好的車載視訊目標檢測效果（偏工程實際，非刷榜），使用SSD框架訓練過KITTI資料集，幾次訓練下來，結果不太理想。自己分析，原因較多，其中很重要的一條就是KITTI資料集不夠大（標註圖片僅7000多張），而

人臉識別常用資料集介紹

人臉識別常用資料集大全（12/20更新）人臉識別常用資料集大全（12/20更新）原文首發地址：人臉識別常用資料集

Pascal VOC & COCO資料集介紹

Pascal VOC資料集介紹 Annotations ImageSets JPEGImages SegmentationClass SegmentationObject 1. JPEGImages 主要提供的

PASCAL VOC 2012資料集介紹

資料集下載在百度雲盤：連結：https://pan.baidu.com/s/1-kYEZtOo99VJGHrKlOK5dQ 提取碼：jgx7 雲盤裡面有4個資料夾：VOC2012_aug, VOC2012_orig, VOC2012_test分別表示的是增強資料集（聯合官

深度學習常用資料集介紹

各領域公開資料集下載 1.Mnist 手寫字型資料集官方資料集下載 MNIST資料集簡介轉載戳這裡 MNIST（Mixed National Institute of Standards and Technology database）是一個計算機視覺資料集，它包

MS COCO資料集介紹

本文直接從實用型角度介紹下coco資料集。以coco2014為例，下載資源以後，得到以下目錄： annotations中存放的是一大堆json檔案：（注，帶person和face的是我自己製作的json檔案，截圖時懶得刪除，可以忽略，想了解如何製作的，請看我

IRIS資料集介紹

本篇的主要內容：使用Pandas對IRIS匯入的一些基本操作 IRIS資料集介紹 IRIS資料集也稱作鳶尾花資料集，整個資料集共有150條資料，分為三類，每類50條資料，每一條資料都有四個屬性：花萼長度，花萼寬度，花瓣長度，花瓣寬度，標籤資料共有三種，分別是Set

[深度學習][CIFRA資料處理] CIFRA-10 與 CIFRA-100 資料集介紹

作為主流的分類資料集，這一篇主要講 CIFRA-10 與 CIFRA-100 資料集下載與Python版本的處理資料集下載地址：http://www.cs.toronto.edu/~kriz/cifar.html 資料介紹 CIFAR-10和CIFAR-100是兩

sklearn中digits手寫字型資料集介紹

1. 匯入from sklearn import datasets digits = datasets.load_digits()2. 屬性檢視digits: bunch型別print digits.keys() ['images', 'data', 'target_nam

FDDB人臉檢測測評資料集介紹

原文：A Benchmark for Face Detection in Unconstrained Settings 1、簡介 FDDB是全世界最具權威的人臉檢測評測平臺之一，包含284

影象識別及處理相關資料集介紹

Corel5k 這是Corel5K影象集，共包含科雷爾（Corel）公司收集整理的5000幅圖片，故名：Corel5K，可以用於科學影象實驗：分類、檢索等。Corel5k資料集是影象實驗的事實標準資料集。請勿用於商業用途。私底下學習交流使用。Corel影象庫涵蓋多個主題，由若干個CD組

Visual Genome資料集介紹

Visual Genome資料集 Visual Genome資料集，是由斯坦福大學人工智慧實驗室主任李菲菲與幾位同事合作開發的。一、作者的初衷是什麼？為什麼要設計出這樣一個數據集？ 1．作者在視覺領域研究了多年，一直致力於尋求最好的演算法，來達到更好的效果。