sklearn中的資料集

阿新 • • 發佈：2020-08-06

具體看原文：點選這裡

datasets資料集

sklearn的資料集庫datasets提供很多不同的資料集，主要包含以下幾大類：

玩具資料集
真實世界中的資料集
樣本生成器
樣本圖片
svmlight或libsvm格式的資料
從http://openml.org下載的資料
從外部載入的資料
用的比較多的就是1和3，這裡進行主要介紹，其他的會進行簡單介紹，但是不建議使用。

玩具資料集

scikit-learn 內建有一些小型標準資料集，不需要從某個外部網站下載任何檔案，用datasets.load_xx()載入。

(一) 波士頓房價

統計了波士頓506處房屋的13種不同特徵（包含城鎮犯罪率、一氧化氮濃度、住宅平均房間數、到中心區域的加權距離以及自住房平均房價等）以及房屋的價格，適用於迴歸任務。

from sklearn import datasets  # 匯入庫

boston = datasets.load_boston()  # 匯入波士頓房價資料
print(boston.keys())  # 檢視鍵(屬性)     ['data','target','feature_names','DESCR', 'filename'] 
print(boston.data.shape,boston.target.shape)  # 檢視資料的形狀 (506, 13) (506,)
print(boston.feature_names)  # 檢視有哪些特徵 這裡共13種
print(boston.DESCR)  # 
 described 描述這個資料集的資訊 
print(boston.filename)  # 檔案路徑

View Code

(二) 鳶尾花

這個資料集包含了150個鳶尾花樣本，對應3種鳶尾花，各50個樣本，以及它們各自對應的4種關於花外形的資料，適用於分類任務。

from sklearn import datasets  # 匯入庫

iris = datasets.load_iris()  # 匯入鳶尾花資料
print(iris.data.shape,iris.target.shape)  # (150, 4) (150,)
print(iris.feature_names)  # 
 [花萼長，花萼寬，花瓣長，花瓣寬]

View Code

還可以在sklearn\datasets_base.py檔案中檢視資訊：3類，每類50個，共150個樣本，維度（特徵）為4，特徵的數值是真實的，並且都是正數。

(三) 手寫數字

共有1797個樣本，每個樣本有64的元素，對應到一個8x8畫素點組成的矩陣，每一個值是其灰度值， target值是0-9，適用於分類任務。

K近鄰5-sklearn獲取資料集及對資料集劃分

1 案例：鳶尾花種類預測 Iris也稱鳶尾花卉資料集，是一類多重變數分析的資料集。

scikit基礎與機器學習入門（4） sklearn模組資料集的使用——自帶資料集和自定義資料集

API通用方法型別獲取方式自帶的小資料集 sklearn.datasets.load_ 線上下載的資料集 sklearn.datasets.fetch_

3.scikit-learn中資料集介紹

1. scikit-learn資料集API介紹 sklearn.datasets 載入獲取流行資料集 datasets.load_*() 獲取小規模資料集，資料包含在datasets裡

sklearn中的資料集

具體看原文：點選這裡 datasets資料集 sklearn的資料集庫datasets提供很多不同的資料集，主要包含以下幾大類：

將sklearn包datasets中的iris 鳶尾花資料集轉為dataframe

技術標籤：路漫漫python 將sklearn包datasets中的iris 鳶尾花資料集轉為dataframe 讀取鳶尾花資料集

資料探勘演算法和實踐（二十）：sklearn中通用資料集datasets

技術標籤：機器學習/資料探勘實戰資料探勘機器學習資料分析python 作為資料探勘工具包sklearn不但提供演算法實現，還通過sklearn.datasets模組提供資料集使用，根據需要有3種資料集API介面來獲取資料集，分別是

SQLserver中cube：多維資料集例項詳解

1、cube:生成多維資料集，包含各維度可能組合的交叉表格，使用with 關鍵字連線 with cube

在Keras中利用np.random.shuffle()打亂資料集例項

我就廢話不多說了，大家還是直接看程式碼吧~ from numpy as np index=np.arange(2000) np.random.shuffle(index)

在PyTorch中構建高效的自定義資料集

學習Dataset類的來龍去脈，使用乾淨的程式碼結構，同時最大限度地減少在訓練期間管理大量資料的麻煩。

PyTorch中的MIT ADE20K資料集的語義分割

PyTorch中的MIT ADE20K資料集的語義分割程式碼地址：https://github.com/CSAILVision/semantic-segmentation-pytorch

YOLOv3中K-Means聚類出新資料集的Anchor尺寸

參考部落格：聚類kmeans演算法在yolov3中的應用 https://www.cnblogs.com/sdu20112013/p/10937717.html

解決“Arcgis中：執行函式時出錯。無法在高精度的資料庫中建立低精度的資料集。”問題

當使用“歐式距離”工具時：Arcgis報錯“執行函式時出錯。無法在高精度的資料庫中建立低精度的資料集”解決方法：在“輸出距離柵格資料框”中，將輸出資料的位置直接輸出到一個資料夾中，而不是資料庫中，

使用sklearn自帶的糖尿病資料集，進行迴歸分析

需求：對糖尿病資料集進行迴歸分析，以便對未知資料進行預測。資料集Diabetes：1.包含442個患者的10個生理特徵

在機器學習和深度學習中建立屬於自己的資料集

技術標籤：機器學習深度學習python機器學習深度學習 def CreateDataSet(file_path): """ demo :

C#中的深度學習（二）：預處理識別硬幣的資料集

在文章中，我們將對輸入到機器學習模型中的資料集進行預處理。這裡我們將對一個硬幣資料集進行預處理，以便以後在監督學習模型中進行訓練。在機器學習中預處理資料集通常涉及以下任務:

sklearn：決策分類樹_紅酒資料集

from sklearn import tree from sklearn.datasets import load_wine# 紅酒資料 from sklearn.model_selection import train_test_split

sklearn：隨機森林_分類器_紅酒資料集

from sklearn.datasets import load_wine from sklearn.ensemble import RandomForestClassifier from sklearn.tree import DecisionTreeClassifier

【筆記】scikit-learn中的PCA（真實資料集）

sklearn中的PCA（真實的資料集）（在notebook中）載入好需要的內容，手寫數字資料集

中讀取資料_Pyspark處理資料中帶有列分隔符的資料集

技術標籤：中讀取資料本篇文章目標是處理在資料集中存在列分隔符或分隔符的特殊場景。對於Pyspark開發人員來說，處理這種型別的資料集有時是一件令人頭疼的事情，但無論如何都必須處理它。

目標檢測中計算資料集每一類別框的數量

技術標籤：好用的python小程式python演算法眾所周知，一個好的目標檢測模型需要大量的資料來訓練，當資料量較多的情況，我們沒辦法直觀看到每一類別的目標框個數，就無法判斷類別是否平衡。下面的演算法作用就

sklearn中的資料集

datasets資料集

玩具資料集

(一) 波士頓房價

(二) 鳶尾花

(三) 手寫數字

相關推薦