IRIS資料集介紹

阿新 • • 發佈：2019-01-01

本篇的主要內容：

使用Pandas對IRIS匯入的一些基本操作

IRIS資料集介紹

IRIS資料集也稱作鳶尾花資料集，整個資料集共有150條資料，分為三類，每類50條資料，每一條資料都有四個屬性：花萼長度，花萼寬度，花瓣長度，花瓣寬度，標籤資料共有三種，分別是Setosa，Versicolour，Virginica。一般使用前面的四種屬性資料來預測樣本屬於那種鳶尾花。
具體一些的介紹可以移步百度百科：IRIS資料集
或者這篇部落格：iris資料集及簡介
全部的資料：iris資料集

匯入與基本操作

這裡的介紹主要是之前部落格中使用了這一些內容，在此簡單記錄一下。
首先是資料集的匯入，有兩種方式，第一種是直接使用pandas的read_csv()函式進行匯入，例如：

datas = pd.read_csv('iris.csv')
# 看一下匯入資料的前5行資料
print(datas.head(5))
# 或者print(datas[:5])
# 看一下列名稱
columns_names = datas.columns.tolist()
print(columns_names)

輸出：

['Unnamed: 0', 'Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width', 'Species']

   Unnamed: 0  Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
0           1           5.1          3.5           1.4          0.2  setosa
1           2           4.9          3.0           1.4          0.2  setosa
2           3           4.7          3.2           1.3          0.2  setosa
3           4           4.6          3.1           1.5          0.2  setosa
4           5           5.0          3.6           1.4          0.2  setosa

可以看到實際上每一條資料有六列，第一列是DataFrame提供的序號，實際資料是後面的五列，前四列是屬性，最後一列是分類。
在分類中，一般不會直接使用資料集中的分類（Setosa，Versicolour，Virginica），而是將這三種分類用數字代替，使用會方便一些，從這裡來看，直接從sklearn包的datasets中匯入會方便一些，新增引用：

from sklearn.datasets import load_iris

匯入資料：

iris = load_iris()
# 看一下返回的資料型別
print(type(iris)) 

# 輸出
# <class 'sklearn.utils.Bunch'>

轉化為DataFrame：

df = pd.DataFrame(iris.data, columns=iris.feature_names)
print(df[:5])

輸出：

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2

可以看到再datasets中匯入的資料集與我們手動匯入的還是有些區別的，最顯著的就是將屬性資料與標籤資料分離了，檢視標籤資料：

# 注意這裡匯入的資料中 屬性資料在 .data中  ，標籤資料在 .target中
labels = iris.target
print(labels[:5])       # 前5行資料的分類都是第一類，也就是0

基本就醬，想到別的再記吧！

以上~

IRIS資料集介紹

IRIS資料集介紹

匯入與基本操作

IRIS資料集介紹

ICDAR 2017 資料集介紹

深度學習的一些資料集介紹

【資料集介紹】The Idiap Research Institute REPLAY-Mobile Database

視訊分類資料集介紹

Spark ML 基於Iris資料集進行資料建模及迴歸聚類綜合分析-Spark商業ML實戰

利用 sklearn SVM 分類器對 IRIS 資料集分類

基於決策樹模型對 IRIS 資料集分類

《TensorFlow：實戰Google深度學習框架》——6.1 影象識別中經典資料集介紹

Cityscapes資料集介紹

影象分類和目標檢測常用資料集介紹

用Iris資料集的屬性畫圖

Iris資料集用主成分分析MATLAB

TensorFlow入門教程：8：訓練資料之Iris資料集

TensorFlow入門教程：18：Iris資料集的線性迴歸訓練

多分類（softmax處理iris資料集）

Udacity Self-Driving資料集介紹

人臉識別常用資料集介紹

Python資料分析--Iris資料集實戰

Pascal VOC & COCO資料集介紹

IRIS資料集介紹

IRIS資料集介紹

匯入與基本操作

相關推薦