1. 程式人生 > 實用技巧 >sklearn中的資料集

sklearn中的資料集

具體看原文:點選這裡

datasets資料集

​ sklearn的資料集庫datasets提供很多不同的資料集,主要包含以下幾大類:

    1. 玩具資料集
    2. 真實世界中的資料集
    3. 樣本生成器
    4. 樣本圖片
    5. svmlight或libsvm格式的資料
    6. 下載的資料
    7. 從外部載入的資料
      用的比較多的就是1和3,這裡進行主要介紹,其他的會進行簡單介紹,但是不建議使用。

玩具資料集

​ scikit-learn 內建有一些小型標準資料集,不需要從某個外部網站下載任何檔案,用datasets.load_xx()載入。

(一) 波士頓房價

​ 統計了波士頓506處房屋的13種不同特徵( 包含城鎮犯罪率、一氧化氮濃度、住宅平均房間數、到中心區域的加權距離以及自住房平均房價等 )以及房屋的價格,適用於迴歸任務。

from sklearn import datasets  # 匯入庫

boston = datasets.load_boston()  # 匯入波士頓房價資料
print(boston.keys())  # 檢視鍵(屬性)     ['data','target','feature_names','DESCR', 'filename'] 
print(boston.data.shape,boston.target.shape)  # 檢視資料的形狀 (506, 13) (506,)
print(boston.feature_names)  # 檢視有哪些特徵 這裡共13種
print(boston.DESCR)  #
described 描述這個資料集的資訊 print(boston.filename) # 檔案路徑
View Code

(二) 鳶尾花

​ 這個資料集包含了150個鳶尾花樣本,對應3種鳶尾花,各50個樣本,以及它們各自對應的4種關於花外形的資料 ,適用於分類任務。

from sklearn import datasets  # 匯入庫

iris = datasets.load_iris()  # 匯入鳶尾花資料
print(iris.data.shape,iris.target.shape)  # (150, 4) (150,)
print(iris.feature_names)  #
[花萼長,花萼寬,花瓣長,花瓣寬]
View Code

​ 還可以在sklearn\datasets_base.py檔案中檢視資訊:3類,每類50個,共150個樣本,維度(特徵)為4,特徵的數值是真實的,並且都是正數。

(三) 手寫數字

​ 共有1797個樣本,每個樣本有64的元素,對應到一個8x8畫素點組成的矩陣,每一個值是其灰度值, target值是0-9,適用於分類任務。