sklearn中的資料集
阿新 • • 發佈:2020-08-06
具體看原文:點選這裡
datasets資料集
sklearn的資料集庫datasets提供很多不同的資料集,主要包含以下幾大類:
- 玩具資料集
- 真實世界中的資料集
- 樣本生成器
- 樣本圖片
- svmlight或libsvm格式的資料
- 從http://openml.org下載的資料
- 從外部載入的資料
用的比較多的就是1和3,這裡進行主要介紹,其他的會進行簡單介紹,但是不建議使用。
玩具資料集
scikit-learn 內建有一些小型標準資料集,不需要從某個外部網站下載任何檔案,用datasets.load_xx()載入。
(一) 波士頓房價
統計了波士頓506處房屋的13種不同特徵( 包含城鎮犯罪率、一氧化氮濃度、住宅平均房間數、到中心區域的加權距離以及自住房平均房價等 )以及房屋的價格,適用於迴歸任務。
from sklearn import datasets # 匯入庫 boston = datasets.load_boston() # 匯入波士頓房價資料 print(boston.keys()) # 檢視鍵(屬性) ['data','target','feature_names','DESCR', 'filename'] print(boston.data.shape,boston.target.shape) # 檢視資料的形狀 (506, 13) (506,) print(boston.feature_names) # 檢視有哪些特徵 這裡共13種 print(boston.DESCR) #View Codedescribed 描述這個資料集的資訊 print(boston.filename) # 檔案路徑
(二) 鳶尾花
這個資料集包含了150個鳶尾花樣本,對應3種鳶尾花,各50個樣本,以及它們各自對應的4種關於花外形的資料 ,適用於分類任務。
from sklearn import datasets # 匯入庫 iris = datasets.load_iris() # 匯入鳶尾花資料 print(iris.data.shape,iris.target.shape) # (150, 4) (150,) print(iris.feature_names) #View Code[花萼長,花萼寬,花瓣長,花瓣寬]
還可以在sklearn\datasets_base.py檔案中檢視資訊:3類,每類50個,共150個樣本,維度(特徵)為4,特徵的數值是真實的,並且都是正數。
(三) 手寫數字
共有1797個樣本,每個樣本有64的元素,對應到一個8x8畫素點組成的矩陣,每一個值是其灰度值, target值是0-9,適用於分類任務。