1. 程式人生 > >scikit-learn內建資料集

scikit-learn內建資料集

scikit-learn 現在最新穩定版本為0.20.0

提供了以下幾個資料集

其中資料路徑都在sklearn包下的datasets/data目錄下

下面我分別介紹每個資料集

iris

iris是個多類別資料集,每個類別下有50個樣本,特徵4維,且都是實數型別, 適用於分類模型

boston

預測boston房價, 都是實數特徵,總共13維, 適用於迴歸模型

 

digits

資料由8*8的圖片組成,共64維特徵,0-9共10個類別,適用於分類模型

 

toy

toy資料6*2, 共2維特徵, 兩類, 適用於簡單的二分類

 

clf_small

clf共14維特徵,0,1兩類別,適用於簡單二分類模型

 

reg_small

共14維特徵, 適用於簡單迴歸模型

 

multilabel

人工製造的30*10維的多標籤資料

 

sparse-pos

 

sparse-neg

 

sparse-mix

zeros