1. 程式人生 > >資料集-My way of ML5

資料集-My way of ML5

資料集劃分

  • 一般是0.75劃分成訓練集,0.25劃分成測試集
  • 資料集劃分API:sklearn.model_selection.train_test_split(test_size=0.25)

sklearn流行資料集

sklearn.databases.load_* 獲取小規模資料集,資料包含在databases裡 databases.fetch_* 獲取大規模資料集

在這裡插入圖片描述 獲取燕尾花的資料集,列印一些基本資訊

在這裡插入圖片描述

獲取二十年的新聞資料集列印一些基本資訊

轉化器於估計器

*轉化器就是特徵工程中的fit_transform *估計器激素hi首先了一類演算法的API

估計器流程:

1.呼叫fit(x_train,y_train)訓練 2.輸入測試集 y_predict=predict(x_test) 預測準確率score(x_test,y_test)

估計器和轉化器是我們後面一直要用到的