1. 程式人生 > 其它 >資料集獲取、劃分、開發流程

資料集獲取、劃分、開發流程

資料集獲取、劃分、開發流程

資料集獲取、開發流程

資料集介面介紹

  • sklearn.datasets.load_*():獲取小規模的資料集
  • sklearn.datasets.fetch_*(data_home=None,subset):獲取大規模的資料集data_home表示資料集下載目錄,None為預設值表示的是家目錄/scikit_learn_data(自動建立該資料夾)下。需要從網路下載.subset為需要下載的資料集,可以為train,test,all
from sklearn import datasets as dt
data = dt.load_iris()
#提取特徵資料和標籤資料
feature = data.data
target = data.target
from sklearn.model_selection import train_test_split

#test_size指定測試機的佔比
#random_state隨機打亂樣本資料在進行切分
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2021)

#返回值:
#x_train 訓練集的特徵資料   y_train訓練集的標籤資料  x_train和y_train就組成了訓練集資料
#x_test 測試機的特徵資料    y_test測試機的標籤資料   x_test和y_test就組成了測試機資料

機器學習演算法分類

  • 分類和迴歸問題

    • 分類演算法基於的是【標籤資料】為【離散型】資料

    • 迴歸演算法基於的是【標籤資料】為【連續型】資料

    • 結論:在社會中產生的資料必然是離散型或者是連續型的資料,那麼企業針對資料所產生的需求也無非是分類問題或者回歸問題。

機器學習開發流程

  • 1.資料採集
    • 公司內部產生的資料
    • 和其他公司合作獲取的資料
    • 購買的資料
  • 2.分析資料所對應要解決需求或者問題是什麼?根據目標資料推斷問題屬於迴歸還是分類!
  • 3.資料的基本處理
    • 資料清洗
    • 合併
    • 級聯等
  • 4.特徵工程:對特徵進行處理
    • 特徵抽取
    • 特徵預處理
    • 降維等
  • 5.選擇合適的模型,然後對其進行訓練
  • 6.模型的評估
  • 7.上線使用