資料集獲取、劃分、開發流程
阿新 • • 發佈:2021-09-01
資料集獲取、劃分、開發流程
資料集獲取、開發流程
資料集介面介紹
- sklearn.datasets.load_*():獲取小規模的資料集
- sklearn.datasets.fetch_*(data_home=None,subset):獲取大規模的資料集data_home表示資料集下載目錄,None為預設值表示的是家目錄/scikit_learn_data(自動建立該資料夾)下。需要從網路下載.subset為需要下載的資料集,可以為train,test,all
from sklearn import datasets as dt data = dt.load_iris() #提取特徵資料和標籤資料 feature = data.data target = data.target
from sklearn.model_selection import train_test_split #test_size指定測試機的佔比 #random_state隨機打亂樣本資料在進行切分 x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2021) #返回值: #x_train 訓練集的特徵資料 y_train訓練集的標籤資料 x_train和y_train就組成了訓練集資料 #x_test 測試機的特徵資料 y_test測試機的標籤資料 x_test和y_test就組成了測試機資料
機器學習演算法分類
分類和迴歸問題
分類演算法基於的是【標籤資料】為【離散型】資料
迴歸演算法基於的是【標籤資料】為【連續型】資料
結論:在社會中產生的資料必然是離散型或者是連續型的資料,那麼企業針對資料所產生的需求也無非是分類問題或者回歸問題。
機器學習開發流程
- 1.資料採集
- 公司內部產生的資料
- 和其他公司合作獲取的資料
- 購買的資料
- 2.分析資料所對應要解決需求或者問題是什麼?根據目標資料推斷問題屬於迴歸還是分類!
- 3.資料的基本處理
- 資料清洗
- 合併
- 級聯等
- 4.特徵工程:對特徵進行處理
- 特徵抽取
- 特徵預處理
- 降維等
- 5.選擇合適的模型,然後對其進行訓練
- 6.模型的評估
- 7.上線使用