機器學習基礎

阿新 • • 發佈：2020-07-20

sklearn的資料集

資料集劃分
資料集介面介紹

資料集劃分

前提：機器學習就是從資料中自動分析獲得規律，並利用規律對未知資料進行預測。換句話說，我們的模型一定是要經過樣本資料對其進行訓練，才可以對未知資料進行預測的。
問題：我們得到資料後，是否將資料全部用來訓練模型呢？
- 當然不是！因為我們如果模型（資料的規律）都是從資料中得來的，那麼該模型的效能評估如何進行呢？還是基於對原先的資料進行預測嗎？可想不是的，如果模型對原先的資料進行預測，由於模型（資料的規律）本來就是從該資料中獲取的，所以預測的精度幾乎會是百分之百。所以想要評估模型的好壞，需要使用一組新資料對模型進行評估。
- 因此我們需要將原先的樣本資料拆分成兩部分：
  - 訓練集：訓練模型
  - 測試集：評估模型
    - 不同型別的模型對應的評估方式是不一樣的
資料集劃分的API
- from sklearn.model_selection import train_test_split
- train_test_split(x,y,test_size,random_state)引數介紹：
  - x：特徵
  - y：目標
  - test_size：測試集的比例
  - random_state：打亂的隨機種子
- 返回值：訓練特徵，測試特徵，訓練目標，測試目標

資料集介面介紹

sklearn.datasets.load_*():獲取小規模的資料集
sklearn.datasets.fetch_*(data_home=None,subset):獲取大規模的資料集data_home表示資料集下載目錄,None為預設值表示的是家目錄/scikit_learn_data（自動建立該資料夾）下。需要從網路下載.subset為需要下載的資料集，可以為train，test，all

#方式1：獲取小規模的資料集
import sklearn.datasets as datasets
iris = datasets.load_iris()
#提取樣本資料
feature = iris['data']
target = iris['target']


feature.shape
(150, 4)

target.shape
(150,)

target
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0,  
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])


#切分樣本資料
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020)


x_train,y_train #訓練集資料


x_test,y_test #測試集資料

#方式2：獲取較大規模的資料集
datasets.fetch_20newsgroups(data_home='資料集儲存路徑',subset='all')

機器學習基礎

sklearn的資料集資料集劃分資料集介面介紹資料集劃分前提：機器學習就是從資料中自動分析獲得規律，並利用規律對未知資料進行預測。換句話說，我們的模型一定是要經過樣本資料對其進行訓練，才可以對未知資

1-機器學習-機器學習基礎

機器學習基礎概念（二）：希臘字母與數學符號

希臘字母約定常用的意義 Α α alpha a:lf 阿爾法角度；係數Β β beta bet 貝塔磁通係數；角度；係數Γ γ gamma ga:m 伽馬電導係數（小寫）Δ δ delta delt 德爾塔變動；密度；屈光度Ε ε epsilo

機器學習基礎概念

機器學習：利用計算機從歷史中找規律，並把這些規律用到對未來不確定場景的決策

Python-機器學習基礎-K近鄰演算法

K近鄰演算法簡介定義通俗來講，通過你的\"鄰居\"來判斷你屬於哪個類別計算你到\"鄰居\"的距離

【機器學習基礎】2、matplotlib

一、matplotlib基本用法 import matplotlib.pyplot as plt # 1.建立畫布 plt.figure(figsize=(10, 10), dpi=100)

筆記-機器學習基礎及python環境安裝

機器學習的基本概念機器學習主要分為兩大類：監督式學習與非監督式學習，兩者的區別就在於訓練資料中是否有目標變數，或者稱為預測變數。

機器學習基礎 | 互相關係數和互資訊異同探討

主要闡述互相關係數和互資訊的區別和聯絡，先說結論：對於高斯分佈，兩者是等價的，且存在轉換公式，當\\(X\\)與\\(Y\\)互相關係數為零時，兩者相互獨立，且互資訊為零；當互相關係數為\\(\\pm1\\)時，兩者完全相

Python深度學習4——機器學習基礎

4.機器學習基礎 4.1機器學習的四個分支 4.1.1監督學習監督學習是目前最常見的機器學習型別。給定一組樣本（通常由人工標註），它可以學會將輸入資料對映到已知目標［也叫標註（annotation）］

【機器學習基礎】——梯度下降

梯度下降是機器學習中一種重要的優化演算法，不單單涉及到經典機器學習演算法，在後面的神經網路、深度學習以及涉及到模型引數訓練的很多場景都要用到梯度下降演算法，因此再次單獨作為1節對這部分進行總結，主要從

《機器學習實戰》 | 第1章機器學習基礎

系列文章：《機器學習實戰》學習筆記這是《機器學習實戰》的第一章，本章簡要介紹了下什麼是機器學習、機器學習的主要任務和本書中將要用到的Python語言。現在機器學習（Machine learning）與人工智慧（Artificial

機器學習基礎——高數

高等數學 1.導數定義：導數和微分的概念 \\(f\'({{x}_{0}})=\\underset{\\Delta x\\to 0}{\\mathop{\\lim }}\\,\\frac{f({{x}_{0}}+\\Delta x)-f({{x}_{0}})}{\\Delta x}\\) （1）

機器學習基礎——範數

範數本質是向量或者矩陣對映到實數域的單值函式。假設\\(N(x)=\\Vert x \\Vert\\)是定義在\\(R^n\\)上的函式，她需要滿足以下三個條件：

機器學習基礎——概率論

機器學習概率論相關應用部分，從大學課本中走出面向機器學習中概率的要求

【機器學習基礎】無監督學習（2）——降維之LLE和TSNE

在上一節介紹了一種最常見的降維方法PCA，本節介紹另一種降維方法LLE，本來打算對於其他降維演算法一併進行一個簡介，不過既然看到這裡了，就對這些演算法做一個相對詳細的學習吧。

【機器學習基礎】無監督學習（3）——AutoEncoder

前面主要回顧了無監督學習中的三種降維方法，本節主要學習另一種無監督學習AutoEncoder，這個方法在無監督學習領域應用比較廣泛，尤其是其思想比較通用。

機器學習基礎+實踐（一）：鳶尾花分類

一些概念機器學習的前身人為指定決策規則。人為指定決策規則適合處理人們非常熟悉處理過程的應用，一旦資料量過大、資料處理過程複雜或者任務有所變化，就需要機器學習上場了

深度學習與CV教程(2) | 影象分類與機器學習基礎

作者：韓信子@ShowMeAI 教程地址：http://www.showmeai.tech/tutorials/37 本文地址：http://www.showmeai.tech/article-detail/261

機器學習第一天----瞭解Numpy基礎包

什麼是Numpy基礎包？ NumPy是Python中演算法擴充套件包，它是一個Python庫，提供多維陣列物件，各種派生物件（如掩碼陣列和矩陣），

一天入門Python--資料分析和機器學習的程式設計基礎

整理了一下碩士階段學習機器學習課程前的Python先導課的知識點，資料來源為課堂ppt和公開的學習資料，適合剛入門程式設計的小白整理回顧。後續會陸續分享機器學習及金融資料分析的python實現。

機器學習基礎

sklearn的資料集

資料集劃分

資料集介面介紹

相關推薦