1-機器學習-機器學習基礎

阿新 • • 發佈：2020-07-20

sklearn的資料集

資料集劃分
資料集介面介紹

資料集劃分

前提：機器學習就是從資料中自動分析獲得規律，並利用規律對未知資料進行預測。換句話說，我們的模型一定是要經過樣本資料對其進行訓練，才可以對未知資料進行預測的。
問題：我們得到資料後，是否將資料全部用來訓練模型呢？
- 當然不是！因為我們如果模型（資料的規律）都是從資料中得來的，那麼該模型的效能評估如何進行呢？還是基於對原先的資料進行預測嗎？可想不是的，如果模型對原先的資料進行預測，由於模型（資料的規律）本來就是從該資料中獲取的，所以預測的精度幾乎會是百分之百。所以想要評估模型的好壞，需要使用一組新資料對模型進行評估。
- 因此我們需要將原先的樣本資料拆分成兩部分：
  - 訓練集：訓練模型
  - 測試集：評估模型
    - 不同型別的模型對應的評估方式是不一樣的
資料集劃分的API
- from sklearn.model_selection import train_test_split
- train_test_split(x,y,test_size,random_state)引數介紹：
  - x：特徵
  - y：目標
  - test_size：測試集的比例
  - random_state：打亂的隨機種子
- 返回值：訓練特徵，測試特徵，訓練目標，測試目標

資料集介面介紹

sklearn.datasets.load_*():獲取小規模的資料集
sklearn.datasets.fetch_*(data_home=None,subset):獲取大規模的資料集data_home表示資料集下載目錄,None為預設值表示的是家目錄/scikit_learn_data（自動建立該資料夾）下。需要從網路下載.subset為需要下載的資料集，可以為train，test，all

#方式1：獲取小規模的資料集
import sklearn.datasets as datasets
iris = datasets.load_iris()
#提取樣本資料
feature = iris['data']
target = iris['target']


#切分樣本資料
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020)

x_train,y_train  
#訓練集資料

x_test,y_test #測試集資料

#方式2：獲取較大規模的資料集
datasets.fetch_20newsgroups(data_home='資料集儲存路徑',subset='all')

機器學習基礎

機器學習演算法分類
機器學習開發流程

事前需要明確的幾點：
- 機器學習最終進行預測出來的結果其實都是通過相關的演算法計算出來的結果！所以說在機器學習中演算法是核心，資料是計算的基礎。
- 找準定位：大部分複雜模型的演算法設計都是演算法工程師（博士，碩士）在做，而我們只需要：
  - 學會分析問題，使用機器學習相關演算法完成對應的需求
  - 掌握演算法的基本思想，學會對不同問題選擇對應的演算法去解決
  - 學會利用框架和庫解決問題

機器學習中的資料型別

觀察下圖中的兩組資料的不同

機器學習中的資料型別分為：
- 離散型資料：
  - 離散變數則是通過計數方式取得的，即是對所要統計的物件進行計數，增長量非固定的，如：一個地區的企業數目可以是今年只有一家，而第二年開了十家；一個企業的職工人數今年只有10人，第二年一次招聘了20人等。
- 連續型資料：
  - 連續變數是一直疊加上去的，增長量可以劃分為固定的單位，即：1,2,3…… 例如：一個人的身高，他首先長到1.51，然後才能長到1.52，1.53……。
- 注意：
  - 連續型資料的增長是有規律的,離散型資料的增長是沒有規律的。
  - 連續性資料是區間可分的，而離散型資料是區間不可分的。

機器學習演算法分類

分類和迴歸問題
- 分類演算法基於的是【標籤資料】為【離散型】資料
- 迴歸演算法基於的是【標籤資料】為【連續型】資料
- 結論：在社會中產生的資料必然是離散型或者是連續型的資料，那麼企業針對資料所產生的需求也無非是分類問題或者回歸問題。

分類問題應用：

迴歸問題應用：

測試：下屬問題的類別應該是什麼？
- 預測電影的票房
- 預測明天的晴天還是陰天
- 人臉識別

機器學習開發流程

1.資料採集
- 公司內部產生的資料
- 和其他公司合作獲取的資料
- 購買的資料
2.分析資料所對應要解決需求或者問題是什麼？根據目標資料推斷問題屬於迴歸還是分類！
3.資料的基本處理
- 資料清洗
- 合併
- 級聯等
4.特徵工程：對特徵進行處理
- 特徵抽取
- 特徵預處理
- 降維等
5.選擇合適的模型，然後對其進行訓練
6.模型的評估
7.上線使用

1-機器學習-機器學習基礎

sklearn的資料集資料集劃分資料集介面介紹資料集劃分前提：機器學習就是從資料中自動分析獲得規律，並利用規律對未知資料進行預測。換句話說，我們的模型一定是要經過樣本資料對其進行訓練，才可以對未知資

一天入門Python--資料分析和機器學習的程式設計基礎

整理了一下碩士階段學習機器學習課程前的Python先導課的知識點，資料來源為課堂ppt和公開的學習資料，適合剛入門程式設計的小白整理回顧。後續會陸續分享機器學習及金融資料分析的python實現。

整合學習--機器學習數學基礎

學習整合學習課程之前我們需要先回顧一下數學基礎，這有助於我們對整合學習的理解和掌握。並且基於python 實現基本的資料計算與視覺化。

Linux學習-（1）虛擬機器VMware的安裝與CentOS作業系統的安裝

通常我們是通過在vm(Virtual machine)中安裝其他作業系統進行學習，下面介紹通過VMVare來安裝CentOS系統。

從 0 開始機器學習 - 機器學習系統的設計

一、構建演算法的推薦步驟當我們遇到一個問題，比如預測房價，我們想要用機器學習演算法來更好的解決這個問題，推薦的步驟如下：

機器學習-統計學習方法第二版學習筆記-第三章 K近鄰法

第三章 K近鄰法 3.2 K近鄰模型 K近鄰方法沒有顯示的模型形式，它有三個基本要素：距離變數、K值的選擇和分類和分類決策規則。

機器學習深度學習 ai_利用AI和機器學習進行製圖綜合

機器學習深度學習 ai The process of cartographic generalization is used to produce a harmonized picture at different scales of geospatial features.

機器學習數學_三個月計劃學習機器學習背後的數學

機器學習數學重點(Top highlight) In this article, I have shared a 3-month plan to learn mathematics for machine learning. As we know, almost all machine learning algorithms make

JVM系列【1】虛擬機器基礎概念

JVM系列筆記目錄虛擬機器的基礎概念class檔案結構class檔案載入過程jvm記憶體模型JVM常用指令GC與調優

001機器學習深度學習簡介

機器學習=構建一個函式語音識別 f(聲音)= ‘人工智慧’ 什麼是機器學習？機器學習：通過演算法使得機器能從大量歷史資料中學習規律從而對新的樣本做預測。輸出一個分佈。為什麼我們需要深度學習？在幾乎

機器人控制學習機器程式設計程式碼_2020年您應該使用的前8個無程式碼機器學習平臺

機器人控制學習機器程式設計程式碼 At the turn of this decade, there is a surge of no-code AI platforms. More and more businesses are looking to leverage the power of artificial intelligen

《吳恩達機器學習》學習筆記003_邏輯迴歸、正則化

http://www.ai-start.com/ml2014/html/week3.html 邏輯迴歸(Logistic Regression) 分類問題如果我們要用線性迴歸演算法來解決一個分類問題，對於分類， $y$ 取值為 0 或者1，但如果你使用的是線性迴歸，那麼假設函

《吳恩達機器學習》學習筆記008_聚類(Clustering)

http://www.ai-start.com/ml2014/html/week8.html 聚類(Clustering) K-Means聚類用$μ1$,$μ2$,...,$μ^k$ 來表示聚類中心，用$c{(1)}$,$c{(2)}$,...,$c^{(m)}$來儲存與第$i$個例項資料最近的聚類中心的索引，K-均