機器學習概述3-機器學習工作流程
阿新 • • 發佈:2021-09-16
1 什麼是機器學習
機器學習是從資料中自動分析獲得模型,並利用模型對未知資料進行預測。
2 機器學習工作流程
- 1.獲取資料
- 2.資料基本處理
- 3.特徵工程
- 4.機器學習(模型訓練)
- 5.模型評估
- 結果達到要求,上線服務
- 沒有達到要求,重新上面步驟
2.1 資料集
在資料集中一般:
- 一行資料我們稱為一個樣本
- 一列資料我們成為一個特徵
- 有些資料有目標值(標籤值),有些資料沒有目標值
資料型別:
- 資料型別一:特徵值+目標值(目標值是連續的和離散的)
- 資料型別二:只有特徵值,沒有目標值
資料分割:
- 機器學習一般的資料集會劃分為兩個部分:
- 訓練資料:用於訓練,構建模型
- 測試資料:在模型檢驗時使用,用於評估模型是否有效
- 劃分比例:
- 訓練集:70% 80% 75%
- 測試集:30% 20% 25%
2.2 資料基本處理
即對資料進行缺失值、去除異常值等處理
2.3 特徵工程
- 特徵工程包含內容
-
特徵提取:將任意資料(如文字或影象)轉換為可用於機器學習的數字特徵
-
特徵預處理:通過一些轉換函式將特徵資料轉換成更加適合演算法模型的特徵資料過程
-
特徵降維:指在某些限定條件下,降低隨機變數(特徵)個數,得到一組“不相關”主變數的過程
-