ML筆記 - 機器學習基本概念
阿新 • • 發佈:2018-11-14
監督學習
以已知結果的資料集作為訓練樣本。
基本流程:輸入資料 -> 特徵工程 -> 模型訓練 -> 模型部署 -> 模型應用。
監督學習的目的在於學習一個由輸入到輸出的對映,這一對映由模型來表示,也就是說學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間。
假設空間的確定意味著學習範圍的確定。
輸入空間(Input Space)
將輸入的所有可能取值的集合稱作輸入空間。
輸出空間(Output Space)
將輸出的所有可能取值的集合稱作輸出空間。
- 輸入空間和輸出空間可以是有限元素的集合,也可以是整個歐氏空間。
- 輸入空間和輸出空間可以是連續值集合,也可以是離散值集合。
- 輸入空間和輸出空間可以是同一個空間,也可以是不同空間。
- 輸出空間通常比輸入空間小。
特徵(Feature)
特徵:即屬性,每個輸入例項的各個組成部分(屬性)稱作原始特徵,基於原始特徵還可以擴展出更多的衍生特徵。
特徵向量(Feature Vector)
由多個特徵組成的集合,稱作特徵向量,x維。
特徵空間(Feature Space)
將特徵向量存在的空間稱作特徵空間。
- 特徵空間中的每一維都對應了一個特徵(屬性)。
- 特徵空間可以和輸入空間相同,也可以不同。
- 需要將例項從輸入空間對映到特徵空間。
- 模型實際上是定義於特徵空間之上的。
假設空間(Hypothesis Space)
由輸入空間到輸出空間的對映的集合,稱作假設空間。
針對每一種可能的輸入,都能找到一個對映,對應了輸出空間中某個輸出。
假設空間指的是問題所有假設組成的空間,可以把學習過程看作是在假設空間中搜索的過程,搜尋目標是尋找與訓練集“匹配”的假設。
版本空間:與訓練集一致的“假設集合”。
特徵工程
最大限度地從原始資料中提取特徵以供演算法和模型使用。
- 資料預處理:標準化、縮放、缺失值、變換、編碼等
- 特徵產生:結合業務資料,派生新的特徵
- 特徵選擇:通過各種統計量、模型評分等,篩選合適的特徵
- 降維:PCA、LDA等減少特徵數量
CRISP-DM流程