西瓜書第一章學習筆記
阿新 • • 發佈:2021-10-08
第一章
- 基本術語
- 分類:預測離散值
- 迴歸:預測連續值
- 聚類:將訓練集中的內容分為一些簇,訓練樣本不擁有標記資訊
- 有監督學習:如分類和迴歸
- 無監督學習:如聚類
- 泛化:使得模型可以適用於新樣本的能力
- 假設空間
- 歸納:特殊到一般(泛化過程)
- 演繹:一般到特殊(特化過程)
- 版本空間:與訓練集一致的“假設空間”
- 如何求解版本空間:
-
寫出假設空間:先列出所有可能的樣本點(即特徵向量)(即每個屬性都取到所有的屬性值)
-
對應著給出的已知資料集,將與正樣本不一致的、與負樣本一致的假設刪除。
-
歸納偏好
- 歸納偏好:在學習過程中對某種型別假設的偏好,如圖,假設訓練樣本是圖中的各個(x,y),模型學習的目標就是找到一條穿過所有
訓練樣本的曲線。因為訓練集有限,得到的曲線會有很多種。當學習的偏好是“相似樣本應有相似輸出”時,學習出來的曲線應該是曲線A。
- 奧卡姆剃刀:若多個假設與觀察一致,選擇最簡單的那個。
其中,表示演算法ξα基於訓練資料X產生假設h的概率,
f為我們希望學習的真實目標函式。Eote表示在訓練集之外的所有樣本上的誤差。Ⅱ(·)為指示函式,()中的波爾函式值為true即為1,否則為0。
函式的理解:在樣本空間中訓練集之外的誤差=樣本x的概率0或1演算法基於訓練資料X產生假設h的概率,當假設不符合真實目標函式時取1.
對於任意兩個演算法,都有,即演算法的期望效能相同。(前提:所有問題出現機會相同或所有問題同等重要)