1. 程式人生 > 其它 >西瓜書第一章學習筆記

西瓜書第一章學習筆記

第一章

  1. 基本術語
  • 分類:預測離散值
  • 迴歸:預測連續值
  • 聚類:將訓練集中的內容分為一些簇,訓練樣本不擁有標記資訊
  • 有監督學習:如分類和迴歸
  • 無監督學習:如聚類
  • 泛化:使得模型可以適用於新樣本的能力
  1. 假設空間
  • 歸納:特殊到一般(泛化過程)
  • 演繹:一般到特殊(特化過程)
  • 版本空間:與訓練集一致的“假設空間”
  • 如何求解版本空間:
  1. 寫出假設空間:先列出所有可能的樣本點(即特徵向量)(即每個屬性都取到所有的屬性值)

  2. 對應著給出的已知資料集,將與正樣本不一致的、與負樣本一致的假設刪除。

  3. 歸納偏好

  • 歸納偏好:在學習過程中對某種型別假設的偏好,如圖,假設訓練樣本是圖中的各個(x,y),模型學習的目標就是找到一條穿過所有
    訓練樣本的曲線。因為訓練集有限,得到的曲線會有很多種。當學習的偏好是“相似樣本應有相似輸出”時,學習出來的曲線應該是曲線A。
  • 奧卡姆剃刀:若多個假設與觀察一致,選擇最簡單的那個。

    其中,表示演算法ξα基於訓練資料X產生假設h的概率,
    f為我們希望學習的真實目標函式。Eote表示在訓練集之外的所有樣本上的誤差。Ⅱ(·)為指示函式,()中的波爾函式值為true即為1,否則為0。
    函式的理解:在樣本空間中訓練集之外的誤差=樣本x的概率0或1演算法基於訓練資料X產生假設h的概率,當假設不符合真實目標函式時取1.

對於任意兩個演算法,都有,即演算法的期望效能相同。(前提:所有問題出現機會相同或所有問題同等重要)