1. 程式人生 > >統計學習方法筆記7.1

統計學習方法筆記7.1

第七章 支援向量機

支援向量機(support vector machines,SVM)是一種二類分類模型,基本模型是定義在特徵空間上的間隔最大的線性分類器。

7.1 線性可分支援向量機與硬間隔最大化

7.1.1 線性可分支援向量機

支援向量機的學習都是在特徵空間進行的。 學習的目標:特徵空間找到一個分離超平面w*x+b=0將例項分到不同的類。 感知機利用誤分類最小策略求得分離超平面;線性可分向量機利用間隔最大化(凸二次規劃問題)求得最優分離超平面。 so,線性可分支援向量機為: 在這裡插入圖片描述 but,間隔最大化??

7.1.2 函式間隔和幾何間隔

函式間隔: 在這裡插入圖片描述 函式間隔表示了分類預測的正確性及確信度。 函式間隔存在問題:成比例改變w和b,超平面未變,距離改變。 解決問題:對法向量w加約束——幾何間隔。 在這裡插入圖片描述

函式間隔與幾何間隔的關係: 在這裡插入圖片描述

7.1.3 間隔最大化

在這裡插入圖片描述

  1. 最大間隔分類超平面 在這裡插入圖片描述 幾何間隔最優化問題: 在這裡插入圖片描述 函式間隔最優化問題: 在這裡插入圖片描述 函式間隔y的取值並不影響最優化問題,故取y=1,同時最大化問題轉化為最小化問題,得到線性可分支援向量機學習的最優化問題: 在這裡插入圖片描述 這是一個凸二次規劃問題,至於如何求解,後面將。 綜述最大間隔法的演算法流程為: 在這裡插入圖片描述
  2. 最大間隔分離超平面的存在唯一性 定理:訓練資料集線性可分,則可將訓練資料集中的樣本點完全正確的最大間隔分離超平面存在且唯一。 證明:見課本。
  3. 支援向量和間隔邊界 支援向量:線性可分下,訓練資料集的樣本點中與分離超平面距離最近的樣本點的例項,即在這裡插入圖片描述 間隔:正負超平面H1,H2平行,倆個超平面之間的距離稱為間隔。 間隔邊界:2/||w||在這裡插入圖片描述
    支援向量的重要性: 在這裡插入圖片描述