SVM支援向量機系列理論(四) 軟間隔支援向量機
4.1 軟間隔SVM的經典問題
對於線性可分的資料集,可以使用線性可分支援向量機的方法,找出最優間隔的分離超平面。線性可分支援向量機的經典問題為:
但是,在實際應用中,我們資料集因為存在一些資料點使得資料集不是完全線性可分的。因此,引入了軟間隔的SVM支援向量機。
- 首先
在硬間隔的SVM中,我們加的約束是 ,其中 1 表示的是margin的位置.
現在 表示現在的函式距離現在只需要大於等於 就可以了。其中 表示 樣本偏離margin的距離。對於沒有violation的樣本, ,我們把 稱為 鬆弛變數 。
用下圖來解釋比較清楚:
圖中有一個violate的點,它到 1 (也就是margin)的距離可以記為 ,這個距離可以代表violate margin的程度。軟間隔SVM為了容忍這個點,只需把約束條件中改為 ,而不是限制在 1 處。
- 然後
代表violate margin的程度,我們希望 越小越好,因此在目標函式中,我們希望最小化
- 最後
- 引數 C 代表了追求最大 margin 和 margin violation的一個tradeoff。
- 當 C 設定比較大時,代表我追求違反margin的情形越少越好,邊界瘦一點沒關係(