支援向量機數學證明與推導（SVM）

阿新 • • 發佈：2019-01-14

支援向量機（SVM）

@(資料探勘)[svm]

一、線性可分支援向量機和硬間隔最大化

名詞解釋

線性可分：就是指給定一組資料集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}$ ，其中， $x_{i} \in χ = R^{n}, y_{i} \in γ = {+ 1, - 1}, i = 1, 2, \dots, N$ ，如果存在某個超平面S， $w \cdot x + b = 0$ ，能夠將整個資料集的正例項和負例項完全正確地劃分到超平面的兩側，則稱這個資料集T是線性可分資料集（linearly separable data set）；否則就是線性不可分的。
硬間隔最大化，也就是線性可分支援向量機，線上性可分資料集上利用間隔最大化求最優分離超平面的過程
首先從點到直線的距離發散到高維易知， $| w \cdot x + b |$ 能夠相對的表示點 $x$ 到超平面的距離，而 $w \cdot x + b$ 的符號與類標記 $y$ 的符號是否一致能夠表示分類是否正確，所以：

$\hat{γ_{i}} = y_{i} (w \cdot x + b)$
可以用來表示資料集中每個點分類正確性和到分割超平面距離（也可以稱為分類置信度大小），也叫超平面 $(w, b)$ 關於樣本點 $(x_{i}, y_{i})$ 的函式間隔。
我們可以進一步定義超平面關於整個資料集T的函式間隔為資料集T中所有點到超平面函式間隔的最小值：
$\hat{γ} = min_{i = 1, \dots, N} \hat{γ_{i}}$
但是可以發現，我們同時按比例增大 $w$ 和 $b$ ，超平面仍然是 $w \cdot x + b$ 沒有變，但是函式間隔卻同樣按比例變化了，所以我們對分離超平面的法向量 $w$ 加了約束，使得 $‖ w ‖ = 1$ ，也就是間隔值不會改變，這時函式間隔變成了幾何間隔，記做：
$γ_{i} = y_{i} (\frac{w}{‖ w ‖} \cdot x + \frac{b}{‖ w ‖})$
則同理資料集到超平面的幾何距離為：
$γ = min_{i = 1, \dots, N} γ_{i}$
進一步，我們的線性可分支援向量機就變成了一個約束最優化問題：
$max_{w, b} γ$
$s . t . y_{i} (\frac{w}{‖ w ‖} \cdot x + \frac{b}{‖ w ‖}) ⩾ γ, i = 1, 2, \dots, N$
即是最大化幾何間隔的問題，接著根據函式間隔與幾何間隔的關係，我們易得：
$max_{w, b} \frac{\hat{γ}}{‖ w ‖}$
$s . t . y_{i} (w \cdot x + b) ⩾ \hat{γ}, i = 1, 2, \dots, N$