《機器學習實戰》學習筆記:支援向量機
阿新 • • 發佈:2019-02-11
該節的內容是支援向量機(SVM, support vectormachine)。
一.概念描述
支援向量機,就是通過最大化支援向量到分類超平面之間的分類間隔。分類超平面就是我們想要得到的決策曲面;支援向量就是離分類超平面最近的點,而間隔即為支援向量到分類超平面的距離。
核函式:這是一種將SVM擴充套件到更多資料集的方式,一般的說法是,核函式的作用是將資料從低維空間對映到高維空間,使得線性不可分變得線性可分。這句話的意思用個簡單的例子來說明:
有:a1 * x1^2 + a2 * x2^2 + a3 * x1x2 = 0
此時令:z1=x1^2,
z2=x2^2
, z3=x1x2
這樣就由原來的二維對映到三維空間了,而此時問題變成線性可分了。我們知道,在求解SVM時,所有的運算都可以寫成內積的形式
設非線性對映Φ(x)
將全部原始資料 x
變換到另一個特徵空間,在訓練SVM時,需要計算兩個樣本間的內積,兩個樣本xi
和xj
對應的高維空間的內積為:<Φ(xi), Φ(xj)>
,該內積可以通過一個核函式K(xi, xj)
計算得到。而不用知道這個樣本對映Φ(x)是怎樣。徑向基函式是SVM中常用的一個核函式:
徑向基函式是一個採用向量作為自變數的函式,能夠基於向量距離運算輸出一個標量。
二.書中提到的幾點
- SVM可能是現成最好的分類器,這裡“現成”指的是分類器不加修改即可直接使用。幾乎所有的分類問題都可以使用SVM,但是,SVM本身是一個二值分類器,對於多類分類問題,如果需要使用SVM,則需要對程式碼做一些修改。
- SVM的實現方法有很多,最常用的就是序列最小最優化演算法(SMO,Sequential Minimal Optimization)
- 支援向量機是一種分類器。之所以稱為“機”是因為它會產生一個二值決策結果,即它是一種決策“機”。