1. 程式人生 > >支援向量機(SVM)方法的一些擴充

支援向量機(SVM)方法的一些擴充

       支援向量機(SVM)是基於統計學習理論的一種模型,它是在統計學理論中的VC維和結構風險最小化的基礎上發展起來的一種機器學習方法。下面我們就介紹幾種不同的SVM方法,這裡我們只給出不同SVM的規劃問題(結合了鬆弛變數的SVM),並不介紹相應的求解過程。本文使用的訓練集樣本為:T={(x1,y1),...,(xl,yl)},其中,l為樣本點的個數;訓練集xiRn,i=1,...,l。SVM屬於兩類問題,即標籤yi{1,1}

1.C-SVM
       常用的SVM可以稱為標準的SVM,或稱為C-SVM。C-SVM是一種二類分類模型,其基本模型定義為特徵空間上的間隔最大的線性分類器,其學習策略便是間隔最大化(Margin 最大化),最終可轉化為一個凸二次規劃問題的求解。對於線性可分的情況,C-SVM問題可以轉化為如下的二次規劃問題:

min=12w2+Ci=1lξis.t.yi[wTxi+b]1ξi,i=1,...,lξi0,i=1,...,l.
       其中,C為懲罰引數,C越大代表SVM對錯誤錯誤分類的懲罰越大,C是C-SVM中唯一可以調節的引數。ξi表示鬆弛變數。

2.V-SVM
       在C-SVM中有兩個互相矛盾的目標:最大Margin和最小訓練誤差,其中C起著調節這兩專案標的作用。引數C的選取是比較困難的。於是在C-SVM的基礎上進行改進,提出了V-SVM。
       V-SVM的思想就是利用新的引數來代替C。線上性可分的情況下,V-SVM模型如下:

min=12w2ρ
v+1li=1lξi
s.t.yi[wTxi+b]ρξi,i=1,...,lρ0ξi0,i=1,...,l.

       其中,l為訓練集樣本點的個數。在一定條件下,當l時,v將以趨近於1 的概率漸進與支援向量的個數和訓練集樣本點的個數比;引數v可以用來控制支援向量的數目和誤差,也比較容易選擇。引數ρ代表了兩類點(類別為-1 和+1)將以2ρw的間隔分開。

3.W-SVM
       在實際應用中,不同的樣本在訓練集中所佔的比重是不同的。基於這一思想,針對不同的樣本應該選擇不同的懲罰引數,因此提出了加權支援向量機(W-SVM)。W-SVM可以解決C-SVM演算法不能根據每個樣本的重要性區別對待的缺陷,並且可以提高小樣本的預測精度。線性可分的情況,W-SVM模型如下:

min=12w2+Ci=1lsiξis.t.yi[wTxi+b]1ξi,i=1,...,lξi0,i=1,...,l.
       其中,引數si表示每個樣本的權重,即懲罰引數變