Coursera機器學習-第七週-Support Vector Machine

Large Margin Classification

支援向量機(Support vector machine)通常用在機器學習 (Machine learning)。是一種監督式學習 (Supervised Learning)的方法，主要用在統計分類 (Classification)問題和迴歸分析 (Regression)問題上。

支援向量機屬於一般化線性分類器，也可以被認為是提克洛夫規範化（Tikhonov Regularization）方法的一個特例。這族分類器的特點是他們能夠同時最小化經驗誤差與最大化幾何邊緣區，因此支援向量機也被稱為最大邊緣區分類器。現在多簡稱為SVM。

Optimization Objective

先來回顧邏輯迴歸函式：
這裡寫圖片描述

由圖上可知：
y=1,hθ(x)≈1,θTx≫0
y=0,hθ(x)≈0,θTx≪0

Logistic Regression Cost Function:
這裡寫圖片描述
ps:這是對於一個樣本點的cost Function,所以沒有除以m

左圖：紅色線描述的是新的代價函式的，記為cost1(z)
右圖：紅色線描述的是新的代價函式的，記為cost0(z)
這裡的下標是指在代價函式中對應的 y=1 和 y=0 的情況
這裡寫圖片描述
構建SVM的代價函式J(θ):

這個代價函式是由logistic regression變化過來的,只需將

同時乘以m，除以λ即可得到SVM的代價函式。

Large Marign Intuition
記這裡寫圖片描述

為 W
當C取非常大的值時，例如10000，就要求W非常小
當y=1時，W只有前一項，為了使其為0，要求 θTx≥1
當y=1時，W只有後一項，為了使其為0，要求 θTx≤−1
這裡寫圖片描述

Large margin classifier:

關於Decision Boundary 我們或許可以得到粉色的線、綠色的線、黑色的線。但是，其中，哪種的分類是更合理，更好的呢？

支援向量機將會選擇這個黑色的決策邊界。這條黑色的看起是更穩健的決策界，在分離正樣本和負樣本上它顯得的更好。數學上來講，這條黑線有更大的距離，這個距離叫做間距 (margin) 當畫出這兩條，額外的藍線我們看到黑色的決策界和訓練樣本之間有更大的最短距離，然而粉線和藍線離訓練樣本就非常近。
這個距離叫做支援向量機的間距。而這是支援向量機具有魯棒性的原因，因為它努力用一個最大間距來分離樣本。

引數C對分類的影響：

這裡寫圖片描述
其實C是一個懲罰係數，是對於離群點(outlier)的懲罰程度。當C比較小時，對於離群點可以忽略，當C比較大的時候，就不能忽略離群點了，必須將離群點劃分到相應的類別。
當C比較小時，[ ]中的項不必要嚴格=0，若C比較大，就需要=0了。

Mathematics Behind Large Marign Classification

這節的內容請參見參考文章

Kernels

核函式的本質：

實際中，我們會經常遇到線性不可分的樣例，此時，我們的常用做法是把樣例特徵對映到高維空間中去
如果凡是遇到線性不可分的樣例，一律對映到高維空間，那麼這個維度大小是會高到可怕的。該怎麼辦？
此時，核函式就隆重登場了，核函式的價值在於它雖然也是講特徵進行從低維到高維的轉換，但核函式絕就絕在它事先在低維上進行計算，而將實質上的分類效果表現在了高維上，也就如上文所說的避免了直接在高維空間中的複雜計算。

假設現在你是一個農場主，圈養了一批羊群，但為預防狼群襲擊羊群，你需要搭建一個籬笆來把羊群圍起來。但是籬笆應該建在哪裡呢？你很可能需要依據牛群和狼群的位置建立一個“分類器”，比較下圖這幾種不同的分類器，我們可以看到SVM完成了一個很完美的解決方案。
這裡寫圖片描述