機器學習入門（十）支援向量機

阿新 • • 發佈：2018-12-22

--------韋訪 20181114

1、概述

繼續學習，支援向量機在傳統的機器學習的地位還是很高的，不過，現在風頭已經被神經網路蓋過了，但是，還是得學習的。

2、概念

先來看一下，為什麼需要支援向量機？

如上圖所示，這是一個二分類問題，有三條直線，都能將紅點和黃點分開，那麼，哪條直線更優？

直觀上看，中間的那條直線應該是最優的，因為另外兩條直線都更接近樣本的邊界。用另一張圖來更直觀的看應該怎麼求這條最優分界線。

如上圖所示，左右兩張圖的直線都能將樣本分類，直線旁邊的兩條虛線是與直線平行的，如果將兩條虛線之間的距離看做容錯率的話，顯然右邊那條直線的容錯率是更好的，也就是更魯棒，泛化能力更強。

3、距離公式

那這條直線應該怎麼求呢？

既然遠離樣本邊界的直線更好，是不是應該先找到離直線最近的樣本，然後離它越遠越好就行了？如上圖所示，先找到離直線最近的樣本點，然後，遠離它。

這樣我們就將問題轉成了求“距離”的問題了。

在真實的分類任務中，樣本可能不會剛好分佈在二維平面上，有可能是多維的超平面上。在樣本空間中，任何一個超平面都可以用如下方程表示，

WΤx+b=0

其中，W為法向量，決定超平面的方向，b為偏置項，決定超平面與原點之間的距離。

如上圖所示，假設陰影部分的平面是我們的劃分超平面，x是樣本點，我們要求的就是x到劃分超平面的距離。直接求距離可能不太好求，我們就間接來求。

在平面上隨意找到兩個點x`和x``，這兩點組成一個向量，因為這兩點在平面上，所以它滿足公式，WΤx+b=0，分別將它們帶入公式，得

WΤx`=-b, WΤx``=-b

因為法向量與x到平面距離的直線是平行的，所以，我們可以先求x到x`的距離d`，然後再求d`到法向量上的投影，就是我們要求的點x到平面上的距離了，距離公式如下，

4、資料標籤定義

假設超平面能將訓練樣本正確的分類，則在資料集中，yi為樣本類別，若yi=+1，則有wΤxi+b>0，若yi=-1，則有wΤxi+b<0。如果我們將決策方程表示為，

則有，

將上面兩式帶入距離公式，得，

目標函式

對於決策方程(w, b)，可以通過縮放使得其結果值|y|≥1，為什麼能這麼縮放呢？上面的式子，，讓它左邊和右邊同時乘以一個值，等式還是成立的吧？那麼總有一個值可以使得等式左邊的大於1吧。帶入，可以得到下式，

前面說過了，我們的目的是求離劃分超平面最近的樣本點，然後，遠離它，那麼，得到的目標函式應該如下，

由於，所以，我們只需要考慮，

即可。

求極大值？我們以前的做法都是將它轉變成求極小值的計算，求分數的極大值，不就是求分母的極小值嗎？所以，可以將上式求極大值的問題轉成下式，求極小值，

別忘了，上式成立還有一個約束條件，

上面兩式就是支援向量機的基本型。

6、拉格朗日乘子法

在繼續求解SVM之前，先來說說拉格朗日乘子法，拉格朗日乘子法是一種尋找多元函式在一組約束下的極值方法。通過引入拉格朗日乘子，可以將有d個變數與k個約束條件的最優化問題轉化為具有d+k個變數的無約束優化問題求解。

等式約束g(x)=0優化問題：
假定x為d維向量，現在尋找x的某個取值x*，使得目標函式f(x)最小，且同時滿足g(x)=0的約束條件。

從幾何的角度看，這個問題的目標是在方程g(x)=0確定的d-1維曲面上尋找使得目標函式f(x)最小化的點。由此可得，

對於約束曲面上的任意點x，該點的梯度正交於約束曲面。
在最優點x*，目標函式在該點的梯度正交於約束曲面。

如下圖所示，

梯度和的方向必相同或者相反，則存在λ≠0，使得，

其中，λ稱為拉格朗日乘子，拉格朗日函式如下，

不等式約束g(x)≤0優化問題：

如上圖所示，此時最優點x*在g(x)<0區域中，或者在g(x)=0邊界上，

當x*在g(x)<0區域中，直接極小化f(x)即可。
當x*在g(x)=0上，則等價於上面的等式約束優化問題。需要注意的是，此時，和的方向必須相反，則存在常數λ>0使得.

整合這兩種情形，必須滿足λg(x)=0，因此可以將在約束條件g(x)≤0下最小化f(x)，轉化為在如下約束條件下，最小化拉格朗日函式，

上面的條件稱為KKT條件。

上面的做法可以推廣到多個約束，假設有m個等式約束和n個不等式約束，且可行域D非空的優化問題，

引入拉格朗日乘子λ=(λ1,λ2...λm)Τ和μ=(μ1,μ2...μn)Τ，相應的拉格朗日函式為，

約束條件KKT為，

7、求解SVM

將

帶入拉格朗日函式

得，

另對w和b的偏導為0，

對w求偏導：

對b求偏導：

再將上面的式子帶入原式，就可以將w和b消去，

由於對偶性質，

上面完成了第一步，

現在我們繼續對α求極大值，

求極大值，我們又可以將它轉成求極小值，

別忘了上式成立是有條件的，

然後，解出α，根據下式再求出w和b，即可得到模型

8、求解SVM例項

下面，用一個例項來看看怎麼用上式對SVM求解。

如上圖所示，我們有三個資料，其中，正例x1(3, 3)、x2(4, 3)，負例x3(1, 1)。

將這些資料帶到式子，

其中，約束條件為，

因為我們已經有真實的資料了，所以，約束條件也就可以寫成如下，

帶入資料以後，原式子為，

又因為，，所以可以將α3消去，上式簡化為，

求極小值怎麼辦？求偏導唄，分別對α1和α2求偏導，令偏導等於0，可得，

因為用的是ubuntu自帶的公式編輯軟體，我不知道怎麼編輯方程組，大家知道上面兩式是方程組就好了，對上面方程組求解，得，

α1=1.5，α2=-1，這個結果並不滿足我們的約束條件αi≥0，i=1,2,3

所以我們的解應該是在邊界上，分別令α1和α2等於0，帶入，得，

α1=0，α2=-2/13

α1=0.25，α2=0

上面兩個結果中，第一個結果因為α2<0，還是不符合約束條件，而第二個結果剛好符合約束條件。又因為

所以，結果為α1=0.25，α2=0，α3=0.25 ，所以最小值在(0.25, 0, 0.25)處。

然後，將上面α的值帶入下面式子，求解w，

，得

得到w後，再根據下式求出b，

將x1的資料帶入上式，得，

所以，最後得到的平面方程為，

有沒有發現，在上面這個例子中，我們最終得到的模型方程其實跟點x2(4,3)沒有關係，也就是說，如果求得的αi=0，則該樣本對f(x)沒有任何影響。也就是真正發揮作用的樣本，是α不為0的樣本點。

9、鬆弛因子

如上圖所示，有時候資料中存在一些噪音點，如果我們也將它們考慮進去了，可能得到的線就不太好了。這是因為我們的方法要求把兩個類別完全分開，這時候我們可以適當的放鬆要求，引入鬆弛因子來解決這個問題。

所以我們新的目標函式變成了這樣，

當C很大時，意味著分類嚴格

當C很小時，意味著有更大的錯誤容忍度

C是我們要指定的一個引數。

10、核函式

現實任務中，樣本空間內可能不存在一個能正確劃分兩類樣本的超平面，對於這樣的問題，我們可以將原始的樣本空間對映到一個更高維的特徵空間，使得樣本在這個特徵空間內線性可分，如下圖所示。

如果原始空間是有限維，即屬性數有限，那麼一定存在一個高維特徵空間使樣本可分。

我們令Φ(x)表示將x對映後的特徵向量，於是，在特徵空間中劃分超平面所對應的模型可表示為，

其中，w和b是模型引數，跟上面講的一樣，於是有，

其對偶問題是，

約束條件為，

上式中，涉及到的計算，這是樣本xi和xj對映到特徵空間後的內積，因為特徵空間的維數很高，甚至是無窮維，所以，直接計算的難道非常大，為避開這個障礙，設想有這樣一個函式，

即xi和xj在特徵空間的內積是它們在原始樣本空間中通過函式k(.,.)計算的結果。於是，重寫式子為，

求解後得，

其中，函式k(.,.)就是核函式。

核函式定理：令x為輸入空間，函式k(.,.)是定義在x×x上的對稱函式，則k是核函式當且僅當對於任意資料D={x1,x2,,,xm}，核矩陣K總是半正定的。

上面定理表明，只要一個對稱函式所對應的核矩陣是半正定，它就能作為核函式使用。

上面的定理是什麼鬼，不是我們研究的重點，下面列出常用核函式，

此外，核函式還可以通過函式組合得到，例如，

若k1和k2是核函式，則對於任意整數r1、r2，其線性組合r1k1+r2k2也是核函式
若k1和k2是核函式，則核函式的直積

也是核函式。

3、若k1為核函式，則對於任意函式g(x)，

也是核函式。

機器學習入門（十）支援向量機

--------韋訪 20181114 1、概述繼續學習，支援向量機在傳統的機器學習的地位還是很高的，不過，現在風頭已經被神經網路蓋過了，但是，還是得學習的。 2、概念先來看一下，為什麼需要支援向量機？如上圖所示，這是一個二分類問題，有三條直線，都能將紅

機器學習實戰（五）支援向量機SVM（Support Vector Machine）

目錄 0. 前言 1. 尋找最大間隔 2. 拉格朗日乘子法和KKT條件 3. 鬆弛變數 4. 帶鬆弛變數的拉格朗日乘子法和KKT條件 5. 序列最小優化SMO（Sequential Minimal Optimiz

機器學習實戰（六）——支援向量機

第六章支援向量機 6.1 什麼是支援向量機支援向量機(Support Vector Machines)是目前被認為最好的現成的演算法之一在很久以前的情人節，大俠要去救他的愛人，但魔鬼和他玩了一個遊戲。魔鬼在桌子上似乎有規律放了兩種顏

公開課機器學習筆記（13）支援向量機三核函式

2.2、核函式Kernel 2.2.1、特徵空間的隱式對映：核函式咱們首先給出核函式的來頭：在上文中，我們已經瞭解到了SVM處理線性可分的情況，而對於非線性的情況，SVM 的處理方法是選擇一個核函式 κ(⋅,⋅) ，通過將資料對映到高維空間，來解決在原始空

機器學習練習（六）—— 支援向量機

這篇文章是一系列 Andrew Ng 在 Coursera 上的機器學習課程的練習的一部分。這篇文章的原始程式碼，練習文字，資料檔案可從這裡獲得。我們現在已經到了課程內容和本系列部落格文章的最後階段。本

周志華《Machine Learning》學習筆記（7）--支援向量機

寫在前面的話：距離上篇部落格竟過去快一個月了，寫完神經網路部落格正式進入考試模式，幾次考試+幾篇報告下來弄得心頗不寧靜了，今日定下來看到一句雞血：Tomorrow is another due！也許生活就需要一些deadline~~ 上篇主要介紹了神經網路。首

機器學習與深度學習系列連載：第一部分機器學習（九）支援向量機2（Support Vector Machine）

另一種視角定義SVM：hinge Loss +kennel trick SVM 可以理解為就是hingle Loss和kernel 的組合 1. hinge Loss 還是讓我們回到二分類的問題，為了方便起見，我們y=1 看做是一類，y=-1 看做是另一類

機器學習（三）——支援向量機SVM

SVM探討目錄 SVM探討 SVM演算法根據處理問題的複雜度，SVM 可由簡到繁分為三種：線性可分支援向量機：硬間隔最大化。線性支援向量機：資料分佈近似線性可分，可通過軟間隔最大化(懲罰因子，鬆弛變數)來線性分隔樣本點。非線性支援向量機：通過核函式提升

機器學習之路（一）---支援向量機SVM

##什麼是支援向量機(SVM)？支援向量機 (SVM) 是一個類分類器，正式的定義是一個能夠將不同類樣本在樣本空間分隔的超平面。換句話說，給定一些標記(label)好的訓練樣本 (監督式學習), SVM演算法輸出一個最優化的分隔超平面。如何來界定一個超

機器學習（7）——支援向量機（二）：線性可分支援向量機到非線性支援向量機

線性可分支援向量機回顧前面總結了線性可分支援向量機，知道了支援向量機的最終目的就是通過“間隔最大化” 得到最優分類器，能夠使最難區分的樣本點得到最大的分類確信度，而這些難區分的樣本就是支援向量。還是如下圖所示，超平面H1 和 H2 支撐著中間的決

[完]機器學習實戰第六章支援向量機（Support Vector Machine）

[參考] 機器學習實戰（Machine Learning in Action）本章內容支援向量機（Support Vector Machine）是最好的現成的分類器，“現成”指的是分類器不加修改即可直接使用。基本形式的SVM分類器就可得到低錯

機器學習實戰（十）Apriori演算法（關聯分析）

目錄 0. 前言 1. Apriori 演算法尋找頻繁項集 2. 從頻繁項集中挖掘關聯規則 3. 實戰案例 3.1. apriori演算法發現頻繁項集和關聯規則學習完機器學習實戰的Apriori，簡單的做個筆記。文中部分描述屬於

python機器學習入門（3）——裝飾器和元類

記住這幾句話：萬物皆物件裝飾器（decorator）：函式亦物件元類（meta class）：類亦物件物件意味著可以被賦值給變數，通過變數也能呼叫此物件兩個簡單的程式：裝飾器例程：實現對函式func的計時元類例程：實

機器學習筆記（十）：TensorFlow實戰二（深層神經網路）

1 - 深度學習與深層神經網路深度學習的精確定義為：“一類通過多層非線性變換對高複雜性資料建模演算法的集合” 因此，多層神經網路有著2個非常重要的特性多層非線性 1.1 - 線性模型的侷限性線上性模型中，模型的輸出為輸入的加權和，假設一

《統計學習方法》筆記七（2）支援向量機——線性支援向量機

本系列筆記內容參考來源為李航《統計學習方法》線性不可分的通常情況是訓練資料中有一些特異點，將這些點去除後，剩下的大部分樣本點組成的結合是線性可分的。即某些樣本點不能滿足函式間隔≥1的約束條件，據此，對每個樣本點引入鬆弛變數，使函式間隔加上鬆弛變數≥1。對偶演算法支援向量合頁損失

機器學習入門（1）--KNN演算法

KNN演算法是一種常用的監督學習方法。生活之中我們想要給一個未知的樣本歸類，通常就是尋找幾個相似事物進行對比。假如，某人看到一隻未知的貓，想知道其屬於什麼品種，往往會在腦海中尋找貓的資訊，當在腦海中發現短尾貓的形態特徵和這隻貓及其相似時，就認為這隻貓是一直短尾貓。 KN

機器學習入門（四）迴歸演算法

--------韋訪 20181010 1、概述現在開始學習演算法了，從線性迴歸和邏輯迴歸開始。 2、線性迴歸概念關於迴歸和分類的概念，我們在TensorFlow入門筆記第八講有說過，這裡直接複製過來，分類問題：分類問題希望解決的是將不同的樣本分到事先定義好的

機器學習筆記（十）EM演算法及實踐（以混合高斯模型（GMM）為例來次完整的EM）

今天要來討論的是EM演算法。第一眼看到EM我就想到了我大楓哥，EM Master，千里馬，RUA!!!不知道看這個部落格的人有沒有懂這個梗的。好的，言歸正傳，今天要講的EM演算法，全稱是Expectation maximization，期望最大化。怎麼個意思呢，就是給你一

機器學習入門（六）決策樹

--------韋訪 20181030 1、概述這一講，我們來看看決策樹。 2、概念決策樹（decision tree）是一種常用的分類與迴歸方法，其模型為樹狀結構，如下圖所示，其中，最頂部的圓點為根節點，其他圓點為內部節點，方形為葉子節點。決策樹

機器學習入門（1）

在過去兩年人工智慧很火，以至於機器學習也跟著火起來了，其實機器學習是上世紀的事情了，以前由於儲存及計算力的限制，機器學習並不是那麼火爆，AI只是以規則上的學習為主。隨著近年大資料的發展，資料成幾何級增長，計算力和儲存能力的提升，基於演算法的計算，更是顯現出他特有的優勢，尤其在深度學習方面。人工