機器學習十九：LinearSVM的軟間隔最大化模型

阿新 • • 發佈：2019-02-07

菌

一 LinearSVM面臨的問題

有時候本來資料的確是可分的，也就是說可以用線性分類SVM的學習方法來求解，但是卻因為混入了異常點，導致不能線性可分

比如下圖，本來資料是可以按下面的實線來做超平面分離的，可以由於一個橙色和一個藍色的異常點導致我們沒法按照線性支援向量機中的方法來分類。

另外一種情況沒有這麼糟糕到不可分，但是會嚴重影響我們模型的泛化預測效果

比如下圖，本來如果我們不考慮異常點，SVM的超平面應該是下圖中的紅色線所示，但是由於有一個藍色的異常點，導致我們學習到的超平面是下圖中的粗虛線所示，這樣會嚴重影響我們的分類模型預測效果

如何解決這些問題呢？SVM引入了軟間隔最大化的方法來解決。

二 LinearSVM的軟間隔最大化

所謂的軟間隔，是相對於硬間隔說的，我們可以認為上一篇線性分類SVM的學習方法屬於硬間隔最大化。

回顧下硬間隔最大化的條件：

接著我們再看如何可以軟間隔最大化呢？

SVM對訓練集裡面的每個樣本 (xi,yi) 引入了一個鬆弛變數：

這使函式間隔加上鬆弛變數大於等於1，也就是說：

對比硬間隔最大化，可以看到我們對樣本到超平面的函式距離的要求放鬆了，之前是一定要大於等於1，現在只需要加上一個大於等於0的鬆弛變數能大於等於1就可以了

當然，鬆弛變數不能白加，這是有成本的，每一個鬆弛變數ξi, 對應了一個代價ξi，這個就得到了我們的軟間隔最大化的SVM學習條件如下：

這裡,C>0為懲罰引數，可以理解為我們一般迴歸和分類問題正則化時候的引數

C越大，對誤分類的懲罰越大，C越小，對誤分類的懲罰越小

也就是說，我們希望

儘量小，誤分類的點儘可能的少

C是協調兩者關係的正則化懲罰係數。在實際應用中，需要調參來選擇。

三目標函式的優化

和線性可分SVM的優化方式類似，我們首先將軟間隔最大化的約束問題用拉格朗日函式轉化為無約束問題如下：

其中 μi≥0,αi≥0,均為拉格朗日系數

也就是說，我們現在要優化的目標函式是：

這個優化目標也滿足KKT條件，也就是說，我們可以通過拉格朗日對偶將我們的優化問題轉化為等價的對偶問題來求解如下：

我們可以先求優化函式對於w,b,ξ的極小值, 接著再求拉格朗日乘子α和 μ的極大值

首先我們來求優化函式對於w,b,ξ的極小值，這個可以通過求偏導數求得：

好了，我們可以利用上面的三個式子去消除w和b了：

其中

(1)式到(2)式用到了

(2)式到(3)式合併了同類項

(3)式到(4)式用到了範數的定義

(4)式到(5)式用到了上面的

(5)式到(6)式把和樣本無關的wT提前

(6)式到(7)式合併了同類項

(7)式到(8)式把和樣本無關的b提前

(8)式到(9)式繼續用到

（9）式到(10)式用到了向量的轉置。由於常量的轉置是其本身，所有隻有向量xi被轉置，

（10）式到(11)式用到了上面的

（11）式到(12)式使用了

的乘法運演算法則

（12）式到(13)式僅僅是位置的調整

現在我們看看我們的優化目標的數學形式：

對於

這3個式子，我們可以消去μi，只留下αi，也就是說 0≤αi≤C 同時將優化目標函式變號，求極小值，如下：

和我們上一篇LinearSVM 的式子進行對比;

仔細觀察可以發現，這個式子和我們上一篇線性可分SVM的一樣,唯一不一樣的是約束條件

僅僅是多了一個約束條件

我們依然可以通過SMO演算法來求上式極小化時對應的α向量就可以求出和w和b了

四軟間隔最大化時的支援向量

在硬間隔最大化時，支援向量比較簡單，就是滿足函式間隔 γ′>1（舉例取1，你也可以選擇其他數值）

而函式間隔定義如下：

根據KKT條件中的對偶互補條件：

如果

則有

即點在支援向量上，否則如果

則有

即樣本在支援向量上或者已經被正確分類

在軟間隔最大化時，則稍微複雜一些，因為我們對每個樣本 (xi,yi) 引入了鬆弛變數 ξi

我們從下圖來研究軟間隔最大化時支援向量的情況，第i個點到對應類別支援向量的距離為

根據軟間隔最大化時KKT條件中的對偶互補條件

　 a) 如果α=0,那麼yi(wTxi+b)−1≥0,即樣本在支援向量上或者已經被正確分類。如圖中所有遠離支援向量的點

　　b) 如果0≤α≤C,那麼ξi=0,yi(wTxi+b)−1=0,即點在支援向量上。如圖中在虛線支援向量上的點

　　c) 如果α=C，說明這是一個可能比較異常的點，需要檢查此時ξi

i)如果0≤ξi≤1,那麼點被正確分類，但是卻在超平面和自己類別的支援向量之間。如圖中的樣本2和4.

　　　　　ii)如果ξi=1,那麼點在分離超平面上，無法被正確分類。

　　　　　iii)如果ξi>1,那麼點在超平面的另一側，也就是說，這個點不能被正常分類。如圖中的樣本1和3.

LinearSVM的演算法過程總結

這裡我們對軟間隔最大化時的線性可分SVM的演算法過程做一個總結

輸入是線性可分的m個樣本

其中x為n維特徵向量。y為二元輸出，值為1，或者-1

輸出是分離超平面的引數和w∗和b∗和分類決策函式。

演算法過程如下：

1）選擇一個懲罰係數C>0, 構造約束優化問題

2）用SMO演算法求出上式最小時對應的α向量的值α∗向量

3) 計算

4) 找出所有的S個支援向量,即滿足

對應的樣本(xs,ys)，通過

計算出每個支援向量(xx,ys)對應的bs∗,計算出這些

所有的bs∗對應的平均值即為最終的

這樣最終的分類超平面為：w∗∙x+b∗=0，最終的分類決策函式為：

菌

這裡的模板都是通過設定佈局背景來組合搭配的，需要調出佈局設定來更換背景圖片，使用定位功能可以改變大小

不失初心，不忘初衷

AI玩轉智慧

機器學習十九：LinearSVM的軟間隔最大化模型

AI菌一 LinearSVM面臨的問題有時候本來資料的確是可分的，也就是說可以用線性分類SVM

機器學習筆記九：K近鄰演算法（KNN）

一.基本思想 K近鄰演算法，即是給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項，這K個例項的多數屬於某個類，就把該輸入例項分類到這個類中。如下面的圖：通俗一點來說，就是找最“鄰近”的夥伴，通過這些夥伴的類別來看自己的類別

機器學習----支援向量機（軟間隔與正則化）

Soft Margin 前面的假設一直都是線性可分，可是如果對所有樣本不能線性可分（比如有noisy）怎麼辦？或者過擬合怎麼辦？緩解該問題的一個方法就是允許支援向量機在一些樣本上出錯，為此引入軟間隔(soft margin)這個概念。即允許在一些樣本

資料探勘十大演算法——支援向量機SVM（二）：線性支援向量機的軟間隔最大化模型

首先感謝“劉建平pinard”的淵博知識以及文中詳細準確的推導！！！支援向量機原理SVM系列文章共分為5部分：（一）線性支援向量機（二）線性支援向量機的軟間隔最大化模型（三）線性不可分支援向量機與核函式（四）SMO演算法原理（五）線性支援迴歸

OpenGL學習十九：紋理過濾

當物體放大縮小時導致投影在上面的紋理也隨著變化，OpenGL為了優化其細節使其效果更好，因此可以採用紋理過濾 glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MAG_FILTER, GL_NEAREST); GL_TEXTURE_MA

機器學習，詳解SVM軟間隔與對偶問題

今天是**機器學習專題**的第34篇文章，我們繼續來聊聊SVM模型。我們在上一篇文章當中推導了SVM模型在硬間隔的原理以及公式，最後我們消去了所有的變數，只剩下了$\alpha$。在硬間隔模型當中，樣本是線性可分的，也就是說-1和1的類別可以找到一個平面將它完美分開。但是在實際當中，這樣的情況幾乎是不

周志華《機器學習》筆記：第3章線性模型

本章概括從最簡單但也是最基礎的線性模型開始研究。線性模型雖然簡單，但卻是基礎。先研究線性、單屬性的線性迴歸問題，在此基礎上研究非線性、多屬性的迴歸和分類問題。第3章線性模型所謂線性模型，也即是： 1. 假定示例有d個屬性，x

支援向量機SVM（二）：基於軟間隔最大化的線性SVM

前言由上節，線性可分SVM的學習模型為 min⁡ω,b12∣∣ω∣∣2s.t.1−yi(ω⋅xi+b)≤0\begin{aligned} \min_{\bm\omega, b} &\quad\frac{1}{2}||\bm\omega|

SVM支援向量機原理(二) 線性支援向量機的軟間隔最大化模型

在支援向量機原理(一) 線性支援向量機中，我們對線性可分SVM的模型和損失函式優化做了總結。最後我們提到了有時候不能線性可分的原因是線性資料集裡面多了少量的異常點，由於這些異常點導致了資料集不能線性可分，本篇就對線性支援向量機如何處理這些異常點的原理方法做一個總結。 1

Hulu機器學習問題與解答系列 | 十九：主題模型

cat jpeg ebp sel onf earch -s 2nf aic 今天的內容是【主題模型】場景描述基於Bag-Of-Words（或N-gram）的文本表示模型有一個明顯的缺陷，就是無法識別出不同的詞（或詞組）具有相同主題的情況。我們需要一種技術能夠將具有

python cookbook第三版學習筆記十九：未包裝的函式新增引數

比如有下面如下的程式碼，每個函式都需要判斷debug的是否為True,而預設的debug為False def a(x,debug=False): if debug:

機器學習十大經典演算法：（2）k-means演算法

1.基本Kmeans演算法[1] [cpp] view plain copy 選擇K個點作為初始質心 repeat

機器學習十大經典演算法：（1）C4.5演算法

C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3演算法. C4.5演算法繼承了ID3演算法的優點，並在以下幾方面對ID3演算法進行了改進： 1)用資訊增益率來選擇屬性，克服了用資訊增益選擇屬性時偏向選擇取值多的屬性的不足； &nbs

演算法工程師修仙之路：吳恩達機器學習（九）

吳恩達機器學習筆記及作業程式碼實現中文版神經網路引數的反向傳播演算法代價函式假設神經網路的訓練樣本有 m

opencv學習筆記二十九：SIFT特徵點檢測與匹配

SIFT（Scale-invariant feature transform）是一種檢測區域性特徵的演算法，該演算法通過求一幅圖中的特徵點（interest points,or corner points）及其有關scale 和 orientation 的描述子得到特徵並進行

opencv學習筆記三十九：視訊讀寫

VideoCapture：視訊抓取的類 VideoWriter ：寫視訊的類 fps（frame per second）幀率：每秒抓取顯示多少幀 #include<opencv2\opencv.hpp> using namespace cv; int m

opencv學習筆記四十九：基於距離變換和區域性自適應閾值的物件計數

案例背景：統計下圖中玉米粒的個數方案思路：先灰度化，再二值化（基於THRESH_TRIANGLE，圖中直方圖有明顯的雙峰值），腐蝕去掉一些小雜點，距離變換，再自適應區域性閾值，膨脹連成連通域，尋找輪廓進行計數。距離變換於1966年被學者首次提出,目前已被廣泛應

機器學習與深度學習系列連載：第一部分機器學習（九）支援向量機2（Support Vector Machine）

另一種視角定義SVM：hinge Loss +kennel trick SVM 可以理解為就是hingle Loss和kernel 的組合 1. hinge Loss 還是讓我們回到二分類的問題，為了方便起見，我們y=1 看做是一類，y=-1 看做是另一類

opencv學習筆記五十九：影象融合之背景替換

以證件照為例，圖片中有大部分為背景，先用kmeans對影象進行分割，可以得到背景的標籤，然後將影象分為前景和背景兩部分，非背景的都當作前景，顯示kmeans分割後的影象dst，將原影象前景賦給dst, 背景都設為0，得到kmeans分割後的影象如下，可看到邊緣處有一些小藍邊，

Maven學習筆記之十九：Maven倉庫(maven倉庫分類)

Maven倉庫(maven倉庫分類) ---------- 對於maven來說，倉庫只分為兩類：本地倉庫和遠端倉庫。當maven根據座標尋找構件的時候，它首先會檢視本地倉庫，如果本地倉庫存在此構件，則直接使用；如果本地倉庫不存在此構件，或者需要檢視是否有更新的構件版本

機器學習十九：LinearSVM的軟間隔最大化模型

相關推薦