最優間隔分類器.原始/對偶優化問題.KKT.SVM對偶

阿新 • • 發佈：2019-01-02

《Andrew Ng 機器學習筆記》這一系列文章文章是我再觀看Andrew Ng的Stanford公開課之後自己整理的一些筆記，除了整理出課件中的主要知識點，另外還有一些自己對課件內容的理解。同時也參考了很多優秀博文，希望大家共同討論，共同進步。

網易公開課地址：http://open.163.com/special/opencourse/machinelearning.html

本篇博文設計課程七：最優間隔分類器問題

主要內容包括：

（1）最優間隔分類器(optimal margin classifier)

（2）原始/對偶優化問題（KKT）（primal/dual optimization problem）

（3）SVM對偶(SVM dual)

（4）核方法(kernels)(下一篇博文具體分析)

最優間隔分類器

如果訓練集是線性可分的，就是說用超平面可以分隔正負樣本. 我們要找到最大的幾何間隔. 我們可以轉化為下面的優化問題：

這裡寫圖片描述

即，找到一個超平面，在將正負樣本分開的同時，使超平面到正負樣本間的距離儘可能大。

由於w和b可隨意縮放，約束條件||w||=1，使得函式間隔等於幾何間隔。但是這個約束本身是一個非凸性約束。（非凸性：是指系統有多個穩定的平衡態。）要求解的引數w在一個球體表面，如果想得到一個凸優化問題，必須保證如梯度下降演算法這種區域性最優值搜尋演算法不會找到區域性最優值，而非凸性約束不能滿足這個條件，所以需要改變優化問題。

因此轉化為更好的一個問題：
這裡寫圖片描述

這裡寫圖片描述

我們的目標變成要最大化這裡寫圖片描述 ,並且去掉了約束條件||w=1||，但是仍然是非凸性的.

因此，加上規模的限制，對訓練集的函式間隔設定為1：這裡寫圖片描述

至此，我們得到最終的最優間隔分類器：

此時，我們的優化問題變為一個凸二次目標函式。

原始優化問題

拉格朗日二元性

考慮下式：

即最小化函式f(w)，並滿足約束條件hi(w)=0，可以將hi寫成0向量，我們可以通過拉格朗日乘數法的方法解決：

1、建立拉格朗日運算元：

即等於原始目標函式加限制函式的線性組合，其中引數β稱為拉格朗日乘數

。

2、對下式求偏導數置為0，即可求出解w和β：

原始問題

拉格朗日乘數法的一般形式，也稱為原始問題。

考慮下式：

建立拉格朗日運算元：

此時α和β為拉格朗日乘數，定義：

上式中的“p”表示“原始問題”（primal），

如果w違反了約束條件，即這裡寫圖片描述，那麼上式變成：

這裡寫圖片描述
分析上式，若gi(w)>0，那麼只要使αi無窮大，θp(w)就會無窮大；若hi(w)≠0，只要使βi相應取無窮大（hi(w)>0）或無窮小（hi(w)<0），θp(w)也會無窮大。

反之，若w滿足約束條件，那麼θp(w) = f(w)，所以可得：

那麼，求min f(w)就是求下式的值，定義為p*：

這裡寫圖片描述

.

對偶問題

與上面原始問題有略微差別，我們定義：

對其取最大值，即給出對偶優化問題，定義為d*：

這裡寫圖片描述

顯然，我們有：

在某些條件下，會有這裡寫圖片描述，因此我們可以通過解決原始問題來解決對偶問題.

原始問題和對偶問題獲得相同解的條件：

1、令f為凸函式（凸函式的hessian矩陣是半正定的，H>=0，即開口朝上的碗狀函式）

2、假設hi為仿射函式（(affine，和線性是一樣的，只不過是加了截距），即

3、假設gi是嚴格可執行的，即存在w，使得對於所有i，gi(w)<0

在上述條件下，存在w*，α*，β*，其中w*是原始問題的解，α*，β*是對偶問題的解，並且：

此外，還要滿足以下條件：

這些條件被稱為KKT條件。（KKT是三個人名的縮寫），如果這裡寫圖片描述滿足KKT條件，那麼就是原始問題和對偶問題的解。

其中，稱為KKT對偶補充條件。即就是：

如果αi>0 ，那麼 gi(w*)=0，但是一般來說αi>0 <=> gi(w*)=0。

當gi(w*)=0，稱gi(w*)為活動約束。

SVM對偶

前面，我們有了最優間隔分類器如下：

約束條件可以寫為：

通過KKT條件，αi>0 => gi(w,b)=0=> y(i)(w^Tx(i)+b)=1，即函式間隔為1

給出例子如下圖：

圖中的圈和叉即正負樣本，實線即w,b確定的分割的超平面，最小的間隔是離決定邊界最近的點，上圖中有三個看出有三個樣本的函式間隔為1，其他樣本的函式間隔大於1，虛線即為函式間隔為1的點所構成的線。

過KKT條件，這些函式間隔為1的樣本對應的拉格朗日乘數一般不等於0， (因為根據KKT對偶補充條件，只有這裡寫圖片描述，函式邊界才等於 1).。這三個點被稱為支援向量（support vector），由此可見，支援向量的數量比訓練樣本數量小很多。

所以，總結為：αi>0。這個函式間隔為1的樣本稱為支援向量。因為支撐向量數量很少，所以多數的αi=0，那麼反推可得，αi=0，對應的樣本不是支撐向量。

對最優間隔優化問題構建拉格朗日運算元，有：

這裡寫圖片描述

由於這個問題只有不等式約束，所以沒有β。

對w求偏導並設為0：

推出：

w就是輸入特徵向量的線性組合。對b求偏導：

將w代入拉格朗日運算元，得到：

根據對b求偏導的結果，最後一項為0，得到：

將上式表示為W(α)，對偶問題就是：

為了解決這個對偶問題，求出引數α*，而求出α，即可求出w，求出α和w後，容易求出b，因為w決定了超平面的斜率，那麼根據最優間隔，將α和w代入原始問題，就容易求出b了，如下式：

再得到：

這個公式的直觀理解就是，找到最差的樣本（離得最近的正負樣本，也就是支援向量），接著，就只需要計算x和支援向量的內積就可以求出超平面的位置。

最優間隔分類器.原始/對偶優化問題.KKT.SVM對偶

《Andrew Ng 機器學習筆記》這一系列文章文章是我再觀看Andrew Ng的Stanford公開課之後自己整理的一些筆記，除了整理出課件中的主要知識點，另外還有一些自己對課件內容的理解。同時也參考了很多優秀博文，希望大家共同討論，共同進步。網易公開課地址：htt

（筆記）斯坦福機器學習第七講--最優間隔分類器

滿足優化最終 clas 定義 mar 擴展 strong play 本講內容 1.Optional margin classifier（最優間隔分類器） 2.primal/dual optimization（原始優化問題和對偶優化問題）KKT conditions（KK

最優間隔分類器

需求 left info 也會存在以及變量很好 gin 最優間隔分類器最優間隔分類器對於一個給定的數據集，目前有一個很現實的需求就是要找到一個合適的決策邊界，使得樣本中的最小間隔(幾何間隔)最大，而且這樣的分類器能夠使得分割的訓練樣本集之間的間隔(

最優間隔分類器（一）

通過前三章的討論，當我們拿到一給定資料集時第一要務是尋找一條分界線時分界線兩邊的點到線的（幾何）間隔最大，達到這一要求即認為這是個好的分類器。這樣的分類器會在正負樣本間畫出一個斷層（幾何間隔）。現在我們又一個線性可分的訓練集（即存在一超平面將正負樣本分開

機器學習數學原理（6）——最優間隔分類器

機器學習數學原理（6）——最優間隔分類器這一篇博文主要起一個承上啟下的作用，即需要上一篇博文所說的泛化拉格朗日定理方面的知識（建議讀者先閱讀上一篇博文《機器學習數學原理（5）——廣泛拉格朗日乘子法》），同時為下一篇關於SVM支援向量機的博文作鋪墊。這一篇博文介紹最優間隔分類器。

最優間隔分類器-SVM

http://blog.csdn.net/Andrewseu/article/details/46991541 本講大綱： 1.最優間隔分類器(optimal margin classifier) 2.原始/對偶優化問題（KKT）（primal/dual opti

吳恩達機器學習之最優間隔分類器

最優間隔分類器定義目標函式: hw,b=g(wTx+b)，g(z)={10z≥0z<0，y∈{−1,1} 定義函式間隔： Υ−i=yi(wTxi+b) 定

支援向量機（二）——深入理解最優間隔分類器

1. 最優間隔分類器理論之前我們提到在支援向量機中，我們的目標是尋找一個超平面，使得離超平面比較近的點能有更大的間距，也就是說我們不必考慮所有的點都必須遠離超平面，我們關心求得的超平面能夠讓所有點中離它最近的點有最大間距。因此，注意最優間隔分類器我們的任

【七】最優間隔分類器問題

最優間隔分類器 the Optimal Margin Classifier 在上一講內容中，我們介紹了函式間隔和幾何間隔，我們也對比了這兩種間隔的差異。我們希望可以得到更小的幾何間隔。一個直觀的優化方程是上述方程中γ即為幾何間隔，注意到我們限定了||ω||=1，這表明幾

【斯坦福---機器學習】複習筆記之最優間隔分類器

本講大綱： 1.最優間隔分類器(optimal margin classifier) 2.原始/對偶優化問題（KKT）（primal/dual optimization problem） 3.SVM對偶(SVM dual) 4.核方法(kernels)(

第七集最優間隔分類器問題

本課首先提出了原始的優化問題：最優間隔分類器問題，之後介紹了對偶問題的概念和KKT條件，之後基於原始優化問題的對偶問題的分析，介紹了SVM演算法。課程的最後對SVM算法進行了評價，以引出下節課對核方法的介紹。回顧：對於幾何間隔來說，以相同的比例縮放w,b

最大間隔分類器的錯誤理解

以前：以為最大間隔是因為一條線段從中間分開會令平方和最大化；a+b=8; a=b=4j時,a^2+b^2是最小的，並不符合最大間隔的含義； 20180813：所有樣本中距離超平面（將所有的樣本正確分類）最近的幾何間隔最大化；比如說確定了某平面A，離它最近的樣本點的幾何間隔為

關於Adaboos選擇最優弱分類器過程的理解

特徵的設計在此不做解釋，隨著研究的深入，很多學者豐富和改善了以前的那些特徵，最原始的矩形特徵為例：所謂的弱分類器其實是由特徵f、閾值theta和一個決定不等號方向的p所決定的在此先不考慮p，簡單談談我理解中的選擇最優弱分類器的過程。在上述的特徵中，第一中的特徵值

三個角度看SVM（1）——最大間隔分類器

“橫看成嶺側成峰，遠近高低各不同。” 支援向量機（Support Vector Machine, SVM）作為一個被廣泛應用的有監督機器學習演算法，網路上對它的介紹數不勝數，其中更有不少好文佳作。本文與它們的區別在於：並不著重於“教程式”地對SVM進行系統性介

最大間隔轉為二次凸優化問題daidingdaiding

計算最大間隔：兩者等價，。最小化 SVM的目標函式：上述的函式，很明顯是線性約束的二次規劃問題(即凸優化問題)。因目標函式是凸函式，約束是線性的，而且是二次形式。這是典型的二次規劃問題。可知，只要轉為凸優化問題，即該問題可以解決了。 (1)、

Machine Learning 第七講SVM -- (一)最大間隔分類

一、Optimization Objective（SVM優化目標）在logistic迴歸模型中，g(z)=1/(1+e^(-z)),其函式影象如下：在這基礎上，若logistic迴歸只有一個樣本，則Cost函式如下圖所示：（1）在y=1的情況下，只剩下Cost的左

影象的線性分類器（感知機、SVM、Softmax）

本文主要內容為 CS231n 課程的學習筆記，主要參考學習視訊和對應的課程筆記翻譯 ,感謝各位前輩對於深度學習的辛苦付出。在這裡我主要記錄下自己覺得重要的內容以及一些相關的想法，希望能與大家多多交流~ 1. 線性分類器簡介這部分所

機器學習---線性分類器三種最優準則

線性分類器三種最優準則： Fisher 準則：根據兩類樣本一般類內密集，類間分離的特點，尋找線性分類器最佳的法線向量方向，使兩類樣本在該方向上的投影滿足類內儘可能密集，類間儘可能分開。這種度量通過類內

Regularized least-squares classification（正則化最小二乘法分類器）取代SVM

得出 ack 提高 kernel sys 風險重要 ref height 在機器學習或者是模式識別其中有一種重要的分類器叫做：SVM 。這個被廣泛的應用於各個領域。可是其計算的復雜度以及訓練的速度是制約其在實時的計算機應用的主要原因。因此也非常非常多的算法

關於線上優化服務器視頻筆記1-----調優線上服務器

調優服務器linux服務器調優的經驗目錄：1、系統故障排除思路重視報錯信息永遠不要忘記日誌文件分析、定位、解決問題 2、影響linux性能的因素服務器硬件因素操作系統的相關因素程序因素 3、系統性能優化工具Cpu性能優化工具 vmstat，iosta，sar內存性能檢測工具 free,top,sar,pids