1. 程式人生 > >CS229 筆記07

CS229 筆記07

|| 就是 距離 轉變 -m multipl 球面 方式 svm

CS229 筆記07

Optimal Margin Classifier

  • 回顧SVM

    \[ \begin{eqnarray*} h_{W,b}&=&g(W^{\rm T}x+b)\\[1em] g(z)&=&\begin{cases}1&z\geq0\\[1em]-1&z<0\end{cases}\\[1em] y&\in&\{-1,1\}\\[1em] \hat\gamma^{(i)}&=&y^{(i)}\left(W^{\rm T}x+b\right)\tag{Functional Margin}\\[1em] \gamma^{(i)}&=&y^{(i)}\left(\frac{W^{\rm T}}{||W||}x+\frac{b}{||W||}\right)\tag{Geometric Margin}\\[1em] \hat\gamma&=&\min_i \hat\gamma^{(i)}\\[1em] \gamma&=&\min_i \gamma^{(i)}\\[1em] \end{eqnarray*} \]

  • Optimal Margin Classifier(最大間隔分類器)

    由於函數間隔 \(\hat\gamma?\) 是可以通過改變 \(W?\)\(b?\) 來任意縮放的,所以這裏說的“最大間隔”指的是幾何間隔 \(\gamma?\) ,而幾何間隔所需要滿足的條件是,對於任意的樣本 \((x^{(i)},y^{(i)})?\) ,都有 \(\gamma^{(i)}\geq\gamma?\) ,即:

    \[ \max \gamma\{\text{s.t. }}y^{(i)}\left(\frac{W^{\rm T}}{||W||}x+\frac{b}{||W||}\right)\geq\gamma \]

    這就是最大間隔分類器最原始的想法,在滿足所有樣本到超平面的距離都大於 \(\gamma\) 的前提下,最大化這個 \(\gamma\) 。但是這就有一個問題,當找到這麽一組 \((W,b)\) 滿足上面的最優化條件後, \((2W,2b)\) 也將滿足上面的最優化條件(因為 \((W,b)\)\((2W,2b)\) 其實就是同一個超平面),所以需要限定一下縮放的原則,比如規定 \(||W||=1\) ,或者 \(W_1=1\) 等等,這個原則可以有多種方式選定。假設約定 \(||W||=1\) ,那麽上面的優化問題就轉變成以下的形式:

    \[ \max \gamma\{\text{s.t. }}y^{(i)}\left(W^{\rm T}x^{(i)}+b\right)\geq\gamma {\text{ and }} ||W||=1 \]

    然而這並不是一個很好的優化問題,因為這個 \(||W||=1\) 是一個很糟糕的非凸性約束( \(W\) 將在一個球面上取值,而球面集並不是一個凸集),所以還需要把優化問題再換一種表達方式。既然在約束條件裏面很難給 \(W\) 作一個約束(因為很難找到一個約束條件既能防止 \(W\) 任意縮放,又能保證 \(W\) 的取值集合是一個凸集),那麽可以嘗試把 \(W\) 放到目標優化函數裏面:

    \[ \max \gamma=\max \frac{\hat\gamma}{||W||}\{\text{s.t. }}y^{(i)}\left(W^{\rm T}x^{(i)}+b\right)\geq\hat\gamma \]

    但是這時候目標函數 \(\hat\gamma/||W||\) 又不是一個凸函數了。註意到 \(\hat\gamma\) 是可以任意縮放的,那麽可以令 \(\hat\gamma=1\) ,得到:

    \[ \max \frac{1}{||W||}\{\text{s.t. }}y^{(i)}\left(W^{\rm T}x^{(i)}+b\right)\geq1 \]

    把最大化目標函數轉為最小化其倒數,並平方:

    \[ \min ||W||^2\{\text{s.t. }}y^{(i)}\left(W^{\rm T}x^{(i)}+b\right)\geq1 \]

    這就是最大間隔分類器的最終形式,其目標優化函數是一個凸函數,約束集是一個凸集。

Lagrange Multiplier

  • Lagrange Multiplier(拉格朗日常數法)的一般形式

    要解決的問題為:

    \[ \min f(w)\{\text{s.t. }}h_i(w)=0,\,(i=1,2,\cdots,l) \]

    要求解以上問題,首先要創建一個拉格朗日算子:

    \[ {\mathcal L}(w,\beta)=f(w)+\sum_i\beta_ih_i(w) \]

    其中的 \(\beta_i\) 被稱為Lagrange Multiplier(拉格朗日乘數)。

    然後令它的偏導數為0,求解方程組即可:

    \[ \begin{eqnarray*} \frac{\partial{\mathcal L}(w,\beta)}{\partial w}&=&0\\[1em] \frac{\partial {\mathcal L}(w,\beta)}{\partial\beta}&=&0\\[1em] \end{eqnarray*} \]

  • Lagrange Multiplier(拉格朗日常數法)的擴展形式

    要求解的問題為:

    \[ \min_w f(w)\\begin{eqnarray*} {\text{s.t. }}g_i(w)&\leq&0,\,(i=1,2,\cdots,k)\tag{1}\h_i(w)&=&0,\,(i=1,2,\cdots,l)\tag{2}\\end{eqnarray*} \]

    拉格朗日算子為:

    \[ {\mathcal L}(w,\alpha,\beta)=f(w)+\sum_{i=1}^k\alpha_ig_i(w)+\sum_{i=1}^l\beta_ih_i(w)\tag{3} \]

    定義 \(\Theta_P(w)\) 為:

    \[ \Theta_P(w)\xlongequal{def}\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}{\mathcal L}(w,\alpha,\beta)\tag{4} \]

    現在考慮另一個優化問題:

    \[ p^*=\min_w\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}{\mathcal L}(w,\alpha,\beta)=\min_w\Theta_P(w) \]

    \(g_i(w)>0\) ,不滿足條件 \((1)\) ,那麽根據等式 \((3)\)\((4)\)\(\Theta_P(w)\) 將是一個無窮大值。若 \(h_i(w)\neq0\) ,不滿足條件 \((2)\) ,同理 \(\Theta_P(w)\) 也將是一個無窮大值。

    若同時滿足條件 \((1)\) 和條件 \((2)\) ,那麽顯然:

    \[ \Theta_P(w)=f(w) \]

    所以原來的優化問題也轉變成新的優化問題:

    \[ \min_w f(w)=\min_w \Theta_P(w)=p^* \]

Dual Problem

  • Dual Problem(對偶問題)

    定義:
    \[ \Theta_D(\alpha, \beta)=\min_w{\mathcal L}(w,\alpha,\beta)\d^*=\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}\min_w{\mathcal L}(w,\alpha,\beta)=\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}\Theta_D(\alpha,\beta) \]
    \(d^*\) 就是 \(p^*\) 的對偶問題,其實就是交換了 \(\min\)\(\max\) 的位置。在通常情況下, \(d^*\leq p^*\)

CS229 筆記07