拉格朗日對偶性
整理自統計機器學習附錄C。
目錄:
- 原始問題
- 對偶問題
- 原始問題與對偶問題的關系
1、原始問題
$\underset{x \in R^n} {min} \quad f(x)$
$s.t. \quad c_i(x) \leq 0,\quad i=1,2,...,k $
$\qquad h_i(x)=0,\quad i=1,2,...,l$
引入拉格朗日函數:$L(x,\alpha,\beta)=f(x)+\sum_{i=1}^k\alpha_ic_i(x)+\sum_{j=1}^l\beta_i \quad \alpha_i \geq 0$
考慮x的函數:$\theta_p(x)=max \quad L(x,\alpha,\beta)$
若x違反原始問題的約束,即$c_i(x)>0,h_j(x)!=0$,則$\theta_p(x)=+\infty$;相反,若x滿足約束,則$\theta_p(x)=f(x)$;
故,原始問題等價於:$\underset{x}{min} \quad \theta_p(x) = \underset{x}{min} \quad \underset{\alpha,\beta:\alpha_i \geq 0}{max} \quad L(x,\alpha,\beta)$
這個稱為廣義拉格朗日問題的極小極大問題。
至此,原始問題就可以表示為另一種形式,即廣義拉格朗日問題的極小極大問題。
定義:$p^*=min \ \theta_p(x)$,為原始問題的最優值。
2、對偶問題
定義:$\theta_D(\alpha,\beta)=\underset{x}{min} \ L(x,\alpha,\beta) $
考慮極大化$\theta_D(\alpha,\beta)=\underset{x}{min} \ L(x,\alpha,\beta) $,即:
$\underset{\alpha,\beta:\alpha_i \geq 0}{max} \theta_D(\alpha,\beta)=\underset{\alpha,\beta:\alpha_i \geq 0}{max} \ min \ L(x,\alpha,\beta) $
稱之為廣義拉格朗日問題的極大極小問題。
則:
$\underset{\alpha,\beta:\alpha_i \geq 0}{max} \theta_D(\alpha,\beta)=\underset{\alpha,\beta:\alpha_i \geq 0}{max} \ min \ L(x,\alpha,\beta) $
$s.t.\quad \alpha_i \geq 0,\ i=1,2,...,k$
稱為原始問題的對偶問題。
定義$\quad d^*=\underset{\alpha,\beta:\alpha_i \geq 0}{max} \theta_D(\alpha,\beta)\quad$ 是對偶問題的最優值。
3、原始問題與對偶問題的關系
定理C.1 : 若原始問題和對偶問題都有最優值,則:
$d^*=\underset{\alpha,\beta:\alpha_i \geq 0}{max} \ min \ L(x,\alpha,\beta) \leq \underset{x}{min} \quad \underset{\alpha,\beta:\alpha_i \geq 0}{max} \quad L(x,\alpha,\beta) = p^* $
推論C.1 : 設$x^*$和$\alpha^*,\beta^*$分別為原始問題和對偶問題的可行解,且$d^*=p^*$,則$x^*$和$\alpha^*,\beta^*$分別是原始問題和對偶問題的最優解。
定理C.2:考慮對偶問題和原始問題,假設f(x),$c_i(x)$皆為凸函數,$h_j(x)$為仿射函數,且假設$c_i(x)$嚴格可行,則存在$\alpha^*,\beta^*,x^*$,使$x^*$是原始問題的解,$\alpha^*,\beta^*$是對偶問題的解,且$p^*=d^*=L(x^*,\alpha^*,\beta^*)$.
定理C.3:同C.2的假設,則$\alpha^*,\beta^*,x^*$是解的充分必要條件是,滿足KKT條件:
$\bigtriangledown_x L(x^*,\alpha^*,\beta^*)=0 \qquad 最優條件$
$\bigtriangledown_\alpha L(x^*,\alpha^*,\beta^*)=0$
$\bigtriangledown_\beta L(x^*,\alpha^*,\beta^*)=0$
$\alpha_ic_i(x)=0 \qquad 互補條件$
$c_i(x)=0,\alpha_i \geq 0,h_j(x)=0,i=1,2...,k,j=1,2,...,l$
以上。
拉格朗日對偶性