1. 程式人生 > >嶺迴歸直接得到最優解的公式推導

嶺迴歸直接得到最優解的公式推導

多元線性迴歸

下面是線性迴歸的公式推導,沒有加上 L2 正則化因子。 假設 y^=Xw\hat y = Xw, 因為 L(w)=y^y22=Xwy22=(Xwy)T(Xwy)=wTXTXwyTXwwTXTyyTy, \begin{aligned} L(w) &= ||\hat y - y||_2^2=||Xw-y||_2^2 \\ &= (Xw-y)^T(Xw-y) \\ &= w^TX^TXw - y^TXw - w^TX^Ty-y^Ty, \end{aligned}

2=Xwy22=(Xwy)T(Xwy)=wTXTXwyTXwwTXTyyTy, 所以 L(w)w=2XTXwXTyXTy, \frac{\partial L(w)}{\partial w}= 2X^TXw-X^Ty-X^Ty, L(w)w=0\frac{\partial L(w)}{\partial w}=0,得 w=(XTX)1XTy. w=(X^TX)^{-1}X^Ty.

嶺迴歸

  • 上面定義的 L(w)=y^y22L(w) =||\hat y - y||_2^2
    是經驗風險,在經驗風險的基礎上加上表示模型複雜度的正則化項(regularization)或者懲罰項(penalty term),即結構風險。所以線性迴歸是經驗風險最小化,嶺迴歸是結構風險最小化(參考:李航《統計學習方法》P9關於“經驗風險最小化”與“結構風險最小化”一節的敘述);
  • 嶺迴歸其實就是在損失函式上加上了一個 L2 正則,使得權重不會太大;
  • 如果某些特徵權重比較大的時候,自變化變化一點點,就會導致因變數變化很大,使得方差變大,有過擬合風險。

此時損失函式變為:

L(w)=y^y22+λw22=Xwy22+λwTw=(X

wy)T(Xwy)+λwTw=wTXTXwyTXwwTXTyyTy+λwTw, \begin{aligned} L(w) &= ||\hat y - y||_2^2 + \lambda ||w||^2_2 =||Xw-y||_2^2 + \lambda w^Tw\\ &= (Xw-y)^T(Xw-y) + \lambda w^Tw\\ &= w^TX^TXw - y^TXw - w^TX^Ty-y^Ty + \lambda w^Tw, \end{aligned}

所以,

L(w)w=2XTXwXTyXTy+2λw, \frac{\partial L(w)}{\partial w}= 2X^TXw-X^Ty-X^Ty + 2 \lambda w, L(w)w=0\frac{\partial L(w)}{\partial w}=0,得 w=(XTX+λE)1XTy. w=(X^TX + \lambda E)^{-1}X^Ty.

這裡 EE 是一個單位矩陣。

參考資料: