1. 程式人生 > >CS 229 notes Supervised Learning

CS 229 notes Supervised Learning

pmf ocm borde pem clu hex nts blog wid

CS 229 notes Supervised Learning

標簽(空格分隔): 監督學習 線性代數


Forword

the proof of Normal equation and, before that, some linear algebra equations, which will be used in the proof.

The normal equation

Linear algebra preparation

For two matrices 技術分享圖片 and 技術分享圖片 such that 技術分享圖片 is square, 技術分享圖片.

Proof:

技術分享圖片

技術分享圖片

Some properties:
技術分享圖片

some facts of matrix derivative:
技術分享圖片

Proof:

技術分享圖片

技術分享圖片
技術分享圖片

Proof 1:

技術分享圖片

Proof 2:

技術分享圖片

技術分享圖片

Proof: 技術分享圖片
(技術分享圖片 refers to the cofactor)

Least squares revisited

技術分享圖片(if we don’t include the intercept term)

技術分享圖片

since 技術分享圖片,

技術分享圖片

Thus,
$\frac{1}{2}(X\theta-\vec{y})^T(X\theta-\vec{y}) =
\frac{1}{2}\displaystyle{\sum{i=1}^{m}(h

\theta(x^{(i)}) -y^{(i)})^2} = J(\theta) $.

Combine Equations 技術分享圖片
技術分享圖片

Hence

技術分享圖片

Notice it is a real number, or you can see it as a 技術分享圖片 matrix, so
技術分享圖片


since 技術分享圖片 and 技術分享圖片 involves no 技術分享圖片 elements.
then use equation 技術分享圖片 with 技術分享圖片

技術分享圖片


To minmize 技術分享圖片, we set its derivative to zero, and obtain the normal equation:
技術分享圖片
技術分享圖片

?

CS 229 notes Supervised Learning