均方誤差究竟是怎麽來的?

阿新 • • 發佈：2019-05-12

估計均值 big 之前高斯分布根據 spl 如果使用

當我們遇到一個線性回歸問題時，為什麽使用最小平方和作為損失函數？
本文中，我們將從概率的角度來解釋，線性回歸和最小平方和的關系。
不妨假設目標值\(y^{{(}i{)}}\)與輸入值\(x^{{(}i{)}}\)關系為
\[y^{(i)}=\theta^{(T)}x^{(i)}+\epsilon^{(i)}\]
其中\(\epsilon^{(i)}\)用於表示一些隨機噪聲或者相關的影響，並且我們假設\(\epsilon^{(i)}\)是獨立同分布的，符合均值為0，方差為\(\sigma^2\)的高斯分布。
也就是說, \(\epsilon^{(i)}\) ~ \(N(0, \sigma^2)\)

\(\epsilon^{(i)}\)

的概率密度為\[p(\epsilon^{(i)})=\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}\epsilon^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}\]

根據我們建立的目標與輸入值的關系，可以代入上述公式，即
\[p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}\]

其中，\(p(y^{(i)}|x^{(i)};\theta)\)

即為用參數\(\theta\)衡量的，給定\(x^{{(}i{)}}\)下，\(y^{{(}i{)}}\)的分布，我們也可視作\(\underline{y^{{(}i{)}}|x^{{(}i{)}};\theta}\) \(\,\) ~ \(\,\) \(N(\theta^Tx^{{(}i{)}},\sigma^2)\)

如果我們將輸入矩陣\(X\)定義為
\[ \left[ \begin{matrix} \underline{\quad}x^{(1)T} \underline{\quad}\\underline{\quad}x^{(2)T} \underline{\quad}\\underline{\quad}x^{(3)T} \underline{\quad}\\vdots\\underline{\quad}x^{(m)T} \underline{\quad}\\end{matrix} \right] \]

目標向量\(\vec{y}\)定義為
\[ \left[ \begin{matrix} y^{(1)}\y^{(2)}\y^{(3)}\\vdots\y^{(m)}\\end{matrix} \right] \]
那麽在給定\(X\)和參數\(\theta\)時，\(\vec{y}\)的分布可以用\(p{(}\vec{y}|X{)};\theta\)來衡量

當我們將上式看成是\(\theta\)的函數時，該式即為似然函數
\[ L{(}\theta{)}=L{(}\theta;X|\vec{y}{)}=p{(}\vec{y}|X{)};\theta \]
根據我們之前\(\epsilon^{(i)}\)相互獨立的假設，上式可以寫成
\[ \begin{eqnarray} L{(}\theta{)}&=&\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta{)}\&=&\prod_{i=1}^m\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)} \end{eqnarray} \]

根據極大似然估計法，我們應該選擇使得\(L{(}\theta{)}\)最大的\(\theta\)，我們同樣可以選擇最大化\(L{(}\theta{)}\)的一個嚴格遞增函數，比如我們可以最大化對數似然函數（方便計算），於是乎
\[ \begin{eqnarray} logL{(}\theta{)}&=&log\prod_{i=1}^m\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}\&=&\sum_{i=1}^mlog\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}\&=&mlog\frac{1}{\sqrt{2{\pi}}\sigma}-\frac{1}{\sigma^{2}}\cdot\frac{1}{2}\sum_{i=1}^m{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2} \end{eqnarray} \]
因此，最大化上式等價於最小化
\[ \frac{1}{2}\sum_{i=1}^m{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2} \]
也就是我們的最小平方和損失函數。

均方誤差究竟是怎麽來的?

估計均值 big 之前高斯分布根據 spl 如果使用當我們遇到一個線性回歸問題時，為什麽使用最小平方和作為損失函數？本文中，我們將從概率的角度來解釋，線性回歸和最小平方和的關系。不妨假設目標值\(y^{{(}i{)}}\)與輸入值\(x^{{(}i{)}}\)

均方誤差究竟是怎麽來的?

均方誤差究竟是怎麽來的?

Minimum Mean Squared Error (MMSE)最小均方誤差

究竟怎麽樣的域名才是好的域名呢

微信房卡炸金花源碼搭建監控視頻有延遲，怎麽來解決？

java 多線程—線程怎麽來的

均方誤差、平方差、方差、均方差、協方差（轉）

折彎機中的扭軸同步與電液同步怎麽來選擇？

均方誤差和交叉熵損失函數比較

hadoop，spark，Zookeeper，，，這些名字都是怎麽來的呢？

2019年二級建造師考試教材應該怎麽來學習？

CAD編輯器的語言可以進行中英文切換嗎?要怎麽來操作呀？

淺析中港揚盛的變頻電源中的諧波是怎麽來的？

為何邏輯回歸的損失函式是用交叉熵而非均方誤差?

迴歸評價指標：均方誤差根（RMSE）和R平方（R2）

均方誤差（MSE）根均方誤差（RMSE）平均絕對誤差（MAE）

方差、標準差、均方差、均方誤差區別總結

均方誤差(MSE)

mse函式（均方誤差函式）

自適應濾波：最小均方誤差濾波器（LMS、NLMS）

【代價函式】MSE：均方誤差（L2 loss）

均方誤差究竟是怎麽來的?

相關推薦