機器學習之線性迴歸極大似然估計法
leboop文章,禁止轉載!
請閱讀《機器學習之矩陣微積分及其性質》和《機器學習之線性迴歸公式推導》。首先我們還是使用如下的資料:
feature_1 | feature_2 | feature_n | value | ||
1 | ... | ||||
2 | ... | ||||
. . . |
. . . |
. . . |
. . . |
. . . |
|
m | ... |
假設現在和特徵之間不再是簡單的線性組合,除了線性關係外,還存在一種噪聲,數學表述如下: ,其中服從期望為0,方差為的正態分佈,即.
因為對於來說是常量,如果和之間相互獨立,那麼也是一個隨機變數,且服從正態分佈,又因為的期望和方差:
所以服從的是期望為,方差為的一個正態分佈,即。
將次獲得的資料代入,有。也就是說每一次獲得的資料服從正態分佈,那麼肯定有人會問,那表格中的是什麼?應該這樣來理解:是一個服從正態分佈的隨機變數,而表中的只是一次觀察值,而該次觀測值為的概率
(正態分佈密度函式:)
按照《機器學習之線性迴歸公式推導》一文中符號約定:
記個數據矩陣:
,
真實值:
,
預測值:
,
係數:
,
考慮到之間是相互獨立的,所以m個觀測值取值為的概率為
.
注意到是關於和的函式。直覺告訴我們,使取最大值的和應該是我們需要的,從概率統計角度來說,滿足取最大值的和會使我們的觀測資料等於的概率最大,獲得像表格這樣的資料具有更大的可能性。所以優化問題變為:
現在我們就來求解這個優化問題。
,
兩邊取對數,有
所以優化問題等價於,根據《機器學習之線性迴歸公式推導》,我們得到的估計值為
這個結果與我們未引入噪聲項是一樣的,但是請注意,這裡只是的一個估計值。實際上它是一個由隨機變數組成的向量。因為
,限於CSDN無法用黑體表示向量,暫且記住是一個向量,
所以確實是一個隨機變數,因為這裡涉及到比較複雜的概率論知識,暫且不詳細討論。
優化只需要對求偏導,所以
可以求得的估計值
再次提醒:這裡和都是隨機變數,其中是由隨機變數組成的隨機向量。