1. 程式人生 > >線性迴歸與貝葉斯推理——漫談機器學習

線性迴歸與貝葉斯推理——漫談機器學習

1. 從觀察出發——迴歸問題

在統計學中,我們認為一個變數是服從某種理想分佈的,稱為理想變數。而為了獲得理想變數的值,我們需要去觀察這個世界,並得到觀察資料,稱為觀察變數。觀察變數與理想變數之間的函式關係被稱為觀察模型。

設觀察資料為xiRp,理想資料為yiR,觀察模型為線性模型

yi=xTiβ+ηi(1)
其中βRp為引數向量,ηiR是獨立同分布的隨機變數。在應用中,ηi代表觀察噪聲。且通常假定它服從正態(高斯)分佈:
ηiN(0,σ2)(2)

上面的觀察模型可以引出兩個問題:
1. 已知理想和觀察變數yi,xi,求模型引數β,σ。這被稱為引數估計(Paremeter Estimation)問題。
2. 已知觀察變數x

i和模型引數β,σ,求理想變數yi。這被稱為迴歸(Regression)問題。如果觀察模型是線性的,例如(1),則稱為線性迴歸問題。

迴歸的概念非常寬泛,它泛指研究一組變數和另一組變數之間的關係的統計分析方法。考慮變數和引數之間的對稱性,不難發現,引數估計也是迴歸問題。

2. 引數估計——也是迴歸問題

在統計學習中,引數估計是一個學習樣本所蘊含資訊的過程。而學習的結果,就是觀察模型(包括最優引數)。

2.1 從物理直觀出發

先考慮模型(1)下如何求解引數β。從物理直觀理解,引數β應該使得觀察變數xiyi應當充分接近。寫成數學表達,就是

minβiyixTiβ22(3)

寫成矩陣形式,就是
minβyXTβ22(4)
其中矩陣X=(x1,,xn), 向量y=(y1,,yn)T,而n為觀察次數。當資料維度pn並且觀察資料xi線性無關(線性相關的xi沒有資訊量,可以直接去掉),這就是經典的線性最小二乘問題,有唯一解。它的解可以通過對β求微分直接得到
β̂ =(XTX)1XTy(5)
其中(XTX)1XT稱為矩陣X的Moore-Penrose偽逆,記為X+

值得注意的是,當p>n,這是一個欠定問題。也就是說已知條件不足,沒有唯一解。如果非要求解,那麼必須引入新的資料假設,稱為先驗(Prior)。先驗來自對資料統計規律的抽象。這種加入先驗的過程有一個學術名稱:正則化(Regularization)。這種問題在應用中非常常見,在本文最後還會出現。

2.2 從貝葉斯推理的角度看

上面是從物理直觀出發求解引數估計問題,下面我們從貝葉斯推理的角度看同樣的問題。

貝葉斯推理的核心是三個概念:

  • 先驗。對應前面的觀察資料X(注意:不同於第1、3節先驗的概念)。
  • 條件概率。對應觀察模型。
  • 後驗(posterior)。對應理想資料y

貝葉斯三要素與前面說的觀察變數、觀察模型、理想變數是一致的。但是觀察模型是概率密度函式(p.d.f.)的形式:

p(y|X,β,σ2)(σ2)n/2exp(12σ2(yXβ)T(yXβ))(6)
這是一個略去了常數係數的多元高斯分佈的概率密度函式。也就是說,貝葉斯理論假設觀察變數X也是服從高斯分佈的(這個假設來自大數定律和中心極限定理),並且這個高斯分佈的均值向量為μ=Xβ,方差矩陣為