指數分佈族 和 廣義線性模型
本節主要是我看了網易公開課上的Andrew Ng的機器學習公開課第四節所做的筆記加上自己的一些整理,將它發上來供參考,由於水平有限,可能有錯誤。
這節視訊中,Andrew Ng主要講了三個方面,分別是牛頓法,指數分佈家族和廣義線性迴歸(GLMS)。
本節介紹的指數分佈函式主要是為廣義線性迴歸所服務的。廣義線性迴歸對迴歸值是隨機變數(這主要是因為誤差導致實際值y是隨機變數)的情況下的建模提供了一種可行的建模方式。我認為,廣義線性模型一個重要的應用就是對迴歸值是隨機變數情況對迴歸值進行建模。
一 牛頓法
牛頓法與梯度法一樣,是一種常見的迭代優化方法。牛頓法在接近收斂值時呈指數收斂,表現性質很優良,但是在遠離收斂值的地方則收斂慢甚至不收斂。在二維矩陣下用Hessian矩陣的逆與梯度的乘積做變化步長。關於Hessian矩陣的理解,網上有很多,它也不是本節重點,這裡不贅述了。
二 指數分佈
指數分佈家族是定義的一組分散式,伯努利分佈及高斯分佈等分佈都可以看做指數分佈的特殊形式。指數分佈的公式如下:
p(y;η)=b(y)exp(ηTT(y)−a(η));
p(y;η) 表示y在η 下概率,但是它不是條件概率,因為η 不是隨機變數。而對於ηT 我認為是轉置的意思。上式還表示為:
p(y;η)=1Z(η)b(y)exp(ηTT(y)),其中a(η)=logZ(η)
- 指數家族是唯一的充分統計量是有限大小的分佈家族
- 指數家族是唯一存在共軛先驗的分佈家族
- 指數家族為認為選定限制下作的假設最少的分佈家族
- 指數家族是廣義線性模型的核心內容
- 指數家族是變分推斷(variational inference)的核心內容
下面,帶入兩個具體的例子(伯努利分佈和高斯分佈)
1.伯努利分佈
首先,我們假設
p (y;ϕ)=ϕy(1−ϕ)(1−y)=exp[ylnϕ+(1−y)ln(1−ϕ)]=exp[ylnϕ1−ϕ+ln(1−ϕ)]其中從定義來講y=0||y=1(因為伯努利分布)
那麼我們做下列轉化
令η=lnϕ(1−ϕ),ϕ=11+e−η 自然引數和均值引數之間的轉化正好滿足sigmoid函式b(y)=1T(y)=ya(η)=−ln(1−ϕ)=−ln11+eη
最後,可以得到例子是:
p(y;η)=exp[ηy−ln11+eη]
2.高斯分佈
由於方差對我們最終選擇的
p(y;μ)=1