GLM(廣義線性模型) 與 LR(邏輯迴歸) 詳解
GLM 廣義線性模型
George Box said: “All models are wrong, some are useful”
1. 始於 Linear Model
作為 GLM 的基礎,本節 review 經典的 Linear Regression,並闡述一些基礎 term。
我們線性迴歸的基本如下述公式,本質上是想通過觀察
1.1 dependent variable y
這是我們的預測目標,也稱 response variable。這裡有一個容易混淆的點,實際上
- distribution;抽象地討論 response variable 時,我們實際上關注對於給定資料和引數時,
y|x,w 服從的分佈。Linear Regression 的y 服從高斯分佈,具體取值是實數,但這裡我們關注的是分佈。 - observed outcome;我們的 label,有時用
t 區分表示;這是真正觀察到的結果,只是一個值。 - expected outcome;
y=E[y|x]=h(x) 表示模型的預測;注意y 實際上服從一個分佈,但預測結果是整個分佈的均值μ ,只是一個值。
1.2 independent variable x
這是我們的特徵,可以包含很多維度,一個特徵也稱為一個 predictor。
1.3 hypothesis h(x)
線性模型的假設非常簡單,即
深入來看,各個維度特徵(predictor)
2. 推廣到 Generalized Linear Model
2.1 Motive & Definition
線性模型有著非常強的侷限,即 response variable
y 的取值範圍和一些常見問題不匹配。例如 count(遊客人數統計恆為正)以及 binary(某個二分類問題)y 的方差是常數 constant。有些問題上方差可能依賴y 的均值,例如我預測目標值越大方也越大(預測越不精確)
所以這時我們使用 Generalized Linear Model 來克服這倆個問題。
一句話定義 GLM 即(from wiki):
In statistics, the generalized linear model (GLM) is a flexible generalization of ordinary linear regression that allows for response variables that have error distribution models other than a normal distribution.
詳細來說,我們可以把 GLM 分解為 Random Component、System Component 和 Link Function 三個部分。
2.2 Random Component
An exponential family model for the response
這裡是指 response variable 必須服從某一 exponential family distribution 指數族分佈,即
例如 linear regression 服從 Gaussian 高斯分佈,logistic regression 服從 Bernoulli 伯努利分佈。指數族還有很多分佈如 多項分佈、拉普拉斯分佈、泊松分佈等等。
另外,這也可以被稱為 Error Structure : error distribution model for the response。對於 Gaussian 的 residual 殘差
2.3 Systematic Component
linear predictor
廣義線性模型 GLM 本質上還是線性模型,我們推廣的只是 response variable
注意,GLM 的一個較強的假設是
2.4 Link Function
A link function connects the mean of the response to the linear predictor
通過上述的 Random Component 和 Systematic Component,我們已經把
link function 建立了response variable 分佈均值(實際就是我們的預測目標) 和 linear predictor 的關係(準確來說,這隻在
最後要強調的是,link function 的反函式
2.5 Contrast between LM & GLM
- linear predictor
η=wTx
Linear Regression
- response variable
y∼N(η,σ2e) - link function
η=g(μ)=μ , called identity - prediction
h(x)=E[y|x,w]=μ=g−1(η)=μ
Generalized Linear Model
- response variable
y∼exponentialfamily - link function
g(μ) , eg. logit for Bernoulli - prediction
h(x)=E[y|x,w]=μ=g−1(η) , eg.logistic for Bernoulli
這裡再次強調了他們 linear predictor 的部分是一致的;不過對 response variable 服從分佈的假設不一致。Gaussian 的 response function 是
額外強調一個點,無論是 LM 還是 GLM,我們對不同資料