1. 程式人生 > >邏輯迴歸(logistic regression)和線性迴歸(linear regression)

邏輯迴歸(logistic regression)和線性迴歸(linear regression)

序號 邏輯迴歸 線性迴歸
模型歸類 離散選擇法模型 迴歸分析
數值型別 二元 一元或多元
公式 P(Y=1│X=x)=exp(x'β)/(1+exp(x'β))

邏輯迴歸

Logit模型(Logit model,也譯作“評定模型”,“分類評定模型”,又作Logistic regression,“邏輯迴歸”)是離散選擇法模型之一,Logit模型是最早的離散選擇模型,也是目前應用最廣的模型。是社會學、生物統計學、臨床、數量心理學、計量經濟學、市場營銷等統計實證分析的常用方法。

Logit模型的應用廣泛性的原因主要是因為其概率表示式的顯性特點,模型的求解速度快,應用方便。當模型選擇集沒有發生變化,而僅僅是當各變數的水平發生變化時(如出行時間發生變化),可以方便的求解各選擇枝在新環境下的各選擇枝的被選概率。根據Logit模型的IIA特性,選擇枝的減少或者增加不影響其他各選擇之間被選概率比值的大小,因此,可以直接將需要去掉的選擇枝從模型中去掉,也可將新加入的選擇枝新增到模型中直接用於預測。 Logit模型這種應用的方便性是其他模型所不具有的,也是模型被廣泛應用的主原因之一。

線性迴歸

線性迴歸是利用數理統計中的迴歸分析,來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。分析按照自變數和因變數之間的關係型別,可分為線性迴歸分析和非線性迴歸分析。

在統計學中,線性迴歸(Linear Regression)是利用稱為線性迴歸方程的最小平方函式對一個或多個自變數和因變數之間關係進行建模的一種迴歸分析。這種函式是一個或多個稱為迴歸係數的模型引數的線性組合。只有一個自變數的情況稱為簡單迴歸,大於一個自變數情況的叫做多元迴歸。(這反過來又應當由多個相關的因變數預測的多元線性迴歸區別,[引文需要],而不是一個單一的標量變數。)
迴歸分析中,只包括一個自變數和一個因變數,且二者的關係可用一條直線近似表示,這種迴歸分析稱為一元線性迴歸分析。如果迴歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關係,則稱為多元線性迴歸分析。
線上性迴歸中,資料使用線性預測函式來建模,並且未知的模型引數也是通過資料來估計。這些模型被叫做線性模型。最常用的線性迴歸建模是給定X值的y的條件均值是X的仿射函式。不太一般的情況,線性迴歸模型可以是一箇中位數或一些其他的給定X的條件下y的條件分佈的分位數作為X的線性函式表示。像所有形式的迴歸分析一樣,線性迴歸也把焦點放在給定X值的y的條件概率分佈,而不是X和y的聯合概率分佈(多元分析領域)。
線性迴歸是迴歸分析中第一種經過嚴格研究並在實際應用中廣泛使用的型別。這是因為線性依賴於其未知引數的模型比非線性依賴於其位置引數的模型更容易擬合,而且產生的估計的統計特性也更容易確定。
線性迴歸有很多實際用途。分為以下兩大類:

    如果目標是預測或者對映,線性迴歸可以用來對觀測資料集的和X的值擬合出一個預測模型。當完成這樣一個模型以後,對於一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預測出一個y值。
    給定一個變數y和一些變數X1,...,Xp,這些變數有可能與y相關,線性迴歸分析可以用來量化y與Xj之間相關性的強度,評估出與y不相關的Xj,並識別出哪些Xj的子集包含了關於y的冗餘資訊。

線性迴歸模型經常用最小二乘逼近來擬合,但他們也可能用別的方法來擬合,比如用最小化“擬合缺陷”在一些其他規範裡(比如最小絕對誤差迴歸),或者在橋迴歸中最小化最小二乘損失函式的懲罰.相反,最小二乘逼近可以用來擬合那些非線性的模型.因此,儘管“最小二乘法”和“線性模型”是緊密相連的,但他們是不能劃等號的。