1. 程式人生 > 實用技巧 >迴歸分析

迴歸分析

基本概念

變數之間的非嚴格函式關係: 變數x、y之間存在某種密切的聯絡,但並非嚴格的函式關係(非確定性關係)。
迴歸: 迴歸是處理兩個或兩個以上變數之間互相依賴的定量關係的一種統計方法和技術,變數之間的關係並非確定的函式關係,通過一定的概率分佈來描述。
線性和非線性: 線性(Linear)的嚴格定義是一種對映關係,其對映關係滿足可加性和齊次性。通俗來講就是兩個變數存在一次方函式關係,在平面座標系中表現為一條直線。不滿足線性即為非線性(non-linear)。
線性迴歸(Linear Regression): 在迴歸分析中,如果自變數和因變數之間存在著線性關係,則被稱作線性迴歸。如果只有一個因變數和一個自變數,則被稱作一元線性迴歸,如果有一個因變數和多個自變數,則被稱作多元迴歸。

迴歸模型的基本前置假設

零均值:隨機誤差項均值為0,保證未考慮的因素對被解釋變數沒有系統性的影響。
同方差:隨機誤差項方差相同,在給定x的情況下,隨機誤差的條件方差為某個常數。
無自相關:兩個隨機誤差之間不相關。
正態分佈:隨機誤差符合正態分佈。
解釋變數x1、x2、x3、… 、xn是非隨機變數,其觀測值是常數。
解釋變數之間不存在精確的線性關係。
樣本個數要多於解釋變數的個數。

建立迴歸模型的流程

需求分析,明確變數

  瞭解相關需求,明確場景,清楚需要解釋的指標(因變數),並根據相關業務知識選取與之有關的變數作為解釋變數(自變數)。

資料收集加工

  根據上一步分析得到的解釋變數,去收集相關的資料(時序資料、截面資料等),對得到的資料進行清洗、加工,並根據資料情況調整解釋變數,並判斷是否滿足基本假設。

確定迴歸模型

  瞭解資料集,使用繪圖工具繪製變數樣本散點圖或使用其他分析工具分析變數的關係,根據結果選擇迴歸模型,如:線性迴歸模型、指數形式的迴歸模型等。

模型引數估計

  模型確定後,基於收集、整理的樣本資料,估計模型中的相關引數。最常用的方法是最小二乘法(最小平方法),在不滿足基本假設的情況下還會採取嶺迴歸、主成分迴歸、偏最小二乘法等。
  最小二乘法:也叫最小平方法,通過最小化誤差的平方和尋找資料的最佳函式匹配的方法。

模型檢驗優化

  引數確定後,得到模型。此時需要對模型進行統計意義上的檢驗,包括對迴歸方程的顯著性檢驗、迴歸係數的顯著性檢驗、擬合優度檢驗、異方差檢驗、多重共線性檢驗等。還需要結合實際場景,判斷該模型是否具有實際意義。

模型部署應用

  模型檢驗通過後,可以使用模型進行相關的分析、應用,包括因素分析、控制、預測等。
        變數關係:確定幾個特定變數之間是否存在相關關係,如果存在的話,找出它們之間合適的數學表示式。
        因素分析:迴歸模型對解釋變數和被解釋變數之間的關係進行了度量,從各個解釋變數的係數可以發現各因素對最終結果的影響大小。
        控制:給定被解釋變數的值,根據模型來控制解釋變數的值。
        預測:根據迴歸模型,可以基於已知的一個或多個變數預測另一個變數的取值,並可以瞭解這個取值精確到什麼程度。

總結:首先確定要進行的預測的因變數,然後集中於說明變數,進行多元迴歸分析。多元迴歸分析將給出因變數與說明變數當之間的關係、這一關係最後以公式(模型)形式給出,通過他預測因變數的未來值。
迴歸分析可以分為線性迴歸分析和邏輯迴歸分析

線性迴歸

簡單線性迴歸

  線性迴歸中,如果只有一個自變數和因變數,且關係大致上可以用一條直線表示,稱之為簡單線性迴歸分析

如果自變數和因變數存在高度正相關,則是一條直線方程,使得所有資料點儘可能接觸這條擬合的直線,該模型可以用以下方程表示:

Y = a + bX

多元線性迴歸分析

  只是簡單線性迴歸的推廣,指的是多個因變數對多個自變數的迴歸分析。最常見的是隻限於一個因變數但是有多個自變數的情況,也叫多重回歸分析。

多重回歸分析的一般形式如下:
Y = a + b1X1 + …… + bnXn

非線性迴歸分析

  對於線性迴歸分析,變數間的關係呈曲線關係,無法用線性函式表示自變數和因變數之間的關係,而需要用非線性函式表示。

資料探勘中經常使用的一些非線性迴歸模型列出如下:

漸進線性迴歸模型: 我不會寫公式,所以這裡先空著(ΘдΘ;)
二次曲線模型: 同上
雙曲線模型: 還是同上……

  因為許多非線性模型是等價的,所以模型的引數化不唯一,這導致非線性模型的擬合和解釋相比線性模型複雜得多,因此,需要有方法來估算迴歸引數,線上性迴歸分析中估算迴歸方式的最通用的方法就是最小二乘法。

接下來,給出例子分別實現一元和多元線性迴歸:

實現一元線性迴歸

  這個星期事情太多了還沒做完……

(ΘдΘ;)

實現多元線性迴歸

  這個星期事情太多了還是沒做完………………

(ಥ_ಥ)

邏輯迴歸

  在補了在補了!!!孩子這個星期抄報告快抄傻了……    

o(╥﹏╥)o

迴歸模型的特點

迴歸模型在很多領域都有廣泛的應用,具有以下優點:
模型簡單,建模和應用都比較容易
有堅實的統計理論支撐
定量分析各變數之間的關係
模型預測結果可以通過誤差分析精確瞭解
存在的缺點:
假設條件比較多且相對嚴格
變數選擇對模型影響較大

所以其實線性迴歸實際中不咋用到,因為條件非常苛刻,要求資料量大,關係非常明確,有明顯的相性,而且模型本身也比較簡單,不復雜嗎,適合用來做學習入門…………hehe