多元相關分析與多元迴歸分析
目錄
變數間的關係分析
變數間的關係有兩類,一類是變數間存在著完全確定的關係,稱為函式關係,另一類是變數間的關係不存在完全的確定性,不能用精缺的數學公式表示,但變數間存在十分密切的關係,這種稱為相關關係
相關變數間的關係有兩種:一種是平行關係,即兩個或兩個以上變數相互影響。另一種是依存關係,即是一個變數的變化受到另一個或多個變數的影響。相關分析是研究呈平行關係的相關變數之間的關係。而迴歸分析是研究呈依存關係的相關變數間的關係。表示原因的變數稱為自變數-independent variable,表示結果的變數稱為因變數-dependent variable。
什麼是相關分析
通過計算變數間的相關係數來判斷兩個變數的相關程度及正負相關。
什麼是迴歸分析
通過研究變數的依存關係,將變數分為因變數和自變數,並確定自變數和因變數的具體關係方程式
分析步驟
建立模型、求解引數、對模型進行檢驗
迴歸分析與相關分析的主要區別
1.在迴歸分析中,解釋變數稱為自變數,被解釋變數稱為因變數,相關分析中,並不區分自變數和因變數,各變數處於平的地位。--(自變數就是自己會變得變數,因變數是因為別人改變的)
2.在相關分析中所涉及的變數全部是隨機變數,在迴歸分析中只有只有因變數是隨機變數。
3.相關分析研究主要是為刻畫兩類變數間的線性相關的密切程度,而回歸分析不僅可以揭示自變數對因變數的影響大小,還可以由迴歸方程進行預測和控制。
一元線性相關分析
線性相關分析是用相關係數來表示兩個變數間相互的線性關係,總體相關係數的計算公式為:
δ^2x代表x的總體方差, δ^2y代表y的總體方差,δxy代表x變數與y變數的協方差,相關係數ρ沒有單位,在-1到1之間波動,絕對值越接近1越相關,符號代表正相關或複相關。
一元線性迴歸分析
使用自變數與因變數繪製散點圖,如果大致呈直線型,則可以擬合一條直線方程
建模
直線模型為:
y是因變數y的估計值,x為自變數的實際值,a、b為待估值
幾何意義:a是直線方程的截距,b是迴歸係數
經濟意義:a是x=0時y的估計值,b是迴歸係數
對於上圖來說,x與y有直線的趨勢,但並不是一一對應的,y與迴歸方程上的點的差距成為估計誤差或殘差,殘差越小,方程愈加理想。
當誤差的平方和最小時,即Q,a和b最合適
對Q求關於a和b的偏導數,並令其分別等於零,可得:
式中,lxx表示x的離差平方和,lxy表示x與y的離差積和。
方差分析檢驗
將因變數y實測值的離均差平方和分成兩部分即使:
分為:
實測值yi扣除了x對y的線性影響後剩下的變異
和x對y的線性影響,簡稱為迴歸評方或迴歸貢獻
然後證明:
t檢驗
當β成立時,樣本回歸係數b服從正態分佈,這是可以使用T檢驗判斷是否有數學意義,檢驗所用統計量為
例如t=10,那麼可以判斷α=0.05水平處拒絕H0,接受H1,那麼x與y存在迴歸關係
多元迴歸分析模型建立
一個因變數與多個自變數間的線性數量關係可以用多元線性迴歸方程來表示
b0是方程中的常數項,bi,i=1,2,3稱為偏回歸係數。
當我們得到N組觀測資料時,模型可表示為:
其矩陣為:
X為設計陣,β為迴歸係數向量。
線性迴歸模型基本假設
在建立線性迴歸模型前,需要對模型做一些假定,經典線性迴歸模型的基本假設前提為:
1.解釋變數一般來說是非隨機變數
2.誤差等方差及不相關假定(G-M條件)
3.誤差正太分佈的假定條件為:
4. n>p,即是要求樣本容量個數多於解釋變數的個數
多元迴歸分析用途
1.描述解釋現象,希望迴歸方程中的自變數儘可能少一些
2.用於預測,希望預測的均方誤差較小
3.用於控制,希望各個迴歸係數具有較小的方差和均方誤差
變數太多,容易引起以下四個問題:
1.增加了模型的複雜度
2.計算量增大
3.估計和預測的精度下降
4.模型應用費用增加
多元線性相關分析
兩個變數間的關係稱為簡單相關,多個變數稱為偏相關或複相關
矩陣相關分析
設n個樣本的資料矩陣為:
此時任意兩個變數間的相關係數構成的矩陣為:
其中rij為任意兩個變數之間的簡單相關係數,即是:
複相關分析
係數計算:
設y與x1,x2,....,迴歸模型為
y與x1,x2,....做相關分析就是對y於y^做相關分析,相關係數計算公式為
曲線迴歸模型
多項式曲線
二次函式
y=a+bx+cx^2
對數函式
y=a+blogx
指數函式
y = ae^bx或y = ae^(b/x)
冪函式
y=ax^b (a>0)
雙曲線函式
y = a+b/x
實戰操作見下一篇文章