1. 程式人生 > >伍德里奇計量經濟學導論之計算機操作題的R語言實現(一些重要專題)

伍德里奇計量經濟學導論之計算機操作題的R語言實現(一些重要專題)

引言

本章內容介紹了多元線性迴歸一些好玩且實用的專題:

  1. 改變自變數(因變數(對數自變數)當度量單位對因變數(自變數)、係數、t值、F值等的影響
  2. 自變數和因變數標準化以後B係數的解釋
  3. 對數-水平模型下,B係數當精確解讀以及二次模型來表明邊際遞增或遞減當情況
  4. 調整的R方的好處以及缺點(這個倒是第一次見識)
  5. 構造估計值和預測值的一個置信區間
  6. 殘差分析

本文程式碼和整理好的資料見這裡
此篇部落格開始,每一題上方都會來個小標題,表明該題涉及到當重要技術細節,以供參考。

C6.1 二次項模型的加入以及解釋

data_kielmc<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/kielmc.csv'
,header = T) lm_kielmc<-lm(log(Price)~log(dist),data=data_kielmc) #預期 垃圾焚化爐離住房越遠,價格越高,係數符號應為正。 summary(lm_kielmc) #log(Price)=8.25750+0.31722 log(dist) #距離相隔每增加百分之一,平均來說,價格變每上升0.31% #(2) lm_kielmc_1<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age,data=data_kielmc) summary(lm_kielmc_1) ## 係數從0.31722減小到0.0281887 ,因為增加了更多了更多變數來解釋價格當變化,焚化爐距離遠近對價格影響效應減弱。
#(3) lm_kielmc_2<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age+I((log(intst))^2),data=data_kielmc) summary(lm_kielmc_2) #log(Price)=-3.7907630+0.1897589log(dist)+ 1.9024997log(intst) -0.1128430I((log(intst))^2)... #加入log(intst)的二次項以後log(intst)一次項係數變得統計顯著了,二次項係數也是統計顯著的。 #在此估計模型下,住房價格與離告訴公路當距離呈現倒U型關係,在剛開始時距離越大價格越大,但是到達
#一個臨界點以後,這個距離是-1.9024997/(2*-0.1128430)=8.429853 #從實際生活中也可以解釋,住房在剛開始離得遠時,遠離告訴公路帶來當噪聲,但是遠離太多時,交通就不方便了,因此價格就下降了 #(4) lm_kielmc_3<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age+I((log(intst))^2)+I((log(dist))^2),data=data_kielmc) summary(lm_kielmc_3) ##加入以後log(dist)以及(log(dist))^2都是不顯著的,並沒有使模型有更好 解釋效果,所以不加入為好。

C6.2二次項係數對因變數的解釋

data_wage1<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/wage1.csv',header = T)
#(1)
lm_wage1<-lm(log(wage)~educ+exper+I(exper^2),data=data_wage1)
summary(lm_wage1)
#log(wage)=0.1279975+0.0903658educ+0.0410089 exper-0.0007136I(exper^2)
#Adjusted R-squared:  0.2963 n=526
#(2)
#在給定1%的顯著性水平下,exper^2係數P值為1.42e-09,小於顯著性水平,因此認為該項變數顯著
#(3)當在第四年時
(0.0410089-2*0.0007136*4)*1*100
# 第五年的近似回報為3.53%
#當在第19年時,
(0.0410089-2*0.0007136*19)*1*100
#回報下降到1.38921%
#(4)
#求解 0.0410089-2*0.0007136*n=0
0.0410089/(2*0.0007136)
#29年以後會降低工作預期
length(which(data_wage1[,'exper']>29))#111個大於29年的

C6.3二次項係數的置信區間


#(1)
#對educ求導易得導數為B1+B3exper
#(2)
#教育的回報不取決exper意味著B3=0,則對立假設:在給定教育年限的情況下,B3>0
#(3)
data_wage2<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/wage2.csv',header = T)
lm_wage2<-lm(log(wage)~educ+exper+educ:exper,data=data_wage2)
summary(lm_wage2)
#給定5%的顯著性水平,B3的t值對應的P值為0.0365小於0.05,因此拒絕原假設,認為教育的回報取決於經驗。
newvar<-(10*data_wage2$educ-data_wage2$educ*data_wage2$exper)
lm_wage2_1<-lm(log(wage)~educ+exper+newvar,data=data_wage2)
summary(lm_wage2_1)
confint(lm_wage2_1,'educ')
#置信區間是[0.06309736 0.08906172]

C6.4 二次項的最優值

data_gpa2<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/gpa2.csv',header = T)
#(1)
lm_gpa2<-lm(sat~hsize+I(hsize^2),data=data_gpa2)
summary(lm_gpa2)
#sat= 997.981+19.814hsize-2.131I(hsize^2)
#Adjusted R-squared:  0.007169 n=4137
#由於二次項係數t值對應的P值小於0.001,所以該變數是統計顯著的
#(2)
#最優規模在模型的最大值處取到,該值為-19.814/(2*-2.131)*100
#最優規模為464.8991
#(3)
#從調整的R方來看,該模型只解釋了學術成績變異的0.7%,這個解釋較小,所以不是最優代表
#(4)
lm_gpa2_1<-lm(log(sat)~hsize+I(hsize^2),data=data_gpa2)
summary(lm_gpa2_1)
#sat= 6.8960291 +0.0196029hsize-0.0020872I(hsize^2)
##最優規模在模型的最大值處取到,該值為-0.0196029/(2*-0.0020872)*100
#最優規模為469.598
#兩者結論差異不大

未完待續。(抱歉,最近較忙,後期有時間再補上)