R語言-廣義線性模型

阿新 • • 發佈：2018-02-23

類別模型判斷 table height 函數 on() 手動 res

使用場景:結果變量是類別型,二值變量和多分類變量,不滿足正態分布

　　　　結果變量是計數型,並且他們的均值和方差都是相關的

解決方法:使用廣義線性模型,它包含費正太因變量的分析

1.Logistics回歸(因變量為類別型)

　　案例:匹配出發生婚外情的模型

　　1.查看數據集的統計信息

2 library(AER)
3 data(Affairs,package = ‘AER‘)
4 summary(Affairs)
5 table(Affairs$affairs)

技術分享圖片

　　結果:該數據從601位參與者收集了,婚外情次數,性別,年齡,結婚年限,是否有孩子,宗教信仰,教育背景,職業,婚姻的自我評價這9個變量

　　　　結果變量是婚外情發生的次數72%的夫妻沒有婚外情,最多的是一年中每月都有婚外情占6%

　　2.將結果值轉換為二值型因子

1 Affairs$ynaffair[Affairs$affairs > 0] <- 1
2 Affairs$ynaffair[Affairs$affairs == 0] <- 0
3 Affairs$ynaffair <- factor(Affairs$ynaffair, 
4                            levels=c(0,1),
5                            labels=c("No" 
,"Yes"))
6 table(Affairs$ynaffair)

技術分享圖片

　　3.將該因子作為二值型變量的結果變量

1 fit.full <- glm(ynaffair ~ gender + age + yearsmarried + children + 
2                   religiousness + education + occupation +rating,
3                 data=Affairs,family=binomial())
4 summary(fit.full)

技術分享圖片

　　結果:性別,是否有孩子,學歷和職業對模型不顯著,去除後進行分析

1 fit.reduced <- glm(ynaffair ~ age + yearsmarried + religiousness + 
2                      rating, data=Affairs, family=binomial())
3 summary(fit.reduced)

　　3.使用卡方檢驗來判斷比較

1 anova(fit.reduced,fit.full,test = ‘Chisq‘)

技術分享圖片

　　結果:p=0.21,表示新模型的擬合更好

　　4.解釋模型參數

1 coef(fit.reduced)
2 exp(coef(fit.reduced))

技術分享圖片

　　結果:婚齡每增加1歲,婚外情發生的可能性將乘以1.106,相反年齡增加1歲,婚外情發生的可能性乘以0.9652

　　5.評價婚姻評分對婚外情的影響

1 # 1.手動生成數據集
2 # 2.使用predict函數來進行預測
3 testdata <- data.frame(rating=c(1,2,3,4,5),age=mean(Affairs$age),
4                        yearsmarried=mean(Affairs$yearsmarried),
5                        religiousness=mean(Affairs$religiousness))
6 testdata
7 testdata$prob <- predict(fit.reduced,newdata = testdata,type=‘response‘)
8 testdata

技術分享圖片

　　結果:當婚姻評分從1(很不幸)變成5(很幸福)的時候,婚外情發生的概率從0.53降低到0.15

　　6.評價年齡對婚外情的影響

1 testdata <- data.frame(rating=mean(Affairs$rating),
2                        age=seq(17,57,10),
3                        yearsmarried=mean(Affairs$yearsmarried),
4                        religiousness=mean(Affairs$religiousness))
5 testdata$prob <- predict(fit.reduced,newdata = testdata,type=‘response‘)
6 testdata

技術分享圖片

　　結果:當其他變量不變時,年齡從17到57歲,婚外情的概率從0.34降低到0.11

　　7.判斷是否過度離勢

　　　　過度離勢會導致標準誤檢驗和不精確的顯著性檢驗,此時任然可以使用gml()擬合擬合Logistics回歸,但是把二項分布改為類二項分布

1 # 如果結果接近1,表示沒有過度離勢
2 deviance(fit.reduced)/df.residual(fit.reduced)

　　技術分享圖片

　　結果:沒有過度離勢

2.泊松回歸(因變量為計數型)

　　使用場景:通過一系列連續型或類別型預測變量來預測計數型結果變量時采用泊松分布

　　案例:藥物治療是否能減小癲癇的發病數

　　1.查看數據集

1 data(breslow.dat,package = ‘robust‘)
2 names(breslow.dat)
3 summary(breslow.dat[c(6,7,8,10)])

技術分享圖片

　　結果:我們分析年齡,治療條件,前八周的發病次數和隨機化後八周內的發病次數的關系,所以只采用4個變量

　　2.圖形

1 opar <- par(no.readonly = T)
2 par(mfrow=c(1,2))
3 attach(breslow.dat)
4 hist(sumY,breaks = 20,xlab = ‘Seizure Count‘,main = ‘Distribution of Sizeture‘)
5 boxplot(sumY~Trt,xlab=‘Treatment‘,main=‘Group Comparisons‘)
6 par(opar)

技術分享圖片

　　結果:可以看出使用藥物的組,癲癇的發病率有所減少

　　3.擬合泊松回歸

1 fit <- glm(sumY~Base+Age+Trt,data = breslow.dat,family = poisson())
2 summary(fit)

技術分享圖片

　　結果:偏差,回歸參數,標準誤差和參數為0的檢驗

　　4.解釋模型參數

1 coef(fit)
2 exp(coef(fit))

技術分享圖片

　　結果:年齡每增加1歲,癲癇的發病數將乘以1.023,如果從安慰劑組調到藥物組,則發病率會減少14%

　　5.判斷是否過度離勢

1 deviance(fit)/df.residual(fit)

技術分享圖片

　　結果:大於1,存在過度離勢

　　6.調整模型

1 fit.new <- glm(sumY~Base+Age+Trt,data = breslow.dat,family = quasipoisson())
2 summary(fit.new)

技術分享圖片

　　結果:標準誤差和第一次模型相比,大了許多,同時標準誤差越大會導致Trt的p值大於0.05,所以並沒有充分的證據表明藥物治療相對於使用安慰劑能夠降低癲癇的發病次數

R語言-廣義線性模型

類別模型判斷 table height 函數 on() 手動 res 使用場景:結果變量是類別型,二值變量和多分類變量,不滿足正態分布　　　　結果變量是計數型,並且他們的均值和方差都是相關的解決方法:使用廣義線性模型,它包含費正太因變量的分析 1.Logisti

R語言學習筆記（十一）：廣義線性模型

學習筆記 Education 5.0 1.3 style only 可能性 div erro #Logistic 回歸 install.packages("AER") data(Affairs,package="AER") summary(Affairs) a

R 語言之資料分析高階方法「GLM 廣義線性模型」

R語言解決Lasso問題----glmnet包（廣義線性模型）

Lasso迴歸複雜度調整的程度由引數lambda來控制，lambda越大模型複雜度的懲罰力度越大，從而獲得一個較少變數的模型。Lasso迴歸和bridge迴歸都是Elastic Net

R迴歸診斷廣義線性模型非線性模型

迴歸診斷樣本是否符合正態分佈假設？是否存在離群值導致模型產生較大誤差？線性模型是否合理？誤差是否滿足獨立性、等方差、正態分佈等假設條件？是否存在多重共線性？正態分佈檢驗正態性檢驗:函式shapiro.test()P>0.05,正態性分佈 0.05的p值通

廣義線性模型2

nor alt 能夠 ever ... mat rcv shape dwt 1.1.2 Ridge Regression（嶺回歸）嶺回歸和普通最小二乘法回歸的一個重要差別是前者對系數模的平方進行了限制。例如以下所看到的： In [1]: from sklearn im

R語言——一元線性回歸

tro 8.0 出現本質距離 -128 call 什麽同時 1 一元線性回歸高爾頓被譽為現代回歸的創始人，"回歸效應"的發現源於高爾頓的豌豆遺傳試驗。在這個試驗中，高爾頓發現，並非尺寸大的豌豆，其後代尺寸也大，尺寸小的豌豆，其後代尺寸也小。而是具有一種不同的趨勢，即

廣義線性模型 - Andrew Ng機器學習公開課筆記1.6

sans luci art 能夠 tro ron 便是 import grand 在分類問題中我們如果：他們都是廣義線性模型中的一個樣例，在理解廣義線性模型之前須要先理解指數分布族。指數分

廣義線性模型的理解

選擇現象 one 世界 logistic 是什麽 times 自己取值世界中（大部分的）各種現象背後，都存在著可以解釋這些現象的規律。機器學習要做的，就是通過訓練模型，發現數據背後隱藏的規律，從而對新的數據做出合理的判斷。雖然機器學習能夠自動地幫我們完成很多事情（

R語言的ARIMA模型預測

差分 stats ima 通過數據 odbc 序列預測 cas R通過RODBC連接數據庫 stats包中的st函數建立時間序列 funitRoot包中的unitrootTest函數檢驗單位根 forecast包中的函數進行預測差分用timeSeries包中diff

不知道怎麽改的尷尬R語言的ARIMA模型預測

ted error err ren -a like res rar emd 數據還有很多沒弄好，程序還沒弄完全好。 > read.xlsx("H:/ProjectPaper/論文/1.xlsx","Sheet1") > item<- read.xl

分類和邏輯回歸(Classification and logistic regression)，廣義線性模型(Generalized Linear Models) ，生成學習算法(Generative Learning algorithms)

line learning nbsp ear 回歸 logs http zdb del 分類和邏輯回歸(Classification and logistic regression) http://www.cnblogs.com/czdbest/p/5768467.html

R語言-廣義線性模型

R語言-廣義線性模型

R語言學習筆記（十一）：廣義線性模型

R 語言之資料分析高階方法「GLM 廣義線性模型」

R語言解決Lasso問題----glmnet包（廣義線性模型）

R迴歸診斷廣義線性模型非線性模型

廣義線性模型2

R語言——一元線性回歸

廣義線性模型 - Andrew Ng機器學習公開課筆記1.6

廣義線性模型的理解

R語言的ARIMA模型預測

不知道怎麽改的尷尬R語言的ARIMA模型預測

分類和邏輯回歸(Classification and logistic regression)，廣義線性模型(Generalized Linear Models) ，生成學習算法(Generative Learning algorithms)

線性迴歸_邏輯迴歸_廣義線性模型_斯坦福CS229_學習筆記

深度學習基礎--loss與啟用函式--廣義線性模型與各種各樣的啟用函式(配圖)

廣義線性模型（Generalized Linear Models）

廣義線性模型與指數分佈族的理解

python 機器學習 sklearn 廣義線性模型

機器學習cs229——（三）區域性加權迴歸、邏輯迴歸、感知器、牛頓方法、廣義線性模型

資料學習(2)·廣義線性模型

R語言︱LDA主題模型——最優主題數選取(topicmodels)+LDAvis視覺化(lda+LDAvis)

R語言-廣義線性模型

相關推薦