多元相關分析與迴歸分析R 實踐

阿新 • • 發佈：2018-12-27

相關變數間的關係有兩種：一種是平行關係，即兩個或兩個以上變數相互影響。另一種是依存關係，即是一個變數的變化受到另一個或多個變數的影響。相關分析是研究呈平行關係的相關變數之間的關係。而回歸分析是研究呈依存關係的相關變數間的關係。

步驟：建立模型、求解引數、對模型進行檢驗

相關分析：通過計算變數間的相關係數來判斷兩個變數的相關程度及正負相關。

相關係數：兩組不同資料的相關程度，取值範圍在（-1，1），== 0不相關，>0時則兩個變數為正相關，<0時則兩個變數為負相關。


## 協方差相關係數
?cor()

## 相關係數假設檢驗
?cor.test()

## 
library(Hmisc)
library(corrplot)#先載入包
data(mtcars)
mydata <- mtcars[, c(1,3,4,5,6,7)]
head(mydata, 6)

## 一元相關性分析
res <- cor(mydata$mpg, mydata$disp)

##一元相關係數假設檢驗
cor.p = cor.test(mydata$mpg, mydata$disp)$p.value



##  多元相關性分析
ress <- cor(mydata)

##一元相關係數假設檢驗
ress.p <- rcorr(as.matrix(mydata))
## 檢視顯著性p-value
ress.p$P


### 視覺化
corrplot(ress, type = "upper", order = "hclust", tl.col = "black", tl.srt = 45)
corrplot(ress.p$r, type="upper", order="hclust", p.mat = ress.p$P, sig.level = 0.01, insig = "blank")

迴歸分析通過研究變數的依存關係，將變數分為因變數和自變數，並確定自變數和因變數的具體關係方程式

建模

直線模型為：

y=a+bx

一個因變數與多個自變數間的線性數量關係可以用多元線性迴歸方程來表示：

y=b0+b1x+b2x ... +bnxn

曲線迴歸模型為：

二次函式

y=a+bx+cx^2

對數函式

y=a+blogx

指數函式

y = ae^bx或y = ae^(b/x)

冪函式

y=ax^b (a>0)

雙曲線函式

y = a+b/x

求解迴歸係數

對迴歸係數方差分析檢驗、t檢驗

最終確定建立的資料模型： Y = a +bX ...

library(ggplot2)
library(Hmisc)
library(corrplot)
library(lmtest)
library(psych)

##1、 讀取資料
data = read.table("ad_result.txt", header = T, sep = "\t", row.names = 1)
head(data,4)

##2、探索資料，首先確認相關性：
##  計算其相關性係數並可視化
ress = cor(data)   ## 範圍【-1, 1】 =0 不相關， > 0 正相關， < 0 負相關
ress.p <- rcorr(as.matrix(data))$P ## 相關性係數的檢驗 < 0.05 閾值 
corrplot(ress, type = "upper", order = "hclust", tl.col = "black", tl.srt = 45)  ## 相關係數矩陣視覺化
pairs.panels(data)    ## 散點圖矩陣 視覺化



### 3、基於資料訓練模型, 選擇迴歸模型 （這裡用lm() lm(formula = y ~ x1 + x2 + ...)）

fm.model = lm(install ~ tvcm + magazine, data)
as.data.frame(fm.model$coefficients)




## 4 、評估模型，對迴歸係數方差分析檢驗、t檢驗
anova(fm.model)

summary(fm.model)

#Residuals殘差也就是預測值和實際值之差，我們將殘差的分佈用四分位數的方式表示出來，就可以據此來判斷是否存在較大的偏差。

#Coefficients 這裡是與預估的常數項和斜率相關的內容。每行內容都按照預估值、標準誤差、t 值、p 值的順序給出。我們可以由此得知各個屬性的斜率是多少，以及是否具有統計學意義。

#Multiple R-squared、Adjusted R-squared 判定係數越接近於1，表示模型擬合得越好。


## 5、優化模型，用殘差分析剔除異常點 檢驗異方差
plot(fm.model,which=1:4)
data.re = data[-c(1,2,10),]
fm.model1 =  lm(install ~ tvcm + magazine, data.re)
summary(fm.model1)
gq.p = gqtest(fm.model1)
bp.p = bptest(fm.model1)


## 如果gq.p || bp.p 小於0.05，需要進行修正異方差
lm.test2 = lm(log(resid(fm.model1)^2)~ tvcm + magazine,data.re)
lm.test3<-lm(install ~ tvcm + magazine,weights=1/exp(fitted(lm.test2)),data.re)
summary(lm.test3)



## 最後建立模型：
新使用者數= 1.361× 電視廣告費+ 7.250× 雜誌廣告費+ 188.174

PS：參考線上資料

https://blog.csdn.net/Cocaine_bai/article/details/80534313

https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/79544739

理解彙總

多元相關分析與迴歸分析R 實踐

相關變數間的關係有兩種：一種是平行關係，即兩個或兩個以上變數相互影響。另一種是依存關係，即是一個變數的變化受到另一個或多個變數的影響。相關分析是研究呈平行關係的相關變數之間的關係。而回歸分析是研究呈依存關係的相關變數間的關係。步驟：建立模型、求解引數、對模型進行檢驗相

【資料探勘知識點七】相關與迴歸分析

相關與迴歸分析客觀現象之間的數量聯絡存在兩種不同型別：一種是函式關係，另一種是相關關係。當一個或幾個變數取一定的值時，另一個變數有確定值與之對應，這種關係稱為確定性的函式關係，一般把作為影響因素的變數稱為自變數，把發生對應變化的變數稱為因變數。當一個或幾個相互聯絡的變數取一定

R語言與迴歸分析學習筆記（bootstrap method）

Bootstrap方法在之前的博文《R語言與點估計學習筆記（EM演算法與Bootstrap法）》裡有提到過，簡而言之，bootstrap方法就是重抽樣。為什麼需要bootstrap方法呢？因為bootstrap方法使得我們無需分佈理論的知識也可以進行假

Kubernetes Ingress 日誌分析與監控的最佳實踐

開發十年，就只剩下這套架構體系了！ >>>

靜態分析與動態分析

組織整體靜態分析 nbsp 驗證分析分開關註依靠靜態分析關註系統的要素和組織（聯系）；強調的是部分如何組成整體；著重於要素的局部聯系。動態分析關於於系統的功能：前調的是要素與聯系如何組成鏈條，完成事務的處理。動態分析依靠靜態分析支持；靜態分析依靠動態

python資料分析：迴歸分析

何為迴歸分析：迴歸分析（regression analysis）指的是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。迴歸分析按照涉及的變數的多少，分為一元迴歸和多元迴歸分析；按照因變數的多少，可分為簡單迴歸分析和多重回歸分析；按照自變數和因變數之間的關係型別，可分為

主成分分析與因子分析

主成分分析 1、標準化處理，消除量綱 2、特徵根與特徵向量 3、方差貢獻率、累積貢獻率 4、確定主成分主成分與因子分析主成分分析會把主成分表示成各原始變數的線性組合，因子分析則把原始變量表示成各個因子的線性組合。主成分分析重點解釋原始變數之間總方差，因子分析重點解釋原始變數的協方差。

軟體設計師12--系統分析與需求分析

軟體設計師12–系統分析與需求分析 1. 系統分析與設計概述系統分析是一種問題求解技術，他將一個系統分解位各個組成部分，目的是研究各個組成部分如何工作、互動，以實現其系統目標。系統分析針對的是業務問題方面，而不是技術實現方面。 1.1 系統分析的目的和任務系統分析的主

Android中IPC的幾種方式詳細分析與優缺點分析

Android程序間通訊(IPC:Inter-Process Communication)的幾種主要方式如下 1.使用Bundle ----> 用於android四大元件間的程序間通訊 android的四大元件都可使用Bundle傳遞資料所以如果要實現四大元

主成分分析與因子分析之比較及實證分析

是因子分析過程中的初始因子載荷矩陣中的元素, 是第j個公共因子，是第i個原觀測變數的特殊因子。且此處的與的均值都為0，方差都為1。　　 3. 主成分的各系數，是唯一確定的、正交的。不可以對係數矩陣進行任何的旋轉，且係數大小並不代表原變數與主成分的相關程度；而因子模型的係數矩陣是不唯一的、可以進行旋轉的，且該矩

java中的==與equals()分析與原始碼分析

1.關於== 首先要知道==用於匹配記憶體單元上的內容，其實就是一個數字，計算機內部也只有數字，而在java語言中，當==匹配時，就是比對兩個單元記憶體的內容是否一樣。如果是原始型別，byte,boolean,short,char,int,long

主成分分析與因子分析及SPSS實現

一、主成分分析（1）問題提出在問題研究中，為了不遺漏和準確起見，往往會面面俱到，取得大量的指標來進行分析。比如為了研究某種疾病的影響因素，我們可能會收集患者的人口學資料、病史、體徵、化驗檢查等等數十項指標。如果將這些指標直接納入多元統計分析，不僅會使模型變得複雜不穩定，而且還

資料分析與資料分析方法論的區別

資料分析方法論主要用來指導資料分析師進行一次完整的資料分析，它更多的是指資料分析思路，比如主要從哪幾方面開展資料分析，各方面包含什麼內容和指標？資料分析方法論主要從巨集觀角度指導如何進行資料分析，它就像是一個數據分析的前期規劃，指導著後期資料分析工作的開展。而資料分析

多元相關分析與多元迴歸分析

目錄變數間的關係分析什麼是相關分析什麼是迴歸分析分析步驟迴歸分析與相關分析的主要區別一元線性相關分析一元線性迴歸分析建模方差分析檢驗 t檢驗多元迴歸分析模型建立線性迴歸模型基本假設多元迴歸分析用途多元線性相

【機器學習演算法】基於R語言的多元線性迴歸分析

多元線性迴歸的適用條件：（1）自變數對應變數的變化具有顯著影響（2）自變數與應變數間的線性相關必須是真實的，而非形式上的（3）自變數之間需有一定的互斥性（4）應具有完整的統計資料訓練資料：csv格式，含有19維特徵資料下載地址：http://pan.baidu

利用R進行多元線性迴歸分析

對於一個因變數y，n個自變數x1,...,xn，要如何判斷y與這n個自變數之間是否存線上性關係呢？肯定是要利用他們的資料集，假設資料集中有m個樣本，那麼，每個樣本都分別對應著一個因變數和一個n維的自變

Regression and Correlation (迴歸分析與相關分析)

變數之間的關係分析變數之間的關係需要解決下面的問題：（ 1）變數之間是否存在關係？（ 2）如果存在，它們之間是什麼樣的關係？（ 3）變數之間的關係強度如何？（ 4）樣本所反映的變數之間的關係

R語言 | 多元迴歸分析中的對照編碼（contrast coding） | 第一節 dummy variable（啞變數）和 dummy coding

對於一個自變數是分類變數Categorical Factor的迴歸模型，需要為該Factor的每個Level建立dummy variable。Contrast Matrix把每個Level對映為dummy variable的值。我們看一個例子來感性認識下dummy v

用R進行多元線性迴歸分析建模

概念：多元迴歸分析預測法，是指通過對兩個或兩個以上的自變數與一個因變數的相關分析，建立預測模型進行預測的方法。當自變數與因變數之間存在線性關係時，稱為多元線性迴歸分析。下面我就舉幾個例子來說明一下

多元相關分析與迴歸分析R 實踐

建模

求解迴歸係數

對迴歸係數方差分析檢驗、t檢驗

最終確定建立的資料模型： Y = a +bX ...

相關推薦