R語言逐步迴歸、方差anova分析電影市場調查問卷資料視覺化
全文連結:http://tecdat.cn/?p=30680
原文出處:拓端資料部落公眾號
這是一份有關消費者對電影市場看法及建議的調查報告,我們採取了問卷調查法,其中發放問卷256份,回收有效問卷200份。
我們對資料進行了基本分析,比如:相關性。還有基本圖形、迴歸方差分析。最後模型比較。
讀入資料
head(data)
資料的描述
str(data)
資料一共有200個樣本,25個屬性。具體屬性和取值及其含義如下:
資料展示
繪製各個變數的餅圖可以看到基本人口資訊的各個取值的所佔的百分比。
資料特性總結
基本統計量
資料準備
資料的清理
#資料清理
對缺失值(NA)的處理
data=na.omit(data)
#變數篩選
colnames(data)
data=data[, -which(colnames(data) %in% c("填寫時間","是否星標","提交後隨機碼" , "是否已
資料分析
基本資料分析,比如:相關性。還有基本圖形、迴歸方差分析。 最後模型比較。
資料檢驗
相關性
檢視您對中國電影產業的發展建議和請問您看電影的主要目的是什麼變數之間是否具有相關關係
檢驗的結果是,由於P =0.016<0.05,因此在0.05的顯署性水平下,拒絕原假設,認為兩者之間具有相關關係。
下面進行方差分析
m1<-aov(Q12.您一般通過什麼途徑購買電影票~Q9.請問您看電影的主要目的是什麼,data=datacor)
由於p值大於0.05,從這個結果可以看出看電影的不同目下購買電影股票的差別不顯著。
由於p值小於0.05,從這個結果可以看出看電影的不同目下購買電影股票的差別不顯著。
迴歸分析
從迴歸模型的結果來看,可以看到接受電影票價格區間對被調查物件考慮的電影外在因素有比較大的影響,p值小於0.05,因此該變數對被調查者選擇去看電影有顯著的影響 。其次被調查者的年齡也有較明顯的影響,可以年齡和被調查者去看電影有較大的負相關關係,因此可以認為年齡大的人會傾向於考慮的看電影各種外在因素。
plot(model)
從迴歸模型的殘差結果圖來看,殘差比較均勻地分佈在0線周圍,和qq圖周圍,說明殘差隨機服從正態分佈,因此,迴歸模型具有較好的效果。
模型的比較和討論
模型篩選與比較,使用逐步迴歸進行模型篩選最優模型,然後和傳統的迴歸模型進行比較。 刪去不顯著的變數.
進行變數刪減後的迴歸模型,我們得到最優變數是被調查者接受的電影票價格區間,p值小於0.05,說明該變數對被調查者考慮的外在因素有顯著的影響。
最受歡迎的見解
3.matlab中的偏最小二乘迴歸(PLSR)和主成分迴歸(PCR)
6.r語言中對LASSO迴歸,Ridge嶺迴歸和Elastic Net模型實現