1. 程式人生 > >四個案例解析R剖面指數和期望值(牙膏的真假效用和產品的主要客戶)

四個案例解析R剖面指數和期望值(牙膏的真假效用和產品的主要客戶)

下面介紹四個案列,來講解基本的統計學知識和剖面指數和期望值 第一個是分析男女對不同飲料的傾向 這裡寫圖片描述

#設定工作路徑
setwd("D:\\資料分析\\R語言基礎")
Lst<-scan("drink.data",what=list("sex","type"))
#table統計頻數
a<-table(Lst)
margin.table(a,1)
prop.table(a,1)

這裡寫圖片描述 table函式是不是有點熟悉呢,在文章R語言的資料物件就曾經詳細介紹過table函式和margin.table和prop.table函式 從margin函式統計中,可以看出男的數量是23,女性的數量是27。 prop函式統計中,男生更偏愛綠茶和礦泉水 女生更偏愛於碳酸飲料和其他 因為男生女生數量不一致,所以縱向對比沒有意義 今天分析的資料量比較小,可能不具有代表性,甚至可能是錯誤的。但是隻是簡單介紹一下分析的方法和思路。結果不重要 分析初生兒體重

這裡寫圖片描述

#轉化為kg
a<-scan("birth.data")/1000
#cut函式,設定區間段
table(cut(a,breaks=10))
table(cut(a,breaks=c(-Inf,0.5,1.5,2.5,3.5,4.5,5.5,6.5,Inf))

這裡寫圖片描述 從圖中可以看出新生兒體重大都集中在2.51——4.06這一範圍的區間段,如果資料量大的話,依照如圖的研究方法,可以確定出正常嬰兒的體重範圍。

剖面指數 問題背景:在某產品中隨機抽取各年齡層,各收入段的人,請利用統計學知識找到對產品貢獻最大的人(即產品的主要使用者)? 這裡寫圖片描述 如何才能合理可靠的找出這一群體呢?這裡需要我們利用統計學知識,剖面指數的概念。 在我理解中,剖面指數反映某一群體某一特質的偏離程度。比如問題中的18-24歲的高收入人群,它的樣本數佔總樣本數的 25%。也就是說25%是這個人群的平均水平,如果18-24歲的高收入人群佔總高收入人群的25%,它表示的是高收入人群對產品的關注為平均水平,如果高於25%,它表明高收入人群對產品的關注度高, 低於25%,表面高收入人群對產品的關注度低。

#構造資料框
xx<-read.table("clipboard")
x1<-scan("clipboard",what="")
xx2<-scan("clipboard",what="")
#給名字
xx<-as.matrix(xx)
dimnames(xx)<-list(x2,x1)
#transform函式
xx<-transform(xx,統計數=高+中+低)
#計運算元類別
xx_prop<-prop.table(as.matrix(xx[-1,]),2)
#計算剖面指數
xx_a<-apply(xx_prop[,-4],2,function(x) x/xx_prop[,4
])

這裡寫圖片描述 結果顯示25-34歲的高收入和50-65的低收入人群對產品關注程度高。這對我們產品的改進,研發,銷售起了標誌性作用,我們的銷售人員可以針對這兩個年齡段的人制定相應的營銷活動,我們同樣需要思考,為什麼是這兩個年齡段的人群關注產品?這兩個類別的人群有什麼相似的共性嗎?

算期望 背景:根據市場對牙膏公司和效用的調查,請用統計學知識分析出哪些效用是真的有效,哪些是虛假效用 這裡寫圖片描述 如何判斷效用的真假呢? 我的想法是用期望減去實際值來判斷效用的真假。

#算期望
xy<-read.table("clipboard")
#公司平均
xy_c<-colMeans(xy)
#效用平均
xy_r<-rowMeans(xy)
z_m<-mean(as.matrix(xy))
#外積
xx_s<-xy_r %o% xy_c /z_m
#真實值減去期望
xx_a<-xy-xx_s

為什麼要用這種方法呢? 在我的理解中 比如A品牌中,人們對效用的評價人數的多少決定著效用的真實性 例如A品牌,評價潔白的人數遠小於評價其他效用的人數, 換句話說,潔白應該是虛假效用 那我索性用平均值求出每個品牌每個效用應該具有的值(即期望) 期望=(公司平均值/總平均值*效用平均值) 再用真實值減去期望值,就能直觀的代表產品是否是虛假效用 效用 這裡寫圖片描述 直觀可以看出A品牌的潔白效用是虛假效用 D品牌的使牙齒潔白是效果很好的。 利用期望,我們挑選牙膏就能更加針對性了。