第六周:統計學
當拿到一份數據的時候,首先會怎麽做?----描述性統計學,概率推斷統計。
描述性統計學
數值數據:計算
分類數據:不能進行計算,例如,男1 女0 代表一個類別
數值數據和分類數據可以進行互相轉換
一般描述統計的方式方法:
1.分類數據的描述性統計:單純計數就可以
2.數據描述統計:
3.統計度量:平均數--數據分布比較均勻的情況下進行,中位數,眾數,分位數(4分位、10分位、百分位)
4.圖形:
5.權重預估(分位數)
6.數據分布(波動情況,標準差,方差)
7.數據標準化:
在實際用用的時候,有很多情況量綱不一致(即數據單位不一樣)導致差異很大無法進行比較
用數據標準化將數據進行一定範圍的壓縮,得到的結果與數據業務意義無關,純粹是數據上的波動達到可進行對比。
xi:數據的具體值
u:平均值
σ:標準差
標準化之後一般都是在0上下直接按波動的數字,就可以反應原始數據的典型特征進行分析。
實例演示:時間趨勢下訂單的變化
單純的時間只是一種屬性,隱含的一種關系。很多銷量是跟時間有關系,但是時間的背後是根據用戶行為或者一系列因素相關。而不是單純連續日期幾號的簡單關系。所以將案例數據需要進行初步整理(坦誠講~這個細節是比較吸引我的,因為在此之前一直是像上面所說,對日期進行簡單連續日期進行趨勢分析,得到的結果的確不盡人意)添加周數和星期,將其轉化成日歷形式進行觀察。
顯然,標準化之後的趨勢顯得更加明顯清晰了,將趨勢擴張到肉眼辨識度提高的形態。
在後期處理的時候,建議用標準化的數據進行預估,因為標準化後已經將正負收斂到0的附近,並且可以方便增加其他關系參加預估。
切比雪夫定理,可以幫助在知道標準差和平均數的情況下,基本就知道數據的分布情況。
另一種作用則通常用於異常值的檢測。
在數據越多的情況下,數據越收斂,推算的能力就會越精準。
描述統計的可視化:
1.箱線圖:描述一組數據的分布,同時反應分位數
用2016版本以上的Excel可以直接利用數據作圖,如低版本的則需要利用輔助線來進行(之前可視化內容的標靶圖方法)繪制。
箱線圖相對比其他柱形圖更有對數據的分析解讀性。
操作舉例:
上下邊緣線外部分散的點,可視分析情況視為異常值處理,如果想要分析的結果更精準,可視情況將這部分異常值數據剔除。
可添加類別進行細致分析。
2.直方圖:特殊的柱形圖,把條形圖下面的類別換成數據的柱形圖。
直方圖一般的是等距劃分,每一個等距的距離不能重復。
直方圖的形狀有以下幾種:
標準型:分布均勻較理想
陡壁型:比較容易出現在收費領域
鋸齒型:說明數據不夠穩定
孤島型:要研究分析孤島產生的原因
偏峰型:銷售數據一般會產生偏鋒,一般會出現長尾(或左或右)
雙峰型:兩者數據混合一般會形成雙峰
由直方圖引出一個統計學指標-
-偏度
---正太分布
正太分布的特殊應用:
描述性統計的計算值,可通過Excel裏面的數據--數據分析---描述性統計直接通過界面勾選需要內容進行計算。
概率推斷統計
推斷統計,描述一件事情發生的可能性
例如:拋硬幣的遊戲
事件:正面、反面
概率:50%
在B發生的概率下,A發生的概率是多少
當A與B之間無關聯的時候,則P(A|B)=P(A)
條件概率的關鍵點
貝葉斯定理
看到題目的時候與最後分析的結果相差巨大的原因是因為上題目中,有多重誘因所導致。
事件發生會有很多原因,我們單純只知道結果的情況下去反推原因是不太好的。
貝葉斯公式:
P(A1):真實患者的概率
P(A2):實際為健康人群的概率
P(B):代表試紙查出患者的概率
P(B|A1):為真實患者條件下試紙查出患者的概率,即99%
P(B|A2):為健康人群的條件下試紙查出患者的概率,即5%
P(A1)為真實患者的概率0.1%,P(A2)為健康率99.9%
i:為特定場景下
貝葉斯特點:知道結果A已經發生了,想要推導出各種原因發生的可能性有多大。(結果----->發生因素的概率)
對於貝葉斯多傾向用於機器算法。網絡上也有很多關於貝葉斯的解釋可供參考學習。
概率分布
離散分布
連續變量分布
1.二項分布:
是一種離散型的概率分布。二項代表他有兩種可能的結果,把一種稱為成功,另外一種稱為失敗。
每次成功和失敗的概率都是相同的,每次實驗相互獨立(拋硬幣是一個典型的二項分布)
Excel計算概率示例:
概率密度=BINOM.DIST(3,10,0,1,FALSE)
抽3次以上,限制10次,中間概率是10%(示例需求詳見見課程)
2.泊松分布:
主要用於預估某事件在特定的事件或者空間中發生的次數。比如一天內中獎的個數,一個月內機器損壞的次數等。
在任意一個單位區間、時間內發生的概率是相同的(知道平均發生的概率)。
每次事件相互獨立
x:想要知道具體發生的概率值
μ:平均概率值平均期望值
e:自然對數、常數
Excel計算概率示例:
=POISSON.DIST(x事件出現的次數,Mean期望值,邏輯值)
需求:想要知道在之前平均幾天中獎5次(前幾天每天中獎5次),下一時間段中獎概率是7次的概率是多少?
方法:=POISSON.DIST(7,5,TRUE)
TRUE是計算統計公式的概率累加值,同二項分布公式中的FALSE一樣,FALSE是指單次,就是說剛好恰好發生7次的概率。
現實場景中,不能滿足任意一個特定事件內或者空間內發生的次數概率是相同的,所以應用於現實場景中需要考慮實際條件。
一般現實生活中二項分布會比較常用。
3.正態分布
連續變量分布是一個隨機變量在其區間內能夠取任何數值所具有的分布。正態分布是一種連續型的隨機變量分布。
世界上絕大多數分布都屬於正態分布。正態分布的形狀是一條鐘型曲線。以均值為中心左右對稱,形狀和均值μ以及方差有關。
切比雪夫定義,可以幫助快速的估約數據。
正態分布公式:
標準正態分布:
均值為0,方差為1的正態分布。
概率密度函數和累計分布函數(在更多的應用場景中,更多的看累計分布函數)
應用示例:
要求:標準正態分布中,z小於等於1的概率?z在區間-1~1.25的概率?z大於2的概率?
方法:Excel計算概率示例
=NORM.DIST(X函數值的區間點1,算數平均數0,分布的標準方差1,邏輯值TRUE累計分布值)
求出的是小於等於某一個值
在一定區間的,求解方法相當於兩個區間的概率相減求面積。
求解大於的,1-前一段的面積。
用Excel可不用轉成標準正態分布進行運算,可直接進行運算。
現實工作場景中,很少會遇見滿足正態分布的情況,更多的是密率分布,某個獎品隨機積分,質量檢測等滿足正態分布的情況下使用。
【假設檢驗】
思想是反正法,如果一件事情發生的概率很小,但是它發生了,我們就把這件事情的原始結論推翻。
個案的發生,不能去證明某一個結論,但是可以去否定它。
例如:某個工廠的產品合格率是99.9999%,但我們拿出100個樣本的時候,發現有2個不合格,這個時候就能去否定這個合格率了。
原假設H0:為了驗證某一個假設是否發生,而去檢驗它。
備選假設H1:原假設不成立,則選擇備選假設,包含一切讓原假設不成立的概率。
原假設一般是小概率的事件,如果它發生了,我們就要懷疑並拒絕它。如果沒發生,則接受它。
一般在做假設檢驗的時候,一般都是為了把它否定掉。所以在設立原假設的時候一般設立的場景是比較寬泛,或是看上去比較常規正常個,看上去更像是可能發生的,然後用小概率把它否定掉。
1.A&B測試:原理就是假設檢驗
通常采用抽樣方式將數據劃分成兩組,通過一組控制一組對照的方式進行觀察。
原假設為測試沒有效果,分析師的目的是去否定它,當B組的數據和A組的數據有顯著差異時,則能否定它。
2.Z檢驗
因為AB測試的數據都比較大(較大的數據基礎容易把一些誤差淡化掉,波動不明顯),所以常用Z檢驗的方式進行驗證,核心方法是當標準差已知時,驗證A組合B組分均值是否相等。
Z檢驗公式:
示範案例:(具體詳見課程91課時)
用Excel可計算Z值:=SDTR
根號=SQRT()
算出z值後轉成正態分布,利用正態分布公式,把z值帶入因為是標準正態分布,取值為均值為0,方差為1帶入
得出概率是1%,可以把原始假設拒絕掉
當基礎數據變小的時候(基礎數據變小,波動則明顯)概率會發生變化(變大),這樣得出結論則發生變化。
樣本量、閾值(轉化率標準差),決定假設概率的變化。
3.置信區間
它的作用是不輕易拒絕原假設,而是給一個可靠的範圍。一般來說用95%作為可靠度。
在A&B測試中,我們可以定義為,用戶購買轉化率,有95%的可能性是在23%~27%之間,另外5%是小概率了。
在實際業務中,當樣本量足夠時,轉化率的計算可以越過Z檢驗的計算過程,直接看轉化結果,因為樣本量越大,對置信區間會越嚴格。
轉化率在數據類型上是0和1的集合。除此,還有數值型的計算,比如消費額度、消費頻次等。
A&B測試用於產品設計和運營是比較好的方法,對於數據分析來講,是一個很好的思維。
返回總目錄
轉自:https://ask.hellobi.com/blog/cbdingchebao/11782
第六周:統計學