1. 程式人生 > >跟二項分佈相關的統計檢驗方法

跟二項分佈相關的統計檢驗方法

假設檢驗原理

小概率事件在一次試驗中幾乎不可能發生。

多重假設檢驗原理

小概率事件在多次重複試驗中必定會發生。

單樣本二項式檢驗(binomial test)

問題:調查北京市所有人喜歡吃麵食還是吃米飯(都不喜歡吃的忽略),在北京街頭隨機選了10個人(樣本有點少),有8個喜歡吃麵食,2個喜歡吃米飯。由此能否否定北京人喜歡吃麵食的比例為p = 0.5呢?

建立零假設(null hypothesis): 北京人喜歡吃麵食的比例為p = 0.5,由此就可以得到一個二項式分佈,Pr(X = k) = (

10 k ) 10 \choose k 0. 5 k
0. 5 10 k 0.5^{k}0.5^{10-k}
,k = 0,1,2,…10。基於這個分佈就可以算出Pr(X >= 8)的概率。

進行統計推斷:容易計算,Pr(X >= 8)的概率為0.055,由對稱性,Pr(X <= 2)的概率也為0.055。為了統計檢驗的嚴格性,一般要用雙尾(單尾雙尾如何選擇)。這樣在零假設的基礎上,得到Pr(X = 8)或更極端的概率為0.11,這個概率不算小,無法推翻零假設。所以無法否定北京人喜歡吃麵食的比例為50%這個結論。

符號檢驗(sign test)

此檢驗屬於非引數檢驗的範疇,針對配對樣本。此檢驗的核心是二項分佈(或者有二項分佈近似而來的正態分佈)。

那麼何時應選用符號檢驗?
1,有序的匹配資料。如兩種治療面板晒傷的藥A,B,A塗左手,B塗右手,比較一下哪種藥的效果更好。這時只關心A>B或A=B或A<B,並不關心A與B的差異有多大,應選用符號檢驗。
2,基數資料,但正態假設不成立,無法使用t檢驗來判斷兩組數的均值是否有顯著差異(引數檢驗的統計效力要比非引數檢驗大,所以能用配對t檢驗的就不要用符號檢驗)。

建立零假設:以有序的匹配資料為例,零假設是藥A與B的效果,即假設A>B和A<B的比例都為1/2(A=B對假設檢驗沒有貢獻,故去掉)。翻譯成數學語言為:Pr(A>B) = 1/2。

進行統計推斷:在Pr(A>B) = 1/2的基礎上,判斷實際的Pr(A>B)或更極端的概率。這就轉化為一個單樣本二項式檢驗了。對此檢驗概率的計算由下面兩種方法:
1,精確方法
設m為A>B何A<B的總個數,n為A>B的個數,由二項分佈的公式,
if n >= m/2,則 p = 2 k = n m ( m k ) ( 1 2 ) m p = 2 * \sum_{k=n}^{m}\binom{m}{k}(\frac{1}{2})^{m} ,
else, p = 2 k = 0 n ( m k ) ( 1 2 ) m p = 2 * \sum_{k=0}^{n}\binom{m}{k}(\frac{1}{2})^{m}
2,正態理論近似
值得注意的是,在npq>=5時,即這裡的n*(1/2)*(1/2)>=5,即n>=20時,可以用正態分佈來代替二項分佈計算p value。
設m為A>B和A<B的總個數,n為A>B的個數,用來近似的正態分佈的均值為mean=m/2,方差var=m/4,則
if n >= m/2,則 p = 2 ( 1 ϕ ( n m / 2 0.5 m / 4 ) ) p = 2 * (1 - \phi(\frac{n - m/2 - 0.5}{\sqrt{m/4}})) ,
else, p = 2 ϕ ( n m / 2 + 0.5 m / 4 ) p = 2 * \phi(\frac{n - m/2 + 0.5}{\sqrt{m/4}})
Note: 上式中的加減0.5使用了連續性修正,使得二項分佈更好地被正態分佈所近似。