跟二項分佈相關的統計檢驗方法
假設檢驗原理
小概率事件在一次試驗中幾乎不可能發生。
多重假設檢驗原理
小概率事件在多次重複試驗中必定會發生。
單樣本二項式檢驗(binomial test)
問題:調查北京市所有人喜歡吃麵食還是吃米飯(都不喜歡吃的忽略),在北京街頭隨機選了10個人(樣本有點少),有8個喜歡吃麵食,2個喜歡吃米飯。由此能否否定北京人喜歡吃麵食的比例為p = 0.5呢?
建立零假設(null hypothesis): 北京人喜歡吃麵食的比例為p = 0.5,由此就可以得到一個二項式分佈,Pr(X = k) = ,k = 0,1,2,…10。基於這個分佈就可以算出Pr(X >= 8)的概率。
進行統計推斷:容易計算,Pr(X >= 8)的概率為0.055,由對稱性,Pr(X <= 2)的概率也為0.055。為了統計檢驗的嚴格性,一般要用雙尾(單尾雙尾如何選擇)。這樣在零假設的基礎上,得到Pr(X = 8)或更極端的概率為0.11,這個概率不算小,無法推翻零假設。所以無法否定北京人喜歡吃麵食的比例為50%這個結論。
符號檢驗(sign test)
此檢驗屬於非引數檢驗的範疇,針對配對樣本。此檢驗的核心是二項分佈(或者有二項分佈近似而來的正態分佈)。
那麼何時應選用符號檢驗?
1,有序的匹配資料。如兩種治療面板晒傷的藥A,B,A塗左手,B塗右手,比較一下哪種藥的效果更好。這時只關心A>B或A=B或A<B,並不關心A與B的差異有多大,應選用符號檢驗。
2,基數資料,但正態假設不成立,無法使用t檢驗來判斷兩組數的均值是否有顯著差異(引數檢驗的統計效力要比非引數檢驗大,所以能用配對t檢驗的就不要用符號檢驗)。
建立零假設:以有序的匹配資料為例,零假設是藥A與B的效果,即假設A>B和A<B的比例都為1/2(A=B對假設檢驗沒有貢獻,故去掉)。翻譯成數學語言為:Pr(A>B) = 1/2。
進行統計推斷:在Pr(A>B) = 1/2的基礎上,判斷實際的Pr(A>B)或更極端的概率。這就轉化為一個單樣本二項式檢驗了。對此檢驗概率的計算由下面兩種方法:
1,精確方法
設m為A>B何A<B的總個數,n為A>B的個數,由二項分佈的公式,
if n >= m/2,則
,
else,
。
2,正態理論近似
值得注意的是,在npq>=5時,即這裡的n*(1/2)*(1/2)>=5,即n>=20時,可以用正態分佈來代替二項分佈計算p value。
設m為A>B和A<B的總個數,n為A>B的個數,用來近似的正態分佈的均值為mean=m/2,方差var=m/4,則
if n >= m/2,則
,
else,
。
Note: 上式中的加減0.5使用了連續性修正,使得二項分佈更好地被正態分佈所近似。