1. 程式人生 > >【數理統計學習】統計假設檢驗

【數理統計學習】統計假設檢驗

統計假設檢驗可分為引數假設檢驗非引數假設檢驗兩大部分。

總體分佈形式已知,檢驗的目的是對總體的引數及其性質作出判斷,則稱這種檢驗為引數假設檢驗

總體分佈形式未知,需對總體分佈函式形式或總體之間的關係進行推斷,則稱為非引數假設檢驗

顯著性檢驗:先提出假設,然後作出否定或者不否定的判斷,稱為顯著性檢驗。

一、檢驗法則

有兩個對立的假設,其中\(H_0\)稱為原假設(零假設);\(H_1\)稱為備擇假設(對立假設)

要檢驗總體均值\(\mu\),實際上可轉化為檢驗樣本均值\(\overline{X}\),因為\(\overline{X}\)的觀察值\(\overline{x}\)

的大小在一定程度上反映了的\(\mu\)大小。如果\(H_0\)成立,則\(\mid \overline{x}-\mu_0 \mid\)一般不應太大,如果\(\mid \overline{x}-\mu_0 \mid\)過分大,則可懷疑\(H_0\)的正確性從而拒絕\(H_0\),反之則接受\(H_0\)

又考慮到當\(H_0\)成立時,統計量 $\frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}} $ ~ $ N(0,1)$,這樣衡量 \(\mid \overline{x} - \mu_0 \mid\) 的大小就可等價地歸結為衡量 $\frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}} $ 的大小,由此我們可選定一正數\(k\)

,使得當\(\frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}} \geq k\)時,就拒絕\(H_0\),當\(\frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}} < k\)時,就接受\(H_0\)

由於\(\frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}} ​\) ~ $ N(0,1)​$,根據標準正態分佈分位點定義可得:
\[P \lbrace \frac{\mid \overline{x} - \mu_0 \mid}{\sigma / \sqrt{n}} \geq k \mid H_0為真 \rbrace = P \lbrace \frac{\mid \overline{x} - \mu_0 \mid}{\sigma / \sqrt{n}} \geq u_{1-\frac{\alpha}{2}} \mid H_0為真 \rbrace = \alpha​\]

這樣,我們就得到如下檢驗法則:

\(\frac{\mid \overline{x} - \mu_0 \mid}{\sigma / \sqrt{n}} \geq u_{1-\frac{\alpha}{2}}\),則拒絕\(H_0\)

\(\frac{\mid \overline{x} - \mu_0 \mid}{\sigma / \sqrt{n}} < u_{1-\frac{\alpha}{2}}\),則接受\(H_0\)

於是,$\frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}} $就成了檢驗統計量。

當然,這只是討論了正態總體引數的假設檢驗問題,對於其他假設檢驗,雖然檢驗統計量不同,但其檢驗法則、基本思路一樣。

二、兩類錯誤

(一)第I類錯誤

\(H_0\)為真時,我們卻作出了拒絕\(H_0\)的判斷,這個時候我們就犯了第I類錯誤,又稱為“棄真”。即在原假設成立的情況下拒絕了原假設,從而把正確的內容當作錯誤的內容拋棄了。

犯第I類錯誤的概率為:\(P \lbrace 拒絕H_0 \mid H_0為真 \rbrace = \alpha\)

這裡,\(\alpha\)為顯著性水平。

(二)第II類錯誤

\(H_0\)不成立時,卻接受\(H_0\)了,我們稱這類錯誤為第II類錯誤,又稱為“取偽”

犯第II類錯誤的概率為:\(P \lbrace 接受H_0 \mid H_0為假 \rbrace = \beta\)

現實中\(\alpha\)\(beta\)的值不可能同時小,也就是說,在樣本容量給定的情況下,如果減少犯第I類錯誤的概率,就可能增加犯第II類錯誤的概率。由於第I類錯誤相對於第II類錯誤導致的後果更為嚴重,因此現實中的做法通常是對犯第I類錯誤的概率加以控制,然後再適當考慮犯第II類錯誤的概率。

我們把這種只對犯第I類錯誤的概率加以控制,而不考慮犯第II類錯誤的檢驗問題,稱為顯著性檢驗問題

三、基本方法

引數假設檢驗通常採用\(\mu\)檢驗法、\(t\)檢驗法、\(F\)檢驗法、\(\chi^2\)檢驗法等

非引數假設檢驗通常採用皮爾遜擬合檢驗、魏氏檢驗、麥氏檢驗法

(一)引數假設檢驗法

引數假設檢驗法具體包括正態總體引數檢驗和非正態總體引數檢驗。

1、正態總體引數檢驗

對於正態總體,其引數無非是兩個:\(\mu\)\(\sigma^2\)。如果加上兩個正態總體的引數一塊比較,也只有四種情形:①關於\(\mu\)的檢驗;②關於\(\sigma^2\)的檢驗;③關於\(\mu_1-\mu_2\)的檢驗;④關於\(\frac{\sigma_1^2}{\sigma_2^2}\)的檢驗。

(1)\(\mu\)檢驗

\(\mu\)檢驗適用於在方差已知的情況下,對期望值\(\mu\)的檢驗(包括單總體和多總體)。

a.在單個正態總體情況下,適用檢驗統計量:

\(\mu = \frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}}\)~\(N(0,1)\)

b.在兩個正態總體情況下,設\(x_1,x_2,\ldots,x_{n_1}\),為出自\(N(\mu_1,\sigma_1^2)\)的樣本,\(y_1,y_2,\ldots,y_{n_2}\)為出自\(N(\mu_2,\sigma_2^2)\)的樣本,\(\sigma_1^2,\sigma_2^2\)已知,且樣本之間相互獨立。則適用統計量為:

\(\mu = \frac{\overline{x} - \overline{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}\) ~ \(N(0,1)\)

另外,對總體百分數的檢驗一般也採用檢驗法進行,其適用統計量為:

\[\mu = \frac{p_x-p_{\mu}}{\sqrt{\frac{p_{\mu}(1-p_{\mu})}{n}}}\]

其中,\(p_x\)為樣本百分數,\(p_{\mu}\)為總體百分數。

(2)\(t\)檢驗

\(t\)檢驗適用於當方差未知時對期望值\(\mu\)的檢驗。總體可以是單總體,也可以是雙總體。但如果是雙總體,它們之間的樣本必須是獨立的。

a.對於單總體,適用檢驗統計量為:
\(t= \frac{\overline{x} - \mu_0}{\frac{s}{\sqrt{n}}}\)~\(t(n-1)\)
b.對於雙總體,可分為兩種情況進行討論。

第一種情況是,\(\sigma_1^2,\sigma_2^2\)未知,但\(\sigma_1^2=\sigma_2^2=\sigma^2\)。此時可選擇檢驗統計量:
\(t= \frac{\overline{x} -\overline{y}}{s_{\omega} \cdot \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\)~\(t(n_1+n_2-2)\)

第二種情況是,\(\sigma_1^2,\sigma_2^2\)未知,但\(n_1=n_2=n\)。此時可考慮採用配對檢驗法,具體方法如下:

令:\(d_i=x_i-y_i(i=1,2,\ldots,n)\),並假定\(d_1,d_2,\ldots,d_n\)分別是來自正態總體\(N(\mu_d,\sigma^2)\)的樣本。\(\mu_d,\sigma^2\)均未知,\(\overline{d}\)\(s^2\)分別是\(d_1,d_2,\ldots,d_n\)的樣本均值和樣本方差。若進行雙邊檢驗,可令\(H_0:\mu_d=0,H_1:\mu_d \neq 0\)

此時可選擇\(t= \frac{\overline{d}-0}{\frac{s}{\sqrt{n}}}\)~\(t_{1-\frac{\alpha}{2}}(n-1)\)作為檢驗統計量,其拒絕域為:
\[c_1= \lbrace t \mid \mid t \mid \geq t_{1-\alpha}(n-1) \rbrace\]

(3)\(\chi^2\)檢驗

\(\chi^2\)檢驗主要用於對方差\(\sigma^2\)的檢驗,且適用於單引數情形

a.\(\mu\)未知

\(x_1,x_2,\ldots,x_n\)\(N(\mu,\sigma^2)\)的一個樣本,考慮假設:
\(H_0:\sigma^2 = \sigma_0^2, H_1:\sigma^2 \neq \sigma_0^2\)
\(H_0:\sigma^2 \leq \sigma_0^2, H_1:\sigma^2 > sigma_0^2\)
適用檢驗統計量為:
\(\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}\)~\(\chi^2(n-1)\)

b.\(\mu\)已知

適用於檢驗統計量為:

\(\chi^2 = \frac{\sum_{i=1}^n (x_i-\mu_0)^2}{\sigma_0^2}\)~\(\chi^2(n)\)

(4)\(F\)檢驗

\(F\)檢驗也是用於對方差的檢驗,不同的是,\(F\)檢驗往往用於兩引數情形

\(x_1,x_2,\ldots,x_{n_1}\)\(y_1,y_2,\ldots,y_{n_2}\)分別為出自\(N(\mu_1,\sigma_1^2)\)\(N(\mu_2,\sigma_2^2)\)的樣本,且樣本之間獨立。考慮假設:
\(H_0:\sigma_1^2=\sigma_2^2, H_1:\sigma_1^2 \neq \sigma_2^2\)
\(H_0:\sigma_1^2 \leq \sigma_2^2, H_1: \sigma_1^2 > \sigma_2^2\)

適用檢驗統計量為:
\(F=\frac{s_1^2}{s_2^2}\)~\(F(n_1-1,n_2-1)\)

2、非正態總體引數檢驗

非正態總體的抽樣分佈不易求出,求檢驗統計量及其分佈就很困難了,因此除一些特殊例子外,非正態總體引數的假設檢驗常採用大樣本方法。大樣本一般要求\(n \geq 30\),最好\(n \geq 50\)

\(x_1,x_2,\ldots,x_n\)是總體\(X\)的樣本,\(X\)~\(N(\mu,\sigma^2 )\)\(n\)足夠大。要檢驗的假設有:

(1)\(H_0:\mu=\mu_0, H_1:\mu \neq \mu_0\)

(2)\(H_0:\mu \geq \mu_0, H_1:\mu < \mu_0\)

(3)\(H_0:\mu \leq \mu_0, H_1:\mu > \mu_0\)

由於\(X\)不是正態分佈,故求出其檢驗統計量及其分佈比較困難,但當\(n\)足夠大且\(H_0\)成立時,根據中心極限定理,有:
\(\mu = \frac{\overline{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}\)~\(N(0,1)\)

在具體選擇檢驗統計量時,可分兩種情況討論:

(1)\(\sigma^2\)已知時,可選擇檢驗統計量:

\(\mu = \frac{\overline{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}\)~\(N(0,1)\)

(2)\(\sigma^2\)未知時,可選擇檢驗統計量:

\(\mu = \frac{\overline{x} - \mu_0}{\frac{s}{\sqrt{n}}}\)~\(N(0,1)\)

(二)非引數檢驗法

1、皮爾遜\(\chi^2\)擬合檢驗法

2、魏氏(Wilcoxon)檢驗

3、麥氏(McNehmar)檢驗

參考文獻:
[1] 《統計學》第二版. 2010. 遊士兵