【數理統計學習】統計假設檢驗

阿新 • • 發佈：2018-11-27

統計假設檢驗可分為引數假設檢驗和非引數假設檢驗兩大部分。

當總體分佈形式已知，檢驗的目的是對總體的引數及其性質作出判斷，則稱這種檢驗為引數假設檢驗。

若總體分佈形式未知，需對總體分佈函式形式或總體之間的關係進行推斷，則稱為非引數假設檢驗。

顯著性檢驗：先提出假設，然後作出否定或者不否定的判斷，稱為顯著性檢驗。

一、檢驗法則

有兩個對立的假設，其中$H_0$稱為原假設（零假設）;$H_1$稱為備擇假設（對立假設）。

要檢驗總體均值$\mu$，實際上可轉化為檢驗樣本均值$\overline{X}$，因為$\overline{X}$的觀察值$\overline{x}$

的大小在一定程度上反映了的$\mu$大小。如果$H_0$成立，則$\mid \overline{x}-\mu_0 \mid$一般不應太大，如果$\mid \overline{x}-\mu_0 \mid$過分大，則可懷疑$H_0$的正確性從而拒絕$H_0$，反之則接受$H_0$。

又考慮到當$H_0$成立時，統計量 $\frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}} $ ~ $ N(0,1)$，這樣衡量 $\mid \overline{x} - \mu_0 \mid$ 的大小就可等價地歸結為衡量 $\frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}} $ 的大小，由此我們可選定一正數$k$

，使得當$\frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}} \geq k$時，就拒絕$H_0$，當$\frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}} < k$時，就接受$H_0$。

由於$\frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}} $ ~ $ N(0,1)$，根據標準正態分佈分位點定義可得：
\[P \lbrace \frac{\mid \overline{x} - \mu_0 \mid}{\sigma / \sqrt{n}} \geq k \mid H_0為真 \rbrace = P \lbrace \frac{\mid \overline{x} - \mu_0 \mid}{\sigma / \sqrt{n}} \geq u_{1-\frac{\alpha}{2}} \mid H_0為真 \rbrace = \alpha\]

這樣，我們就得到如下檢驗法則：

若$\frac{\mid \overline{x} - \mu_0 \mid}{\sigma / \sqrt{n}} \geq u_{1-\frac{\alpha}{2}}$，則拒絕$H_0$；

若$\frac{\mid \overline{x} - \mu_0 \mid}{\sigma / \sqrt{n}} < u_{1-\frac{\alpha}{2}}$，則接受$H_0$。

於是，$\frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}} $就成了檢驗統計量。

當然，這只是討論了正態總體引數的假設檢驗問題，對於其他假設檢驗，雖然檢驗統計量不同，但其檢驗法則、基本思路一樣。

二、兩類錯誤

（一）第I類錯誤

當$H_0$為真時，我們卻作出了拒絕$H_0$的判斷，這個時候我們就犯了第I類錯誤，又稱為“棄真”。即在原假設成立的情況下拒絕了原假設，從而把正確的內容當作錯誤的內容拋棄了。

犯第I類錯誤的概率為：$P \lbrace 拒絕H_0 \mid H_0為真 \rbrace = \alpha$

這裡，$\alpha$為顯著性水平。

（二）第II類錯誤

當$H_0$不成立時，卻接受$H_0$了，我們稱這類錯誤為第II類錯誤，又稱為“取偽”。

犯第II類錯誤的概率為：$P \lbrace 接受H_0 \mid H_0為假 \rbrace = \beta$

現實中$\alpha$、$beta$的值不可能同時小，也就是說，在樣本容量給定的情況下，如果減少犯第I類錯誤的概率，就可能增加犯第II類錯誤的概率。由於第I類錯誤相對於第II類錯誤導致的後果更為嚴重，因此現實中的做法通常是對犯第I類錯誤的概率加以控制，然後再適當考慮犯第II類錯誤的概率。

我們把這種只對犯第I類錯誤的概率加以控制，而不考慮犯第II類錯誤的檢驗問題，稱為顯著性檢驗問題。

三、基本方法

引數假設檢驗通常採用$\mu$檢驗法、$t$檢驗法、$F$檢驗法、$\chi^2$檢驗法等；

非引數假設檢驗通常採用皮爾遜擬合檢驗、魏氏檢驗、麥氏檢驗法。

（一）引數假設檢驗法

引數假設檢驗法具體包括正態總體引數檢驗和非正態總體引數檢驗。

1、正態總體引數檢驗

對於正態總體，其引數無非是兩個：$\mu$和$\sigma^2$。如果加上兩個正態總體的引數一塊比較，也只有四種情形：①關於$\mu$的檢驗；②關於$\sigma^2$的檢驗；③關於$\mu_1-\mu_2$的檢驗；④關於$\frac{\sigma_1^2}{\sigma_2^2}$的檢驗。

（1）$\mu$檢驗

$\mu$檢驗適用於在方差已知的情況下，對期望值$\mu$的檢驗（包括單總體和多總體）。

a.在單個正態總體情況下，適用檢驗統計量：

$\mu = \frac{\mid \overline{x}-\mu_0 \mid}{\sigma /\sqrt{n}}$~$N(0,1)$

b.在兩個正態總體情況下，設$x_1,x_2,\ldots,x_{n_1}$,為出自$N(\mu_1,\sigma_1^2)$的樣本，$y_1,y_2,\ldots,y_{n_2}$為出自$N(\mu_2,\sigma_2^2)$的樣本，$\sigma_1^2,\sigma_2^2$已知，且樣本之間相互獨立。則適用統計量為：

$\mu = \frac{\overline{x} - \overline{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$ ~ $N(0,1)$

另外，對總體百分數的檢驗一般也採用檢驗法進行，其適用統計量為：

\[\mu = \frac{p_x-p_{\mu}}{\sqrt{\frac{p_{\mu}(1-p_{\mu})}{n}}}\]

其中，$p_x$為樣本百分數，$p_{\mu}$為總體百分數。

（2）$t$檢驗

$t$檢驗適用於當方差未知時對期望值$\mu$的檢驗。總體可以是單總體，也可以是雙總體。但如果是雙總體，它們之間的樣本必須是獨立的。

a.對於單總體，適用檢驗統計量為：
$t= \frac{\overline{x} - \mu_0}{\frac{s}{\sqrt{n}}}$~$t(n-1)$
b.對於雙總體，可分為兩種情況進行討論。

第一種情況是，$\sigma_1^2,\sigma_2^2$未知，但$\sigma_1^2=\sigma_2^2=\sigma^2$。此時可選擇檢驗統計量：
$t= \frac{\overline{x} -\overline{y}}{s_{\omega} \cdot \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$~$t(n_1+n_2-2)$

第二種情況是，$\sigma_1^2,\sigma_2^2$未知，但$n_1=n_2=n$。此時可考慮採用配對檢驗法，具體方法如下：

令：$d_i=x_i-y_i(i=1,2,\ldots,n)$，並假定$d_1,d_2,\ldots,d_n$分別是來自正態總體$N(\mu_d,\sigma^2)$的樣本。$\mu_d,\sigma^2$均未知，$\overline{d}$與$s^2$分別是$d_1,d_2,\ldots,d_n$的樣本均值和樣本方差。若進行雙邊檢驗，可令$H_0:\mu_d=0,H_1:\mu_d \neq 0$。

此時可選擇$t= \frac{\overline{d}-0}{\frac{s}{\sqrt{n}}}$~$t_{1-\frac{\alpha}{2}}(n-1)$作為檢驗統計量，其拒絕域為：
\[c_1= \lbrace t \mid \mid t \mid \geq t_{1-\alpha}(n-1) \rbrace\]

（3）$\chi^2$檢驗

$\chi^2$檢驗主要用於對方差$\sigma^2$的檢驗，且適用於單引數情形。

a.$\mu$未知

設$x_1,x_2,\ldots,x_n$為$N(\mu,\sigma^2)$的一個樣本，考慮假設：
①$H_0:\sigma^2 = \sigma_0^2, H_1:\sigma^2 \neq \sigma_0^2$
②$H_0:\sigma^2 \leq \sigma_0^2, H_1:\sigma^2 > sigma_0^2$
適用檢驗統計量為：
$\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}$~$\chi^2(n-1)$

b.$\mu$已知

適用於檢驗統計量為：

$\chi^2 = \frac{\sum_{i=1}^n (x_i-\mu_0)^2}{\sigma_0^2}$~$\chi^2(n)$

(4)$F$檢驗

$F$檢驗也是用於對方差的檢驗，不同的是，$F$檢驗往往用於兩引數情形。

設$x_1,x_2,\ldots,x_{n_1}$和$y_1,y_2,\ldots,y_{n_2}$分別為出自$N(\mu_1,\sigma_1^2)$和$N(\mu_2,\sigma_2^2)$的樣本，且樣本之間獨立。考慮假設：
①$H_0:\sigma_1^2=\sigma_2^2, H_1:\sigma_1^2 \neq \sigma_2^2$
②$H_0:\sigma_1^2 \leq \sigma_2^2, H_1: \sigma_1^2 > \sigma_2^2$

適用檢驗統計量為：
$F=\frac{s_1^2}{s_2^2}$~$F(n_1-1,n_2-1)$

2、非正態總體引數檢驗

非正態總體的抽樣分佈不易求出，求檢驗統計量及其分佈就很困難了，因此除一些特殊例子外，非正態總體引數的假設檢驗常採用大樣本方法。大樣本一般要求$n \geq 30$，最好$n \geq 50$。

設$x_1,x_2,\ldots,x_n$是總體$X$的樣本，$X$~$N(\mu,\sigma^2 )$，$n$足夠大。要檢驗的假設有：

（1）$H_0:\mu=\mu_0, H_1:\mu \neq \mu_0$

（2）$H_0:\mu \geq \mu_0, H_1:\mu < \mu_0$

（3）$H_0:\mu \leq \mu_0, H_1:\mu > \mu_0$

由於$X$不是正態分佈，故求出其檢驗統計量及其分佈比較困難，但當$n$足夠大且$H_0$成立時，根據中心極限定理，有：
$\mu = \frac{\overline{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}$~$N(0,1)$

在具體選擇檢驗統計量時，可分兩種情況討論：

（1）當$\sigma^2$已知時，可選擇檢驗統計量：

$\mu = \frac{\overline{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}$~$N(0,1)$

（2）當$\sigma^2$未知時，可選擇檢驗統計量：

$\mu = \frac{\overline{x} - \mu_0}{\frac{s}{\sqrt{n}}}$~$N(0,1)$

（二）非引數檢驗法

1、皮爾遜$\chi^2$擬合檢驗法

2、魏氏（Wilcoxon）檢驗

3、麥氏（McNehmar）檢驗

參考文獻：
[1] 《統計學》第二版. 2010. 遊士兵

【數理統計學習】統計假設檢驗

一、檢驗法則

二、兩類錯誤

（一）第I類錯誤

（二）第II類錯誤

三、基本方法

（一）引數假設檢驗法

1、正態總體引數檢驗

（1）\(\mu\)檢驗

（2）\(t\)檢驗

（3）\(\chi^2\)檢驗

(4)\(F\)檢驗

2、非正態總體引數檢驗

（二）非引數檢驗法

1、皮爾遜\(\chi^2\)擬合檢驗法

2、魏氏（Wilcoxon）檢驗

3、麥氏（McNehmar）檢驗

【數理統計學習】統計假設檢驗

【基礎水題】統計單詞個數

【提高組NOIP2007】統計數字

【二叉樹】統計成績出現的次數

【代碼學習】PHP面向對象之抽象類與接口

【源碼學習】之requirejs

【算法學習】03---算法分析學習

【算法學習】老算法，新姿勢，STL——Heap

【代碼學習】PYHTON 元組

【C語言學習】《C Primer Plus》第8章字符輸入/輸出和輸入確認

【C語言學習】《C Primer Plus》第6章 C控制語句：循環

【redis 基礎學習】（六）Redis HyperLogLog

【代碼學習】PYTHON 異常處理

【代碼學習】PYTHON 生成器

【代碼學習】PYTHON 線程

【代碼學習】角色添加權限的方法，先刪除，再添加。而不是用修改，這樣很方便。

【算法學習】雙調歐幾裏得旅行商問題（動態規劃）(轉)

【安全牛學習】筆記手動漏洞挖掘（三）

【代碼學習】Spring MVC實現用戶註冊功能

【Lua基礎學習】微信三公源碼搭建---Lua基礎數據類型

【數理統計學習】統計假設檢驗

一、檢驗法則

二、兩類錯誤

（一）第I類錯誤

（二）第II類錯誤

三、基本方法

（一）引數假設檢驗法

1、正態總體引數檢驗

（1）\(\mu\)檢驗

（2）\(t\)檢驗

（3）\(\chi^2\)檢驗

(4)\(F\)檢驗

2、非正態總體引數檢驗

（二）非引數檢驗法

1、皮爾遜\(\chi^2\)擬合檢驗法

2、魏氏（Wilcoxon）檢驗

3、麥氏（McNehmar）檢驗

相關推薦