【概率論與數理統計】小結10-1 - 假設檢驗概述
註:終於寫到最激動人心的部分了。假設檢驗應該是統計學中應用最廣泛的數據分析方法,其中像"P值"、"t檢驗"、"F檢驗"這些如雷貫耳的名詞都來自假設檢驗這一部分。我自己剛開進入生物信息學領域,用的最多的就是"利用t檢驗來判斷某個基因在實驗組和對照組中表達量的差異是否顯著"。此外,對"P值"真正含義的探究也開啟了自學概率論與數理統計之路。因此無論是應用價值,還是對我學習統計學的影響,這部分的內容都是意義非凡的。
下面是兩篇相關的文章,分別寫於2011年和2016年,僅供參考:
- 生物學中P值的意義,2011
- 顯著性檢驗——費舍爾與“女士品茶”,2016
1. 假設檢驗
從樣本到總體的推理被稱為統計推斷。應用統計學家費舍爾認為常用的統計推斷有三種基本形式:抽樣分布、參數估計和假設檢驗。
對於假設檢驗,從字面意思來看,"假設"這個詞在這裏就是一個其正確與否有待通過樣本去判斷的陳述。假設是對一個或多個總體的概率分布或參數的假設;在做判斷時掌握的信息是從總體中抽取的樣本。在數理統計中,通用"檢驗"一詞來代替上文匯總的"判斷"。因此假設檢驗就是根據樣本的信息檢驗對相關總體的某個假設是否正確。
假設檢驗的類型
根據總體分布是否已知以及檢驗的內容,可以將假設檢驗分為以下兩類:
- 參數假設檢驗:總體分布已知,檢驗關於未知參數的某個假設(主要包括對總體均值及方差、均值差、方差比等參數的檢驗);
- 非參數假設檢驗:總體參數未知時的假設檢驗問題(主要包括分布擬合檢驗、符號檢驗、秩和檢驗等).
基本理論依據
假設檢驗的基本理論依據:實際推斷原理,即“小概率原理”.
2. 一般步驟(臨界值法)
根據樣本對原假設進行判斷,有兩種方法,臨界值法和P值法。臨界值法是根據顯著性水平和統計量的分布確定一個檢驗統計量的臨界值,然後根據檢驗統計量的值與臨界值之間的關系來做決定。 在引例中,臨界值就是下面$2.1$節中的待定常數C,檢驗統計量就是樣本均值$\bar{X}$.
引例:
體重指數BMI是目前國際上常用的衡量人體胖瘦程度以及是否健康的一個標準,專家指出,健康成年人的BMI取值應該在18.55-24.99之間。某種減肥藥廣告宣傳,連續使用該種減肥藥一個星期便可以達到減肥的效果。為了檢驗其說法是否可靠,隨機抽取9位實驗者(要求BMI指數超過25、年齡在20-25歲的女生),先讓每位女生記錄沒有服用減肥藥之前的體重,然後讓每位女生服用該減肥藥,服藥期間,要求每位女生保持正常的飲食習慣,連續服用該減肥藥1周後,再次記錄各自的體重。測得服用減肥藥前後的體重差值(服藥前體重 - 服藥一周後體重)(單位:kg):
$$1.5, 0.6, -0.3, 1.1, -0.8, 0, 2.2, -1.0, 1.4$$
圖1:BMI計算公式
問題:根據目前的樣本資料能否認為該減肥藥廣告中的宣稱是可靠的?
這裏提出的問題就是一個假設檢驗的問題,包括以下要素:
1). 我們有一個總體,即所考察的BMI指數超過25、年齡在20-25歲的女生服用減肥藥一周前後的體重差(這是理想總體,雖然沒有在所有符合條件的人群中做實驗),且假設該總體服從正態分布$X \sim N(\mu, \sigma^2)$,為了解題方便進一步假設方差$\sigma^2 = 0.36$. 此時總體的分布還有未知參數$\mu$.
2). 從該總體中中抽出的9個樣本,即9位參與試驗的人.
3). 有一個命題,其正確與否完全取決於未知參數$\mu$的值. $\mu$的取值可以分為三個部分,表示不同的實驗效果:$\mu = 0$時表示體重沒有變化;$\mu > 0$表示體重下降了;$\mu < 0$表示體重增加了. 在做判斷時,只有$\mu > 0$的情況(甚至更嚴格)才有可能支持"減肥藥有效"這個結論.
下面是進行假設檢驗的一般步驟。
2.1 建立兩個完全對立的假設:原假設與備擇假設
在作假設檢驗之前,必須確定原假設(或零假設,$H_0$)和備擇假設(或對立假設,$H_1$)。這兩個假設通常是完全對立的,例如藥物有效與無效,基因表達量有差異與沒有差異等。決定誰作原假設,依賴於立場、慣例和方便性。選擇零假設的基本原則是:保護零假設,盡量維持現狀或取簡單假設。例如篩選差異基因,原假設是兩組基因沒有差異,只有在具有了充足的證據,證明兩組基因是有差異的,才能拒絕原假設,說明它們是有差異的。
對於引例中的問題來說,站在消費者的角度,需要嚴格看待減肥藥的效果,因此原假設可以設定為該藥物沒有作用。那麽根據題設,轉化成數學語言為:
服用減肥藥前後體重差值$X \sim N(\mu, \sigma^2)$,方差$\sigma^2 = 0.36$
檢驗假設:$H_0: \mu = 0, H_1: \mu > 0$
因為$\bar{X}$是$\mu$的無偏估計,$\bar{X}$的取值大小反映了$\mu$的取值大小,當原假設成立時,$\bar{X}$取值應偏小(這裏X表示體重差,體重差越小表示該減肥藥的效果越不明顯)。因此,
當$\bar{X} \ge C$時,拒絕原假設$H_0$,
當$\bar{X} < C$時,接受原假設$H_0$,
其中C是待定常數——檢驗統計量的臨界值。
2.2 給出檢驗統計量,並確定拒絕域的形式
在做統計分析時,很多步驟都與各種不同的分布有關,例如代表樣本數值特征的統計量;用來做參數估計的樞軸量(包含一個未知量的統計量);還有這裏出現的用於假設檢驗的檢驗統計量。
如果統計量$T = T(X_1, ..., X_n)$的取值大小與原假設$H_0$是否成立有密切聯系,就可以將其稱為對應假設問題的檢驗統計量,而對應於拒絕原假設$H_0$時,樣本值的範圍稱為拒絕域,記為$W$,其補集$\bar{W}$稱為接受域。確定一個檢驗,等價於指定其接受域或否定域。
引例中的檢驗統計量為$\bar{X}$,拒絕域為
$$W = \{(X_1, ..., X_n): \bar{X} \ge C\}$$
C如何選擇,是問題的關鍵。
首先要理解C點的含義:C值取定後就是一個固定的值,C點將隨機變量的整個取值範圍$(0,+\infty)$分成了兩個部分,左邊為接受域,右邊為拒絕域(這裏衡量的是體重差,拒絕域在右邊,沒有考慮體重增加的情況)。
所以當樣本均值$\bar{X} < C$時,就落到了接受域(也就是$\bar{X}$與0接近到了一定程度,類似於樣本均值落到了0的鄰域),就可以認為$\bar{X}$與0沒有差別。又因為$\bar{X}$是總體均值$\mu$的無偏估計,因此可以認為總體的均值$\mu=0$,從而接受原假設$H_0$。當樣本均值$\bar{X} > C$時,就落到了拒絕域(樣本均值與0的差別非常大),所以就拒絕了原假設。
2.3 根據顯著水平和統計量的分布確定臨界值
兩類錯誤
在檢驗一個假設$H_0$時,有可能犯以下兩類錯誤之一:
1). $H_0$正確,但被否定了,即丟棄了真假設(棄真),也叫作"第一類錯誤"或"I型錯誤";
2). $H_0$不正確,但被接受了,即接受了假的假設(取偽),也叫作"第二類錯誤"或"II型錯誤"
在引例中,如果犯了第一類錯誤,就會將本來沒有減肥效果的減肥藥當做有減肥效果,從而對消費者的利益造成比較大的損害;如果犯了第二類錯誤,就會將本來有減肥效果的藥物當做沒有減肥效果,這會讓制藥公司蒙受損失。再舉一個例子:某流行病的發病率為0.1%,由於發病率比較低,可以將"來檢測的人沒有患病"作為原假設$H_0$. 此時如果犯了第一類錯誤,就會將健康人診斷為病人從而開具錯誤的處方,通常也將這種情況稱作假陽性;如果犯了第二類錯誤,就會將病人診斷為健康人從而可能使病人錯過最佳治療時間,且有可能傳染給其他人,通常也將這種情況稱為假陰性.
下面是一張廣為流傳的圖,用來說明"假陽性"和"假陰性",其原假設$H_0$是"沒有懷孕":
圖2:假陽性&假陰性
我們希望在檢驗一個假設$H_0$時,犯兩類錯誤的概率都盡量小。但是難免會有失誤的時候,而且這兩類錯誤是相互對立的:對於引例來說,假如檢驗的條件非常嚴格(例如規定必須每個人的體重都下降10kg),則犯第一類錯誤的概率就會比較小,但是大大提高了假陰性的概率。對於引例來說,犯第一類錯誤的後果顯然比犯第二類錯誤的後果嚴重,因此檢驗的標準需要偏嚴格一些。
在區間估計中,也存在類似的問題:想要增大可靠性即置信系數,就會使區間長度變大而降低精度,反之亦然. 在區間估計中,是用"保一望二"的原則來解決這個問題的,即使置信系數達到指定值,在這個限制之下使區間精度盡可能大. 在假設檢驗中也是這樣辦:先保證第一類錯誤的概率不超過某指定值$\alpha$($\alpha$通常較小,最常用的是0.05和0.01,有時也取0.001, 0.1或0.2等值),在這個限制下,使第二類錯誤的概率盡可能小. 以上原則也被稱為"奈曼-皮爾遜原則".
繼續分析引例中的問題,取顯著性水平$\alpha = 0.05$,
當原假設$H_0$成立時 $\Rightarrow \frac{\bar{X}}{0.6 / \sqrt{9}} \sim N(0, 1)$,(統計量的分布)
此時,顯著性水平就是犯第一類錯誤的概率的上限:
$P\{\bar{X} \ge C | \mu=0\} = P\{\frac{\bar{X}}{\sigma/\sqrt{n}} \ge \frac{C}{\sigma/\sqrt{n}} | \mu=0\}$
$= 1 - \Phi(\frac{C}{\sigma/\sqrt{n}}) \le \alpha = 0.05.$, $(0.05 = \Phi(-z_{0.05}))$. $1 - \Phi(x)$越小,$x$越靠近分布的右端,值越大
$\Rightarrow \frac{C}{0.6/\sqrt{9}} \ge z_{0.05} = 1.645. \Rightarrow C \ge 0.329.$
其中,$\Phi(x)$表示區間$(-\infty, x)$上x軸與概率密度函數圍成的面積;$z_{\alpha}$表示概率密度函數的上$\alpha$分位點;檢驗統計量是樣本的均值,標準化後服從標準正態分布(總體方差已知).
2.4 根據樣本得出結論
根據樣本信息得,$\bar{X} = 0.522 > 0.329$.
當原假設$H_0$成立時,樣本落在拒絕域的概率不超過0.05,這是一個小概率事件(小概率事件發生了)。
根據實際推斷原理,有充分的理由拒絕原假設,認為廠家的宣傳是可靠的.
同理,若$\alpha = 0.01$,可以計算得到$ W = \{ \bar{X} \ge 0.465\}$,此時條件變得更加嚴格,仍然可以拒絕原假設.
3. P值法
P值法的前兩步與臨界值法相同,下面是"P值法"的第三步和第四步. 由於在P值法中,只與顯著性水平$\alpha$進行比較,也就是只對第一類錯誤進行了限制,因此也被稱為"顯著性檢驗"(Significance Test).
3.3 計算最小顯著水平——P值法
P值的定義:當原假設$H_0$成立時,檢驗統計量取比觀察到的結果更為極端的數值的概率。(如果比觀察結果更極端的事件發生的概率非常小,那麽觀察結果本身發生的概率也會非常小!)
$$P_{\_} = P\{\bar{X} \ge \bar{x} = 0.522 | \mu = 0\} = 1 - \Phi(\frac{0.522}{0.6/\sqrt{9}}) = 0.0045 < \alpha = 0.05$$
按照P值的定義,現在觀察到的結果為$\bar{x} = 0.522$,觀察到比$\bar{x}$更大的結果的概率為0.0045. 這個概率非常小,小到幾乎不可能發生.
那麽此時的觀察結果本身$\bar{x} = 0.522$的概率也非常小,接近0.0045,也就是說在原假設"減肥藥無效"成立的情況下,小概率事件發生了,因此要拒絕原假設.
帶概率性質的反證法:
該方法有點像"反證法",但是又有不同之處,因此被稱為"帶概率性質的反證法". 一般的反證法要求在原假設成立的條件下導出的結論是絕對成立的,如果事實與之矛盾,則完全絕對地否定原假設.
概率反證法的邏輯是:如果小概率事件在一次試驗中發生,我們就以很大的把握拒絕原假設.
3.4 比較P_值與顯著水平,得出結論
P_值與顯著性水平$\alpha$的關系:
1). 若$P_{\_} \le \alpha$,等價於樣本落在拒絕域內,因此,拒絕原假設,稱檢驗結果在水平$\alpha$下是統計顯著的;
2). 若$P_{\_} > \alpha$,等價於樣本沒有落在拒絕域內,因此,不拒絕(接受)原假設,稱檢驗結果在水平$\alpha$下統計不顯著.
reference
https://marginalrevolution.com/marginalrevolution/2014/05/type-i-and-type-ii-errors-simplified.html
https://allizhealth.com/wp-content/uploads/2016/07/BMI-Formula-1.jpg
http://www.360doc.com/content/17/0904/19/45877835_684588486.shtml
http://staff.ustc.edu.cn/~zwp/teach/Prob-Stat/Lec16_slides.pdf
《概率論與數量統計》,陳希孺,中國科學技術大學出版社,2009年2月第一版
中國大學MOOC:浙江大學&哈爾濱工業大學,概率論與數理統計
【概率論與數理統計】小結10-1 - 假設檢驗概述