1. 程式人生 > >如何簡單理解建假設檢驗?

如何簡單理解建假設檢驗?

1 概論

假設檢驗的假設是關於總體的一個普遍性論斷,這個檢驗是看從樣本得出的結論能否推論到總體

假設檢驗的基本邏輯是基於科學哲學的一個重要論點:全稱命題只能被否證而不能被證明。這個道理很簡單,個案當然不足以證明一個全稱命題,但是卻可以否定全稱命題。

研究時,我們當然不希望否證自己的研究假設,所以我們就搞個和研究假設相反的虛無假設。如果我們否證了虛無假設,就相當於我們證明了研究假設。所以假設檢驗就是要試圖否證虛無假設,或者說拒絕虛無假設。這是第一層道理。

第二層道理和抽樣分佈有關。由於抽樣的原因,樣本並不可能絕對地否證虛無假設。在個案中,小概率事件可以等同於不可能發生的事件。如果虛無假設的小概率事件發生了,我們在這個意義上去在一定的事先約定的概率水平上去拒絕虛無假設。

其實理解起來很簡單,基本原理只有兩個:
1、一個命題只能證偽,不能證明為真(科學也只能證偽)
2、在一次觀測中,小概率事件不可能發生。

常規來說,假設檢驗的套路就4步

  1. 問題是什麼?
  2. 證據是什麼?
  3. 判斷標準是什麼?
  4. 做出結論。

2 舉例

為了便於理解,整合參考文獻中的一個例子,如下:

我說我射擊特別厲害,平均能打到8環,那麼如何驗證我是不是在吹牛逼呢,那就讓我做幾次射擊看看我水平到底怎麼樣。

根據假設檢驗的套路:

1、問題是什麼?問題就是要檢測我能不能平均打到8環。

根據這個問題我提出來下面兩個互為相反的假設。

  • 原假設:我的成績在8環附近(>8環)。
  • 備擇假設:我的成績達不到8環。

為什麼要提出2個假設呢?

正如前面所提到的,從邏輯學角度來說,如果我們能夠證明某個原假設不成立,那麼其對立假設(備擇假設)肯定為真。對應這個例子,如果我能找到足夠強的證據來否定原假設,那麼我就能有效的說明原假設不成立,則備擇假設成立。

2、證據是什麼?

根據中心極限定理,足夠多的樣本數可以代表總體。所以我看打幾次靶,然後統計一下我打出的環數。

根據我打靶的記錄,我利用自己的統計知識,計算出了,在原假設成立的情況下,我的成績在8環附近的概率。

3、判斷標準是什麼?

我作為一個8環水平的選手,射中的環數應該服從一個平均值為8的高斯分佈。
但是事先說好我的原則:
1、可能我當天沒吃飽飯呀、或者心情不好呀,而且也就只讓我射擊幾次,我可能發揮不好等等的,所以你不能輕易懷疑我,

如果我打7環、6環甚至4環你也不能懷疑我在吹牛
2、但是畢竟作為一個8環水平的選手,基本功還應該是在的,如果我只打出了2環,你就會懷疑我是不是在吹牛了,請注意,作為一個8環水平的選手,打出2環可是概率極低的事情

那麼根據這個規則我們設定一個閾值比如3.6環(這個閾值就是臨界值),如果我的成績為2環(我的成績是觀察值),那我就是在吹牛。注意作為一個8環選手,打出小於這個閾值的概率是極低的(這個概率就是顯著性水平)。
還有一種判斷我是不是在吹牛的方法是,我已經打完了,計算打出小於我這個成績的概率(這個概率是p值),如果這個概率小於顯著性水平,則說明我的成績小於於臨界值,則說明我在吹牛;反之則我沒吹牛。

可以這麼理解這句話:p值是打出小於我這個成績的概率,如果p值很小很小,說明我目前這個成績已經很爛了,即發生了我打出2環的事情,這就說明了我在吹牛,可以拒絕原假設。那麼如何判斷我目前成績是不是很爛呢,即如果p小於顯著性水平(\alpha),說明我的成績很爛,可以拒絕原假設“我的成績在8環附近”

p值也可以認為是,在原假設成立的前提下,得到樣本觀察結果(即打出8環或者4環或者2環)出現的概率。

4、做出結論。

如果p<=\alpha,則拒絕原假設。

如果p>\alpha,則原假設成立。

3 結論

用統計的說法就是:
1、不輕易拒絕原假設。原假設即使真的成立,而觀察的樣本由於數量較少,觀察值存在一定的波動。所以我們要給原假設一定範圍的容忍度,這個容忍度要儘可能大,觀察值出現在這個範圍內都是可以容忍的。

2、小概率事件發生不正常。如果小概率事件還是發生了,那麼就說明原假設有問題。

結合這兩點,我們設定一個隨機變數的區域,這個區域是偏離原假設的,並且發生在這個區域的概率很小,如果實際觀察到的值還是出現在這個不太可能出現的範圍內,那麼我們可以拒絕原假設。

兩種決定是否接受原假設的方法:

1、給定發生偏離原假設極端情況的概率(這就是顯著性水平alpha),可以計算得到對應的臨界值。若觀察值在臨界值範圍內,表示出現這種現象都是比較正常的,則可接受原假設;若觀察值超出臨界值範圍,則表示在原假設條件下出現了不太可能的現象,那麼我們就懷疑原假設的成立性,則拒絕原假設。

2、給定發生偏離原假設極端情況的概率。計算出現觀察值及比觀察值還要偏離原假設的概率(這就是p值)。若p>alpha,則表示觀察值在臨界值範圍內,則可接受原假設;若p<alpha,則表示觀察值在臨界值範圍之外,則拒絕原假設。

4 參考文獻