[bigdata-128] 卡方檢驗是什麼

阿新 • • 發佈：2018-11-06

先用一個例子解釋卡方。

一個硬幣，正面是字，反面是花。拋20次，有11次是字，9次是花。根據這個丟擲結果，可否假設拋一次硬幣出現字和花的概率都是50%？驗證這個假設，就是卡方檢驗。

期望次數：假如認為子和花出現概率都是50%丟擲的理論次數。本例中，拋20次，如果字和花出現的概率相同，那麼它們的期望次數都10。

我們可以把觀察次數和期望次數放到下表。

	觀察次數	期望次數	合計
字	11	10	21
花	9	10	19
合計	20	20	40

從直覺來說，如果觀察次數和期望次數是一樣的，假設是合理的。如果觀察次數和期望次數差別比較大，則假設是不合理的。由此，設計一個衡量觀察次數和期望次數之間差異的值 $\chi ^2=(11-10)^2+(9-10)^2=2$ 。又考慮到，如果拋硬幣次數不是10，是100次， $\chi ^2$ 會被影響，因此需要去掉次數的影響，也就是分別除以字和花的期望次數，本例這兩個值都是10，即 $\chi ^2=\frac{(11-10)^2}{10}+\frac{(9-10)^2}{10}=0.2$ 。

又考慮到，如果這不是一個硬幣，是一個骰子，那麼表格就會增加4行，由此導致 $\chi ^2$ 變化，也需要去掉這個因素的影響，這個因素稱之為自由度。

如何計算自由度？只要一種可能的話，自由度是0，有兩種可能，自由度是1。如果拋不是一個硬幣，而是一顆檯球，上面數字只有一種可能，此時自由度是0。一個藥片，吃下去的有三種結果：病治癒，病惡化，病不變，如果吃下去只有治癒這個可能，自由度是0，如果有三種可能，自由度是2。

對於本例的表格而言，行和列的自由度都有自己的自由度，分別是行數和列數減一。又考慮到行數和列數的乘積是表中數值的總數，因此全表對應的自由度是行和列自由度的乘積。本例的自由度由此計算出來是1。

對本例而言，計算出的 $\chi ^2$ 越小，越能驗證假設是正確的， $\chi ^2$ 越大，越證明假設是錯誤的。那麼，究竟 $\chi ^2$ 有多小，可以大概率認為假設正確呢？經驗而言，大家認為95%的概率是足夠大。95%的概率，從數學上解釋是這樣的： $\chi ^2$ 的概率密度曲線，自變數從0開始到某一個值之間的累計概率等於95%，也就是從0到這個值的概率密度曲線和x軸之見的面積是95%。可以參考下圖，上面每條線都是某自由度下的卡方概率密度曲線。