什麼是卡方檢驗

卡方檢驗是假設檢驗的一種，用於分析兩個類別變數的相關關係，是一種非引數假設檢驗，得出的結論無非就是相關或者不相關，所以有的教材上又叫“獨立性檢驗”，所以如果不是很清楚假設檢驗的朋友們，要好好複習一下假設檢驗了。提起假設檢驗，會扯出一堆東西，這裡我簡單為大家梳理一下。

什麼是“類別變數”？

類別變數就是取值為離散值的變數，“性別”就是一個類別變數，它的取值只有“男”和“女”，類似還有”婚否“、”國籍“等。

什麼是“分析兩個類別變數的相關關係”

卡方檢驗用於分析兩個類別變數的相關關係，這是什麼意思呢？以我們熟知的 Kaggle 平臺上的泰坦尼克號倖存者預測提供的資料為例，”性別“對於”是否倖存“的關係研究，就屬於這方面的內容。研究表明，泰坦尼克號上的乘客秉承”女士優先，照顧弱勢群體“的基本原則，因此女性倖存的概率比男性要大，這就說明，”性別“對於”是否倖存“有相關關係，我們後面會使用卡方檢驗來驗證這一事實。

假設檢驗

假設檢驗，顧名思義，就是提出一個假設，然後檢驗你提出的假設是否正確。假設檢驗的流程其實是固定的，關鍵其實在於理解假設檢驗的設計原則。

什麼是假設？

那麼我們假設什麼呢？這裡就要引入“原假設”和“備擇假設”的概念了，“原假設”是“備擇假設”的對立面。下面這個原則很重要：

備擇假設通常是研究者想收集證據予以支援的假設。原假設是研究者想收集證據予以推翻的假設。

重要的事情，我再寫兩遍：如果你想通過種種論證，證明一件事情，就要把這件事情寫成“備擇假設”。備擇假設通常用於表達研究者自己傾向於支援的看法（這很主觀），然後就是想辦法收集證據拒絕原假設，以支援備擇假設。

特別要說明的一點是：如果你不遵守這個“原假設”和“備擇假設”設計的基本原則，你很可能會得到相反的結論。

假設檢驗很像司法界對於一個事實的認定，本著“疑罪從無”的原則，如果你要說明一個人有罪，你必須提供充足的證據，否則被告人的罪名就不能成立，這個說法叫“沒有充分的證據證明被告有罪”。

因此，如果我們最後的結論是“原假設”成立，我們一般不這麼說，即我們不說“原假設”成立，我們不說“原假設”是真的。我們說不能拒絕“原假設”，或者說沒有充分的證據拒絕“原假設”，或者說沒有充分的證據證明“備擇假設”成立。

卡方檢驗的“原假設”與“備擇假設”

因為我們做假設檢驗一定是覺得兩個類別變數有關係，才去做檢驗。再想想那個“疑罪從無”原則，我們是覺得一個人有罪，才去舉證。因此卡方檢驗的“原假設”一定是假設獨立，“備擇假設”一定是假設相關，即：

原假設：類別變數 $A$ 與類別變數 $B$ 獨立備擇假設：類別變數 $A$ 與類別變數 $B$ 不獨立

這一點應該是極其明確的，我們的統計軟體中都是這樣設定的。

如何檢驗？

做“檢驗”這件事情，就很像我們以前做的“反證法”，我們假定要證明的結論的對立面成立，然後推出矛盾，即說明了我們的假設是錯誤的，即原命題成立。請看下面這個例子：

請你證明：這個餐廳的菜很難吃。證明：假設這個餐廳的菜很好吃，那麼週末的晚上生意一定很好，然而實際觀察下來，顧客流量和平時一樣，推出矛盾，所以假設不成立，即這個餐廳的菜很難吃。

用假設檢驗的思路，在這個例子中：

原假設：這個餐廳的菜很好吃；備擇假設：這個餐廳的菜很難吃。

我們把傾向於要證明的結論設定為“備擇假設”，而推理是基於“原假設”成立進行的，推理得出矛盾，說明“原假設”錯誤，從錯誤的起點推出了錯誤的結論，因此“原假設”不成立，這就是假設檢驗裡面說的“拒絕原假設”。

因此，檢驗其實很簡單，就是一個是非論證的過程，是單選題，只有兩個選項，選擇其一。

假設檢驗如何論證

假設檢驗的論證其實是固定的，就是基於“小概率事件在一次試驗中幾乎不可能發生”，通常，我們得到的矛盾就在於：

通過計算統計量，發現通過一次試驗得到這個統計量是一個“小概率事件”，“小概率事件”在一次試驗中，居然發生了，我們就認為這是很“詭異”的，一定是之前的某個環節出了問題，即“原假設”不成立，於是拒絕“原假設”，即證明了“備擇假設”成立。

為什麼叫“卡方檢驗”，何為“卡方檢驗”？

“卡方分佈”（也寫作 “ $\chi^2 分佈$ ”）是統計學領域的三大分佈之一，另外兩個分佈是“ $t$ 分佈”與“ $F$ 分佈”，這些分佈都是由正態分佈推匯出來的，可以認為它們是我們熟知的分佈，因為它們可以取哪些值，以及取這些值的概率都是完全弄清楚了的。

統計學的研究任務是通過樣本研究總體，因為我們無法把所有的總體都做一次測試，一般可行的做法就是從總體中抽取一部分資料，根據對這一部分資料的研究，推測總體的一些性質。

而“三大分佈”就是我們研究樣本的時候選取的參照物。一般我們研究的思路是這樣的：如果經過分析，得出待研究的樣本符合這些我們已知的分佈之一，因為三大分佈是被我們的統計學家完全研究透了的，可以認為是無比正確的，就可以通過查表得到這些分佈的資訊，進而得到樣本的一些性質，幫助我們決策。

這裡舉一個例子，比如你是一個面試官，你手上掌握著“北京”、“上海”、“廣州”三個省市的人才資訊庫（相當於上面我們說的統計學的三大分佈），來了一個面試者，從簡歷中得知這個人來自“北京”，那麼我們就可以直接從“北京”市的人才資訊庫中查閱到他的詳細履歷，掌握到他更全面的資訊。

做假設檢驗的時候，我們也是類似的思路，我們需要利用總體的樣本構造出合適的統計量（或樞軸量），並使其服從或近似地服從已知的確定分佈，這樣我們就可以查閱這些確定分佈的相關資訊，得到待研究樣本所反映出來的總體的一些性質。

上面說到了“統計量”和“樞軸量”，下面簡單談一談。

統計量：不含總體分佈未知引數的函式稱為樣本的統計量。

統計量經常作為一個樣本的代表，例如平均數、眾數、最大值、最小值，統計量由多個數對映成一個數。

樞軸量：僅含有一個未知引數，並且分佈已知的樣本的函式，稱為樞軸量。

樞軸量的思想其實就是解方程，或者說解不等式，這一部分非常重要的理論基礎是“抽樣分佈定理”。如果忘記了的朋友們一定要翻翻以前的教程，“抽樣分佈定理”是非常重要的。根據抽樣分佈定理，我們經常是這樣用的：樣本的某個含有未知引數的函式符合某個已知分佈，已知分佈可以查表，因此未知引數的性質就知道了。求“置信區間”與做“假設檢驗”通常就是這樣的思路。

卡方檢驗的統計量

$\chi^2=\sum\sum \frac{(f_o-f_e)^2}{f_e}$

說明： $f_o$ 是觀測頻數（實際值）， $f_e$ 是期望頻數（可以認為是理論值），期望頻數的計算公式我們馬上會介紹到。這個統計量服從自由度為 $(r-1)(c-1)$ 的 $\chi^2$ 分佈， $r$ 為行數， $c$ 為列數。

這裡一定要舉例才能說清楚了：

以下內容摘抄自中國人民大學龍永紅主編《概率論與數理統計》（第三版）P190 “獨立性檢驗”一節例 5.32。

研究青少年行為與家庭狀況的關係，調查結果如下：

青少年行為\家庭狀況	離異家庭	和睦家庭	合計
犯罪	$178$	$272$	$450$
未犯罪	$38$	$502$	$540$
合計	$216$	$774$	$990$

分析：“青少年行為”是離散型變數，有“犯罪”與“未犯罪”兩個取值；“家庭狀況”是也離散型變數，有“離異家庭”與“和睦家庭”兩個取值，從直覺上，我們認為它們是相關的。因此

第 1 步：建立統計假設。

原假設：“青少年行為”與“家庭狀況”獨立。備擇假設：“青少年行為”與“家庭狀況”不獨立。

第 2 步：計算期望頻數與檢驗統計量。

要計算出檢驗統計量，關鍵是計算出期望頻數。我們之前說到了，假設檢驗是基於原假設進行論證，因此，我們的期望頻數應該是基於【“青少年行為”與“家庭狀況”獨立】得到的。因此有：

兩個類別的交叉項的概率可以根據獨立事件的概率乘法公式得到。具體是這樣做的，從上面那張表中：

一行一行看，這 $990$ 個青少年裡， $P(犯罪)=\cfrac{450}{990}$ ， $P(未犯罪)=\cfrac{540}{990}$ ；
一列一列看，這 $990$ 個青少年裡， $P(離異家庭)=\cfrac{216}{990}$ ， $P(和睦家庭)=\cfrac{774}{990}$ ；

在【“青少年行為”與“家庭狀況”獨立】這個假設下有：

$P(“犯罪”並且“離異家庭”) = P(犯罪) \times P(離異家庭) = \cfrac{450}{990} \times \cfrac{216}{990}$

$P(“犯罪”並且“和睦家庭”) = P(犯罪) \times P(和睦家庭) = \cfrac{450}{990} \times \cfrac{774}{990}$

$P(“未犯罪”並且“離異家庭”) = P(犯罪) \times P(離異家庭) = \cfrac{540}{990} \times \cfrac{216}{990}$

$P(“未犯罪”並且“離異家庭”) = P(犯罪) \times P(離異家庭) = \cfrac{540}{990} \times \cfrac{774}{990}$

我們要計算期望頻數，就把上面這 $4$ 個概率分別乘以樣本總數 $990$ 就可以了：

青少年行為\家庭狀況	離異家庭	和睦家庭
犯罪	$450\times \frac{216}{990} \approx 98.18$	$450 \times \frac{774}{990} \approx 351.82$
未犯罪	$540 \times \frac{216}{990} \approx 117.82$	$540 \times \frac{774}{990} \approx 422.18$

下面將每個單元格的 $\frac{(f_o-f_e)^2}{f_e}$ 加起來，就可以得到 $\chi^2$ 統計量：

$\begin{aligned} \chi^2 &= \cfrac{(178-98.18)^2}{98.18} + \cfrac{(272-351.82)^2}{351.82} + \cfrac{(38-117.82)^2}{117.82} + \cfrac{(502-422.18)^2}{422.18} \\ & \approx 64.89 + 18.11 + 54.06 + 15.09 \\ & \approx 152.15 \end{aligned}$

上面說服從自由度為 $(r-1)(c-1)$ 的 $\chi^2$ 分佈， $r$ 為行數， $c$ 為列數，即服從 $(2-1)\times (2-1) = 1$ 的 $\chi^2$

白話“卡方檢驗”

什麼是卡方檢驗

什麼是“類別變數”？

什麼是“分析兩個類別變數的相關關係”

假設檢驗

什麼是假設？

卡方檢驗的“原假設”與“備擇假設”

如何檢驗？

假設檢驗如何論證

為什麼叫“卡方檢驗”，何為“卡方檢驗”？

卡方檢驗的統計量

白話“卡方檢驗”

卡方檢驗和互信息

數學知識點查漏補缺（卡方分布與卡方檢驗）

ch2. 交叉表做卡方檢驗

[bigdata-128] 卡方檢驗是什麼

Python資料預處理之---統計學的t檢驗，卡方檢驗以及均值，中位數等

Python統計分析-卡方檢驗

特徵選擇——卡方檢驗(使用Python sklearn進行實現)

卡方檢驗值轉換為P值

SPSS：T檢驗、方差分析、非參檢驗、卡方檢驗的使用要求和適用場景

卡方檢驗思想及其應用

機器學習特徵選擇之卡方檢驗與互資訊

python 卡方檢驗原理及應用

機器學習中的數學(8)——卡方檢驗原理及應用

卡方檢驗文字特徵選擇

卡方檢驗用於特徵選擇

卡方檢驗兩分類實現

卡方分佈（Chi-squared Distribution）與卡方檢驗（Chi-square Test）

特徵選擇-卡方檢驗用於特徵選擇

統計學常用概念：T檢驗、F檢驗、卡方檢驗、P值、自由度

白話“卡方檢驗”

什麼是卡方檢驗

什麼是“類別變數”？

什麼是“分析兩個類別變數的相關關係”

假設檢驗

什麼是假設？

卡方檢驗的“原假設”與“備擇假設”

如何檢驗？

假設檢驗如何論證

為什麼叫“卡方檢驗”，何為“卡方檢驗”？

卡方檢驗的統計量

相關推薦