1. 程式人生 > >白話“卡方檢驗”

白話“卡方檢驗”

什麼是卡方檢驗

卡方檢驗是假設檢驗的一種,用於分析兩個類別變數的相關關係,是一種非引數假設檢驗,得出的結論無非就是相關或者不相關,所以有的教材上又叫“獨立性檢驗”,所以如果不是很清楚假設檢驗的朋友們,要好好複習一下假設檢驗了。提起假設檢驗,會扯出一堆東西,這裡我簡單為大家梳理一下。

什麼是“類別變數”?

類別變數就是取值為離散值的變數,“性別”就是一個類別變數,它的取值只有“男”和“女”,類似還有”婚否“、”國籍“等。

什麼是“分析兩個類別變數的相關關係”

卡方檢驗用於分析兩個類別變數的相關關係,這是什麼意思呢?以我們熟知的 Kaggle 平臺上的泰坦尼克號倖存者預測提供的資料為例,”性別“對於”是否倖存“的關係研究,就屬於這方面的內容。研究表明,泰坦尼克號上的乘客秉承”女士優先,照顧弱勢群體“的基本原則,因此女性倖存的概率比男性要大,這就說明,”性別“對於”是否倖存“有相關關係,我們後面會使用卡方檢驗來驗證這一事實。

假設檢驗

假設檢驗,顧名思義,就是提出一個假設,然後檢驗你提出的假設是否正確。假設檢驗的流程其實是固定的,關鍵其實在於理解假設檢驗的設計原則。

什麼是假設?

那麼我們假設什麼呢?這裡就要引入“原假設”和“備擇假設”的概念了,“原假設”是“備擇假設”的對立面。下面這個原則很重要:

備擇假設通常是研究者想收集證據予以支援的假設。原假設是研究者想收集證據予以推翻的假設。

重要的事情,我再寫兩遍:如果你想通過種種論證,證明一件事情,就要把這件事情寫成“備擇假設”。備擇假設通常用於表達研究者自己傾向於支援的看法(這很主觀),然後就是想辦法收集證據拒絕原假設,以支援備擇假設

特別要說明的一點是:如果你不遵守這個“原假設”和“備擇假設”設計的基本原則,你很可能會得到相反的結論。

假設檢驗很像司法界對於一個事實的認定,本著“疑罪從無”的原則,如果你要說明一個人有罪,你必須提供充足的證據,否則被告人的罪名就不能成立,這個說法叫“沒有充分的證據證明被告有罪”。

因此,如果我們最後的結論是“原假設”成立,我們一般不這麼說,即我們不說“原假設”成立,我們不說“原假設”是真的。我們說不能拒絕“原假設”,或者說沒有充分的證據拒絕“原假設”,或者說沒有充分的證據證明“備擇假設”成立

卡方檢驗的“原假設”與“備擇假設”

因為我們做假設檢驗一定是覺得兩個類別變數有關係,才去做檢驗。再想想那個“疑罪從無”原則,我們是覺得一個人有罪,才去舉證。因此卡方檢驗的“原假設”一定是假設獨立,“備擇假設”一定是假設相關,即:

原假設:類別變數 AA 與類別變數 BB 獨立 備擇假設:類別變數 AA 與類別變數 BB 不獨立

這一點應該是極其明確的,我們的統計軟體中都是這樣設定的。

如何檢驗?

做“檢驗”這件事情,就很像我們以前做的“反證法”,我們假定要證明的結論的對立面成立,然後推出矛盾,即說明了我們的假設是錯誤的,即原命題成立。請看下面這個例子:

請你證明:這個餐廳的菜很難吃。 證明:假設這個餐廳的菜很好吃,那麼週末的晚上生意一定很好,然而實際觀察下來,顧客流量和平時一樣,推出矛盾,所以假設不成立,即這個餐廳的菜很難吃。

用假設檢驗的思路,在這個例子中:

原假設:這個餐廳的菜很好吃; 備擇假設:這個餐廳的菜很難吃。

我們把傾向於要證明的結論設定為“備擇假設”,而推理是基於“原假設”成立進行的,推理得出矛盾,說明“原假設”錯誤,從錯誤的起點推出了錯誤的結論,因此“原假設”不成立,這就是假設檢驗裡面說的“拒絕原假設”。

因此,檢驗其實很簡單,就是一個是非論證的過程,是單選題,只有兩個選項,選擇其一。

假設檢驗如何論證

假設檢驗的論證其實是固定的,就是基於“小概率事件在一次試驗中幾乎不可能發生”,通常,我們得到的矛盾就在於:

通過計算統計量,發現通過一次試驗得到這個統計量是一個“小概率事件”,“小概率事件”在一次試驗中,居然發生了,我們就認為這是很“詭異”的,一定是之前的某個環節出了問題,即“原假設”不成立,於是拒絕“原假設”,即證明了“備擇假設”成立。

為什麼叫“卡方檢驗”,何為“卡方檢驗”?

“卡方分佈”(也寫作 “χ2\chi^2 分佈”)是統計學領域的三大分佈之一,另外兩個分佈是“tt 分佈”與“FF 分佈”,這些分佈都是由正態分佈推匯出來的,可以認為它們是我們熟知的分佈,因為它們可以取哪些值,以及取這些值的概率都是完全弄清楚了的。

統計學的研究任務是通過樣本研究總體,因為我們無法把所有的總體都做一次測試,一般可行的做法就是從總體中抽取一部分資料,根據對這一部分資料的研究,推測總體的一些性質。

而“三大分佈”就是我們研究樣本的時候選取的參照物。一般我們研究的思路是這樣的:如果經過分析,得出待研究的樣本符合這些我們已知的分佈之一,因為三大分佈是被我們的統計學家完全研究透了的,可以認為是無比正確的,就可以通過查表得到這些分佈的資訊,進而得到樣本的一些性質,幫助我們決策。

這裡舉一個例子,比如你是一個面試官,你手上掌握著“北京”、“上海”、“廣州”三個省市的人才資訊庫(相當於上面我們說的統計學的三大分佈),來了一個面試者,從簡歷中得知這個人來自“北京”,那麼我們就可以直接從“北京”市的人才資訊庫中查閱到他的詳細履歷,掌握到他更全面的資訊。

做假設檢驗的時候,我們也是類似的思路,我們需要利用總體的樣本構造出合適的統計量(或樞軸量),並使其服從或近似地服從已知的確定分佈,這樣我們就可以查閱這些確定分佈的相關資訊,得到待研究樣本所反映出來的總體的一些性質。

上面說到了“統計量”和“樞軸量”,下面簡單談一談。

統計量:不含總體分佈未知引數的函式稱為樣本的統計量。

統計量經常作為一個樣本的代表,例如平均數、眾數、最大值、最小值,統計量由多個數對映成一個數。

樞軸量:僅含有一個未知引數,並且分佈已知的樣本的函式,稱為樞軸量。

樞軸量的思想其實就是解方程,或者說解不等式,這一部分非常重要的理論基礎是“抽樣分佈定理”。如果忘記了的朋友們一定要翻翻以前的教程,“抽樣分佈定理”是非常重要的。根據抽樣分佈定理,我們經常是這樣用的:樣本的某個含有未知引數的函式符合某個已知分佈,已知分佈可以查表,因此未知引數的性質就知道了。求“置信區間”與做“假設檢驗”通常就是這樣的思路。

卡方檢驗的統計量

χ2=(fofe)2fe \chi^2=\sum\sum \frac{(f_o-f_e)^2}{f_e}

說明:fof_o 是觀測頻數(實際值),fef_e 是期望頻數(可以認為是理論值),期望頻數的計算公式我們馬上會介紹到。這個統計量服從自由度為 (r1)(c1)(r-1)(c-1)χ2\chi^2 分佈,rr 為行數,cc 為列數。

這裡一定要舉例才能說清楚了:

以下內容摘抄自中國人民大學龍永紅主編《概率論與數理統計》(第三版)P190 “獨立性檢驗”一節例 5.32。

研究青少年行為與家庭狀況的關係,調查結果如下:

青少年行為\家庭狀況 離異家庭 和睦家庭 合計
犯罪 178178 272272 450450
未犯罪 3838 502502 540540
合計 216216 774774 990990

分析:“青少年行為”是離散型變數,有“犯罪”與“未犯罪”兩個取值;“家庭狀況”是也離散型變數,有“離異家庭”與“和睦家庭”兩個取值,從直覺上,我們認為它們是相關的。因此

第 1 步:建立統計假設。

原假設:“青少年行為”與“家庭狀況”獨立。 備擇假設:“青少年行為”與“家庭狀況”不獨立。

第 2 步:計算期望頻數與檢驗統計量。

要計算出檢驗統計量,關鍵是計算出期望頻數。我們之前說到了,假設檢驗是基於原假設進行論證,因此,我們的期望頻數應該是基於【“青少年行為”與“家庭狀況”獨立】得到的。因此有:

兩個類別的交叉項的概率可以根據獨立事件的概率乘法公式得到。具體是這樣做的,從上面那張表中:

  • 一行一行看,這 990990 個青少年裡,P()=450990P(犯罪)=\cfrac{450}{990}P()=540990P(未犯罪)=\cfrac{540}{990}
  • 一列一列看,這 990990 個青少年裡,P()=216990P(離異家庭)=\cfrac{216}{990}P()=774990P(和睦家庭)=\cfrac{774}{990}

在【“青少年行為”與“家庭狀況”獨立】這個假設下有:

P()=P()×P()=450990×216990 P(“犯罪”並且“離異家庭”) = P(犯罪) \times P(離異家庭) = \cfrac{450}{990} \times \cfrac{216}{990}

P()=P()×P()=450990×774990 P(“犯罪”並且“和睦家庭”) = P(犯罪) \times P(和睦家庭) = \cfrac{450}{990} \times \cfrac{774}{990}

P()=P()×P()=540990×216990 P(“未犯罪”並且“離異家庭”) = P(犯罪) \times P(離異家庭) = \cfrac{540}{990} \times \cfrac{216}{990}

P()=P()×P()=540990×774990 P(“未犯罪”並且“離異家庭”) = P(犯罪) \times P(離異家庭) = \cfrac{540}{990} \times \cfrac{774}{990}

我們要計算期望頻數,就把上面這 44 個概率分別乘以樣本總數 990990 就可以了:

青少年行為\家庭狀況 離異家庭 和睦家庭
犯罪 450×21699098.18450\times \frac{216}{990} \approx 98.18 450×774990351.82450 \times \frac{774}{990} \approx 351.82
未犯罪 540×216990117.82540 \times \frac{216}{990} \approx 117.82 540×774990422.18540 \times \frac{774}{990} \approx 422.18

下面將每個單元格的 (fofe)2fe\frac{(f_o-f_e)^2}{f_e} 加起來,就可以得到 χ2\chi^2 統計量:

χ2=(17898.18)298.18+(272351.82)2351.82+(38117.82)2117.82+(502422.18)2422.1864.89+18.11+54.06+15.09152.15 \begin{aligned} \chi^2 &= \cfrac{(178-98.18)^2}{98.18} + \cfrac{(272-351.82)^2}{351.82} + \cfrac{(38-117.82)^2}{117.82} + \cfrac{(502-422.18)^2}{422.18} \\ & \approx 64.89 + 18.11 + 54.06 + 15.09 \\ & \approx 152.15 \end{aligned}

上面說服從自由度為 (r1)(c1)(r-1)(c-1)χ2\chi^2 分佈,rr 為行數,cc 為列數,即服從 (21)×(21)=1(2-1)\times (2-1) = 1χ2\chi^2

相關推薦

白話檢驗

什麼是卡方檢驗 卡方檢驗是假設檢驗的一種,用於分析兩個類別變數的相關關係,是一種非引數假設檢驗,得出的結論無非就是相關或者不相關,所以有的教材上又叫“獨立性檢驗”,所以如果不是很清楚假設檢驗的朋友們,要好好複習一下假設檢驗了。提起假設檢驗,會扯出一堆東西,這裡我

檢驗和互信息

其中 學習 learn 介紹 ear div 合計 應該 python實現 在機器學習中,特征選擇主要有兩個目的: 1. 減少特征數量,提高訓練速度 2. 減少噪聲特征從而提高模型在測試集上的準確率。一些噪聲特征會導致模型出現錯誤的泛化,容易產生overfittin

數學知識點查漏補缺(分布與檢驗

檢驗 element 影響 body protect 兩個 ram -m style 一、卡方分布 若k個獨立的隨機變量Z1,Z2,?,Zk,且符合標準正態分布N(0,1),則這k個隨機變量的平方和,為服從自由度為k的卡方分布。 卡方分布之所以經常被利用到,是因為對符合正態

ch2. 交叉表做檢驗

spss中交叉分析主要用來檢驗兩個變數之間是否存在關係,或者說是否獨立,其零假設為兩個變數之間沒有關係。在實際工作中,經常用交叉表來分析比例是否相等。例如分析不同的性別對不同的報紙的選擇有什麼不同。 spss交叉表分析方法與步驟:  1、在spss中開啟資料,然後依次開啟:analyz

[bigdata-128] 檢驗是什麼

先用一個例子解釋卡方。 一個硬幣,正面是字,反面是花。拋20次,有11次是字,9次是花。根據這個丟擲結果,可否假設拋一次硬幣出現字和花的概率都是50%?驗證這個假設,就是卡方檢驗。 期望次數:假如認為子和花出現概率都是50%丟擲的理論次數。本例中,拋20次,如果字和花出現的概率相同,那麼它們

Python資料預處理之---統計學的t檢驗檢驗以及均值,中位數等

Python資料預處理過程:利用統計學對資料進行檢驗,對連續屬性檢驗正態分佈,針對正態分佈屬性繼續使用t檢驗檢驗方差齊次性,針對非正態分佈使用Mann-Whitney檢驗。針對分類變數進行卡方檢驗(涉及三種卡方的檢驗:Pearson卡方,校準卡方,精準卡方)等。

Python統計分析-檢驗

卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非引數檢驗的範疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。 卡方檢驗的基本思想: 卡方檢驗是以χ2\chi^2

特徵選擇——檢驗(使用Python sklearn進行實現)

在看這篇文章之前,如果對卡方檢驗不熟悉,可以先參考:卡方檢驗 Python有包可以直接實現特徵選擇,也就是看自變數對因變數的相關性。今天我們先開看一下如何用卡方檢驗實現特徵選擇。 1. 首先import包和實驗資料: from sklearn.feature_selecti

檢驗值轉換為P值

卡方檢驗作為一種常見的假設檢驗,在統計學中的地位是顯而易見的,如果你還不太清楚可以參看這篇博文:卡方檢驗用於特徵選擇,寫的非常的淺顯易懂,如果你還想再擴充套件點卡方檢驗方面的知識,可以參看這篇博文卡方檢驗基礎,寫的也很有意思。前輩的功底都很深厚,小弟就就不再闡述卡方檢驗

SPSS:T檢驗差分析、非參檢驗檢驗的使用要求和適用場景

一、T檢驗 1.1 樣本均值比較T檢驗的使用前提 正態性;(單樣本、獨立樣本、配對樣本T檢驗都需要) 連續變數;(單樣本、獨立樣本、配對樣本T檢驗都需要) 獨立性;(獨立樣本T檢驗要求) 方差齊性;(獨立樣本T檢驗要求) 1.2 樣本均值比較T

檢驗思想及其應用

卡方檢驗是以χ2分佈為基礎的一種常用假設檢驗方法,它的無效假設H0是:觀察頻數與期望頻數沒有差別。   該檢驗的基本思想是:首先假設H0成立,基於此前提計算出χ2值,它表示觀察值與理論值之間的偏離

機器學習特徵選擇之檢驗與互資訊

by wangben  @ beijing 特徵選擇的主要目的有兩點: 1.      減少特徵數量提高訓練速度,這點對於一些複雜模型來說尤其重要 2.      減少noisefeature以提高模型在測試集上的準確性。一些噪音特徵會導致模型出現錯誤的泛化(genera

python 檢驗原理及應用

卡方檢驗,或稱x2檢驗。 無關性假設: 假設我們有一堆新聞或者評論,需要判斷內容中包含某個詞(比如6得很)是否與該條新聞的情感歸屬(比如正向)是否有關,我們只需要簡單統計就可以獲得這樣的一個四格表: 組別 屬於正向 不屬於正向 合計 不包含

機器學習中的數學(8)——檢驗原理及應用

卡方檢驗原理及應用 什麼是卡方檢驗 卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非引數檢驗的範疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。 無關

檢驗文字特徵選擇

關於卡方檢驗,下面這篇blog介紹的比較詳細,仔細思索之後,對一些點做如下說明,個人理解: 1. 關於假設“詞t與類別c無關”。這個假設應該變更為“詞t不是對分類有區分度的特徵”,(c是一個類別,除了c之外的所有資料組成另一個類別,類似邏輯迴歸多分類的方法)。一個詞的卡方檢驗值高,並不能說明詞一定與t強相關,

檢驗用於特徵選擇

卡方檢驗是特徵選擇中常用的演算法之一。 (1)      卡方分佈(chi-square distribution): 定義:若k個獨立的隨機變數z1,z2,…,zk,並且符合標準正太分佈N(0,1), 則這k個隨機變數的平方和 為服從自由度為k的卡方分佈,記為:x~x2(

檢驗 兩分類實現

import jieba import numpy as np import xlrd import re import json # 資料載入 # jieba詞庫設定 #讀取文字,讀取其中1個 #統計包含a的單詞和不包含a的單詞 #統計主題 def chisquare(d

分佈(Chi-squared Distribution)與檢驗(Chi-square Test)

卡方分佈 概念: 具有k個自由度的卡方分佈是一個由k個獨立標準正態隨機變數的和所構成的分佈。卡方分佈經常用於我們常見的卡方檢驗中。卡方檢驗一方面可以用來衡量觀測分佈和理論分佈之間的擬合程度,另一方面也可以測量定性資料兩個分類標準間的獨立性。 定義: 如果,,...,是

特徵選擇-檢驗用於特徵選擇

卡方分佈 若n個相互獨立的隨機變數X1、X2、…、Xn,均服從標準正態分佈(也稱獨立同分佈於標準正態分佈),則這n個隨機變數的平方和Q=∑ni=1X2i構成一個新的隨機變數,其分佈規律稱為卡方分佈或χ2分佈(chi-square distribution),其

統計學常用概念:T檢驗、F檢驗檢驗、P值、自由度

1,T檢驗和F檢驗的由來 一般而言,為了確定從樣本(sample)統計結果推論至總體時所犯錯的概率,我們會利用統計學家所開發的一些統計方法,進行統計檢定。 通過把所得到的統計檢定值,與統計學家建立了一些隨機變數的概率分佈(probability distribution)進