卡方檢驗思想及其應用

阿新 • • 發佈：2019-01-08

卡方檢驗是以 $χ 2$ 分佈為基礎的一種常用假設檢驗方法，它的無效假設 $H 0$ 是：觀察頻數與期望頻數沒有差別。

該檢驗的基本思想是：首先假設 $H 0$ 成立，基於此前提計算出 $χ 2$ 值，它表示觀察值與理論值之間的偏離程度。根據 $χ 2$ 分佈及自由度可以確定在 $H 0$ 假設成立的情況下獲得當前統計量及更極端情況的概率P。如果當前統計量大於P值，說明觀察值與理論值偏離程度太大，應當拒絕無效假設，表示比較資料之間有顯著差異；否則就不能拒絕無效假設，尚不能認為樣本所代表的實際情況和理論假設有差別。

卡方檢驗的主要應用：

(1)檢驗某個連續變數的分佈是否與某種理論分佈相一致。如是否符合正態分佈、是否服從均勻分佈等

①提出原假設H0：變數符合F(x)分佈(針對連續型變數)，若針對離散型變數，則要假設其分佈律

②將樣本劃分區間k個，每個區間樣本數不小於5，區間互不相交，獲得每個區間的實際頻數fi

③根據假設分佈的分佈函式，求出每個區間的理論概率pi，得到理論頻數npi（n為樣本總數）

④計算卡方統計量

⑤計算自由度，即區間數減1，假設顯著性α=0.05，得到x2(k-1)α臨界值，如果卡方統計量大於臨界值，說明理論與實際偏差過大，拒絕原假設

(2)檢驗某個分類變數各類的出現概率是否等於指定概率。如在36選7的彩票抽獎中，每個數字出現的概率是否各為1／36；擲硬幣時，正反兩面出現的概率是否均為0．5。

①提出原假設H0：假設該各類變數符合出現概率

②根據原假設得出理論頻數，即對各分類變數其對應概率為pi，則理論頻數為npi（n為樣本總數）

③根據已有實際觀測值fi，計算卡方統計量即

④計算自由度，為分類變數數目減去一，與再顯著性α=0.05下的臨界值比較，若大於臨界值，則認為偏差過大，拒絕原假設

(3)檢驗某兩個分類變數是否相互獨立。如吸菸(二分類變數：是、否)是否與呼吸道疾病(二分類變數：是、否)有關；產品原料種類(多分類變數)是否與產品合格(二分類變數)有關。該問題針對列聯表。

①提出原假設H0：兩個分類變數之間無關

②再假設無關的條件下，應用其獨立同分布特點，計算出每個格子的理論概率值，比如吸菸並且沒有呼吸道疾病的概率值，利用樣本資料，分別求出吸菸的概率和患呼吸道疾病的概率，兩者相乘得到聯合概率，再乘以樣本總調查數，就得到了理論數，這裡有一個前提很重要，就是我們假設了分類變數之間獨立，再能將其概率相乘。

③根據樣本，得到實際觀測值，計算出卡方統計量

④列聯表自由度為（列數-1）（行數-1），再與顯著性α=0.05下的臨界值比較，若大於，則拒絕原假設，認為有關

(4)檢驗控制某種或某幾種分類因素的作用以後，另兩個分類變數是否相互獨立。如在上例中，控制性別、年齡因素影響以後，吸菸是否和呼吸道疾病有關；控制產品加工工藝的影響後，產品原料類別是否與產品合格有關。

(5)檢驗某兩種方法的結果是否一致。如採用兩種診斷方法對同一批人進行診斷，其診斷結果是否一致；採用兩種方法對客戶進行價值類別預測，預測結果是否一致。

第四和第五種方法同上，關鍵都在於求出理論頻數，這是構造卡方統計量的關鍵。

卡方檢驗思想及其應用

卡方檢驗思想及其應用

python 卡方檢驗原理及應用

機器學習中的數學(8)——卡方檢驗原理及應用

卡方檢驗和互信息

數學知識點查漏補缺（卡方分布與卡方檢驗）

ch2. 交叉表做卡方檢驗

[bigdata-128] 卡方檢驗是什麼

Python資料預處理之---統計學的t檢驗，卡方檢驗以及均值，中位數等

Python統計分析-卡方檢驗

白話“卡方檢驗”

特徵選擇——卡方檢驗(使用Python sklearn進行實現)

卡方檢驗值轉換為P值

SPSS：T檢驗、方差分析、非參檢驗、卡方檢驗的使用要求和適用場景

一道面試題到卡特蘭數及其應用

卡特蘭數及其應用

機器學習特徵選擇之卡方檢驗與互資訊

卡方檢驗文字特徵選擇

卡方檢驗用於特徵選擇

C++實現——卡特蘭數列及其應用

卡方檢驗兩分類實現

卡方檢驗思想及其應用

相關推薦