卡方檢驗思想及其應用
卡方檢驗是以χ2分佈為基礎的一種常用假設檢驗方法,它的無效假設H0是:觀察頻數與期望頻數沒有差別。
該檢驗的基本思想是:首先假設H0成立,基於此前提計算出χ2值,它表示觀察值與理論值之間的偏離程度。根據χ2分佈及自由度可以確定在H0假設成立的情況下獲得當前統計量及更極端情況的概率P。如果當前統計量大於P值,說明觀察值與理論值偏離程度太大,應當拒絕無效假設,表示比較資料之間有顯著差異;否則就不能拒絕無效假設,尚不能認為樣本所代表的實際情況和理論假設有差別。
卡方檢驗的主要應用:
(1)檢驗某個連續變數的分佈是否與某種理論分佈相一致。如是否符合正態分佈、是否服從均勻分佈等
①提出原假設H0:變數符合F(x)分佈(針對連續型變數),若針對離散型變數,則要假設其分佈律
②將樣本劃分區間k個,每個區間樣本數不小於5,區間互不相交,獲得每個區間的實際頻數fi
③根據假設分佈的分佈函式,求出每個區間的理論概率pi,得到理論頻數npi(n為樣本總數)
④計算卡方統計量
⑤計算自由度,即區間數減1,假設顯著性α=0.05,得到x2(k-1)α臨界值,如果卡方統計量大於臨界值,說明理論與實際偏差過大,拒絕原假設
(2)檢驗某個分類變數各類的出現概率是否等於指定概率。如在36選7的彩票抽獎中,每個數字出現的概率是否各為1/36;擲硬幣時,正反兩面出現的概率是否均為0.5。
①提出原假設H0:假設該各類變數符合出現概率
②根據原假設得出理論頻數,即對各分類變數其對應概率為pi,則理論頻數為npi(n為樣本總數)
③根據已有實際觀測值fi,計算卡方統計量即
④計算自由度,為分類變數數目減去一,與再顯著性α=0.05下的臨界值比較,若大於臨界值,則認為偏差過大,拒絕原假設
(3)檢驗某兩個分類變數是否相互獨立。如吸菸(二分類變數:是、否)是否與呼吸道疾病(二分類變數:是、否)有關;產品原料種類(多分類變數)是否與產品合格(二分類變數)有關。該問題針對列聯表。
①提出原假設H0:兩個分類變數之間無關
②再假設無關的條件下,應用其獨立同分布特點,計算出每個格子的理論概率值,比如吸菸並且沒有呼吸道疾病的概率值,利用樣本資料,分別求出吸菸的概率和患呼吸道疾病的概率,兩者相乘得到聯合概率,再乘以樣本總調查數,就得到了理論數,這裡有一個前提很重要,就是我們假設了分類變數之間獨立,再能將其概率相乘。
③根據樣本,得到實際觀測值,計算出卡方統計量
④列聯表自由度為(列數-1)(行數-1),再與顯著性α=0.05下的臨界值比較,若大於,則拒絕原假設,認為有關
(4)檢驗控制某種或某幾種分類因素的作用以後,另兩個分類變數是否相互獨立。如在上例中,控制性別、年齡因素影響以後,吸菸是否和呼吸道疾病有關;控制產品加工工藝的影響後,產品原料類別是否與產品合格有關。
(5)檢驗某兩種方法的結果是否一致。如採用兩種診斷方法對同一批人進行診斷,其診斷結果是否一致;採用兩種方法對客戶進行價值類別預測,預測結果是否一致。
第四和第五種方法同上,關鍵都在於求出理論頻數,這是構造卡方統計量的關鍵。