1. 程式人生 > >非引數檢驗和卡方檢驗

非引數檢驗和卡方檢驗

卡方值的計算與意義

  χ2值表示觀察值與理論值之問的偏離程度。計算這種偏離程度的基本思路如下。

  (1)設A代表某個類別的觀察頻數,E代表基於H0計算出的期望頻數,A與E之差稱為殘差。

  (2)顯然,殘差可以表示某一個類別觀察值和理論值的偏離程度,但如果將殘差簡單相加以表示各類別觀察頻數與期望頻數的差別,則有一定的不足之處。因為殘差有正有負,相加後會彼此抵消,總和仍然為0,為此可以將殘差平方後求和。

  (3)另一方面,殘差大小是一個相對的概念,相對於期望頻數為10時,期望頻數為20的殘差非常大,但相對於期望頻數為1 000時20的殘差就很小了。考慮到這一點,人們又將殘差平方除以期望頻數再求和,以估計觀察頻數與期望頻數的差別。

  進行上述操作之後,就得到了常用的χ2統計量,由於它最初是由英國統計學家Karl Pearson在1900年首次提出的,因此也稱之為Pearson χ2,其計算公式為
\chi^2=\sum \frac{(A-E)^2}{E}=\sum_{i=1}^k \frac{(A_i-E_i)^2}{E_i}=\sum_{i=1}^k \frac{(A_i-np_i)^2}{np_i}  (i=1,2,3,…,k)

  其中,Ai為i水平的觀察頻數,Ei為i水平的期望頻數,n為總頻數,pi為i水平的期望頻率。i水平的期望頻數Ti等於總頻數n×i水平的期望概率pi,k為單元格數。當n比較大時,χ2統計量近似服從k-1(計算Ei時用到的引數個數)個自由度的卡方分佈

  作為學術界的領袖,Pearson先生當初發表在《哲學雜誌》上的χ2論文題目為:On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling.

  由卡方的計算公式可知,當觀察頻數與期望頻數完全一致時,χ2值為0;觀察頻數與期望頻數越接近,兩者之間的差異越小,χ2值越小;反之,觀察頻數與期望頻數差別越大,兩者之間的差異越大,χ2值越大。換言之,大的χ2值表明觀察頻數遠離期望頻數,即表明遠離假設。小的χ2值表明觀察頻數接近期望頻數,接近假設。因此,χ2是觀察頻數與期望頻數之間距離的一種度量指標,也是假設成立與否的度量指標。如果χ2值“小”,研究者就傾向於不拒絕H0;如果χ2值大,就傾向於拒絕H0。至於χ2在每個具體研究中究竟要大到什麼程度才能拒絕H0,則要藉助於卡方分佈求出所對應的P值來確定。