卡方分佈與卡方檢驗------以及python的實現

經典的卡方檢驗是檢驗定性自變數對定性因變數的相關性。假設自變數有N種取值，因變數有M種取值，考慮自變數等於i且因變數等於j的樣本頻數的觀察值與期望的差距，構建統計量：

　　這個統計量的含義簡而言之就是自變數對因變數的相關性。用feature_selection庫的SelectKBest類結合卡方檢驗來選擇特徵的程式碼如下：

1 from sklearn.feature_selection import SelectKBest
2 from sklearn.feature_selection import chi2
3 
4 #選擇K個最好的特徵，返回選擇特徵後的資料
5 
 SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)

1.卡方分佈

卡方分佈(chi-square distribution, χ2-distribution)是概率統計裡常用的一種概率分佈，也是統計推斷裡應用最廣泛的概率分佈之一，在假設檢驗與置信區間的計算中經常能見到卡方分佈的身影。

我們先來看看卡方分佈的定義：
若k個獨立的隨機變數Z1,Z2,⋯,Zk，且符合標準正態分佈N(0,1)，則這k個隨機變數的平方和

X=∑i=1kZ2i
為服從自由度為k的卡方分佈，記為：
X

∼χ2(k)
也可以記為：
X∼χ2k

卡方分佈的期望與方差分為為：
E(χ2)=n，D(χ2)=2n，其中n為卡方分佈的自由度。

2.卡方檢驗

χ2檢驗是以χ2分佈為基礎的一種假設檢驗方法，主要用於分類變數。其基本思想是根據樣本資料推斷總體的分佈與期望分佈是否有顯著性差異，或者推斷兩個分類變數是否相關或者獨立。
一般可以設原假設為 H0：觀察頻數與期望頻數沒有差異，或者兩個變數相互獨立不相關。
實際應用中，我們先假設H0成立，計算出χ2的值，χ2表示觀察值與理論值之間的偏離程度。根據χ2分佈，χ2統計量以及自由度，可以確定在H0成立的情況下獲得當前統計量以及更極端情況的概率p。如果p很小，說明觀察值與理論值的偏離程度大，應該拒絕原假設。否則不能拒絕原假設。

χ2的計算公式為：

χ2=∑(A−T)2T
其中，A為實際值，T為理論值。

卡方分佈與卡方檢驗------以及python的實現

1.卡方分佈

2.卡方檢驗

卡方分佈與卡方檢驗------以及python的實現

概率分佈之間的距離度量以及python實現

概率分佈之間的距離度量以及python實現(三)

概率分佈之間的距離度量以及python實現(四)

樣本服從正態分布，證明樣本容量n乘樣本方差與總體方差之比服從卡方分布x^2(n)

統計學---之樣本方差與總體方差的區別

國象世界冠軍賽第2輪卡爾森與卡魯阿納再度弈和

樣本方差與總體方差

【數學基礎】協方差與協方差矩陣

方差與樣本方差的區別？為什麼方差是除以N，樣本方差是除以N-1

方差與樣本方差、協方差與樣本協方差

詳解協方差與協方差矩陣

協方差與協方差矩陣

分類迴歸——CART分類與迴歸以及Python實現

資料庫中的空值與NULL的區別以及python中的NaN和None

距離度量以及python實現(二)

神經網路學習（4）————自組織特徵對映神經網路（SOM）以及python實現

神經網路學習（3）————BP神經網路以及python實現

神經網路學習（2）————線性神經網路以及python實現

文字相似度bm25演算法的原理以及Python實現(jupyter notebook)

卡方分佈與卡方檢驗------以及python的實現

1.卡方分佈

2.卡方檢驗

相關推薦