1. 程式人生 > >卡方分佈與卡方檢驗------以及python的實現

卡方分佈與卡方檢驗------以及python的實現

經典的卡方檢驗是檢驗定性自變數對定性因變數的相關性。假設自變數有N種取值,因變數有M種取值,考慮自變數等於i且因變數等於j的樣本頻數的觀察值與期望的差距,構建統計量:

  這個統計量的含義簡而言之就是自變數對因變數的相關性。用feature_selection庫的SelectKBest類結合卡方檢驗來選擇特徵的程式碼如下:

1 from sklearn.feature_selection import SelectKBest
2 from sklearn.feature_selection import chi2
3 
4 #選擇K個最好的特徵,返回選擇特徵後的資料
5
SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)

1.卡方分佈

卡方分佈(chi-square distribution, χ2-distribution)是概率統計裡常用的一種概率分佈,也是統計推斷裡應用最廣泛的概率分佈之一,在假設檢驗與置信區間的計算中經常能見到卡方分佈的身影。

我們先來看看卡方分佈的定義: 
k個獨立的隨機變數Z1,Z2,,Zk,且符合標準正態分佈N(0,1),則這k個隨機變數的平方和 

X=i=1kZ2i
為服從自由度為k的卡方分佈,記為: 
X
χ2(k)

也可以記為: 
Xχ2k

卡方分佈的期望與方差分為為: 
E(χ2)=nD(χ2)=2n,其中n為卡方分佈的自由度。

2.卡方檢驗

χ2檢驗是以χ2分佈為基礎的一種假設檢驗方法,主要用於分類變數。其基本思想是根據樣本資料推斷總體的分佈與期望分佈是否有顯著性差異,或者推斷兩個分類變數是否相關或者獨立。 
一般可以設原假設為 H0:觀察頻數與期望頻數沒有差異,或者兩個變數相互獨立不相關。 
實際應用中,我們先假設H0成立,計算出χ2的值,χ2表示觀察值與理論值之間的偏離程度。根據χ2分佈,χ2統計量以及自由度,可以確定在H0成立的情況下獲得當前統計量以及更極端情況的概率p。如果p很小,說明觀察值與理論值的偏離程度大,應該拒絕原假設。否則不能拒絕原假設。

χ2的計算公式為: 

χ2=(AT)2T
其中,A為實際值,T為理論值。

相關推薦

分佈檢驗------以及python實現

經典的卡方檢驗是檢驗定性自變數對定性因變數的相關性。假設自變數有N種取值,因變數有M種取值,考慮自變數等於i且因變數等於j的樣本頻數的觀察值與期望的差距,構建統計量:   這個統計量的含義簡而言之就是自變數對因變數的相關性。用feature_selection庫的SelectKBest類

概率分佈之間的距離度量以及python實現

原文連結:https://www.cnblogs.com/wt869054461/p/7156397.html 1. 歐氏距離(Euclidean Distance)        歐氏距離是最易於理解的一種距離計算方法,源自歐氏空間中兩點間的距離公式。 (1)二維平面

概率分佈之間的距離度量以及python實現(三)

概率分佈之間的距離,顧名思義,度量兩組樣本分佈之間的距離 。 1、卡方檢驗 統計學上的χ2統計量,由於它最初是由英國統計學家Karl Pearson在1900年首次提出的,因此也稱之為Pearson χ2,其計算公式為   (i=1,2,3,…,k)   其中,Ai為i水平的觀察頻數,Ei為i水平

概率分佈之間的距離度量以及python實現(四)

1、f 散度(f-divergence) KL-divergence 的壞處在於它是無界的。事實上KL-divergence 屬於更廣泛的 f-divergence 中的一種。 如果P和Q被定義成空間中的兩個概率分佈,則f散度被定義為: 一些通用的散度,如KL-divergence, Helling

樣本服從正態分布,證明樣本容量n乘樣本總體差之比服從分布x^2(n)

htm http ges .cn www align 中心 log lang 樣本服從正態分布,證明樣本容量n乘樣本方差與總體方差之比服從卡方分布x^2(n) 正態分布的n階中心矩參見: http://www.doc88.com/p-334742692198.ht

統計學---之樣本總體差的區別

前段日子重新整理了一下這個問題的解答,跟大家分享一下,如果有什麼錯誤的話希望大家能夠提出來,我會及時改正的,話不多說進入正題: 首先,我們來看一下樣本方差的計算公式:                 &nbs

國象世界冠軍賽第2輪 爾森魯阿納再度弈和

11月29日訊息,@北京商報從度小滿金融人士處獲悉,百度正式拿到准許經營證券期貨的許可證。據許可證顯示,機構名稱為北京百度百盈科技有限公司(下稱“百度百盈”),證券期貨業務經營範圍為基金銷售。而今年8月22日,根據北京證監局官網顯示,證監局已核准百度百盈證券投資基金銷售業務資格。 企查查資訊顯示,百度百盈成

樣本總體

一、方差(variance):衡量隨機變數或一組資料時離散程度的度量。                                 概

【數學基礎】 協差矩陣

   ##常見的統計量    在概率與統計中,最常見的統計量有樣本均值、方差、標準差、極差以及中位數等等。這些都是最基礎、最常見的統計量。       均值: Xˉ=1n∑i=1nXi\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}

樣本差的區別?為什麼差是除以N,樣本差是除以N-1

1.研究某隨機變數的方差,有無窮多個樣本,可以通過抽取一個樣本集,以它的方差作為該隨機變數方差的估計。 當該樣本集的樣本數N趨於正無窮時,可以證明除以N-1才是無偏的,即收斂於該隨機變數的方差;除以N是有偏的。 因此採用無偏估計時除以N-1,而不是除以N。 2.僅研

樣本差、協樣本協

0. 獨立變數乘積的方差 獨立變數積的方差與各自期望方差的關係: Var(XY)=[E(X)]2Var(Y)+[E(Y)]2Var(X)+Var(X)Var(Y)=[E(X)]2Var(Y)+[E

詳解協差矩陣

協方差的定義 對於一般的分佈,直接代入E(X)之類的就可以計算出來了,但真給你一個具體數值的分佈,要計算協方差矩陣,根據這個公式來計算,還真不容易反應過來。網上值得參考的資料也不多,這裡用一個例子說

差矩陣

統計學的基本概念 學過概率統計的孩子都知道,統計裡最基本的概念就是樣本的均值,方差,或者再加個標準差。首先我們給你一個含有n個樣本的集合X={X1,…,Xn}XX1Xn,依次給出這些概念的公式描述,這些高中學過數學的孩子都應該知道吧,一帶而過。 均值: X¯=∑ni=

分類迴歸——CART分類迴歸以及Python實現

CART分類與迴歸樹本質上是一樣的,構建過程都是逐步分割特徵空間,預測過程都是從根節點開始一層一層的判斷直到葉節點給出預測結果。只不過分類樹給出離散值,而回歸樹給出連續值(通常是葉節點包含樣本的均值),另外分類樹基於Gini指數選取分割點,而回歸樹基於平方誤差選取分割點。

資料庫中的空值NULL的區別以及python中的NaN和None

資料庫裡面的”空值”有兩種:空字元(“”)、空值(NULL)。 兩種儲存方式在資料庫中都很常見,實際中根據業務或者個人習慣可以用這兩種方式來儲存“空值”。那這兩種到底有什麼區別,下面通過例子直接來展示: -- 建立表test create table `

距離度量以及python實現(二)

block eight spatial related sim tar 平移 spa spl 接上一篇:http://www.cnblogs.com/denny402/p/7027954.html 7. 夾角余弦(Cosine) 也可以叫余弦相似度。

神經網路學習(4)————自組織特徵對映神經網路(SOM)以及python實現

一、自組織競爭學習神經網路模型(無監督學習) (一)競爭神經網路   在競爭神經網路中,一層是輸入層,一層輸出層,輸出層又稱為競爭層或者核心層。在一次輸入中,權值是隨機給定的,在競爭層每個神經元獲勝的概率相同,但是最後會有一個興奮最強的神經元。興奮最強的神經元戰勝了其他神

神經網路學習(3)————BP神經網路以及python實現

一、BP神經網路結構模型                BP演算法的基本思想是,學習過程由訊號的正向傳播和誤差的反向傳播倆個過程組成,輸入從輸入層輸入,經隱層處理以後,傳向輸出層。如果輸出層的實際輸出和期望輸出不符合

神經網路學習(2)————線性神經網路以及python實現

一、線性神經網路結構模型 在結構上與感知器非常相似,只是神經元啟用函式不同,結構如圖所示: 若網路中包含多個神經元節點,就可形成多個輸出,這種神經網路可以用一種間接的方式解決線性不可分的問題,方法是用多個線性含糊對區域進行劃分,神經結構和解決異或問題如圖所示:  &nbs

文字相似度bm25演算法的原理以及Python實現(jupyter notebook)

今天我們一起來學習一下自然語言處理中的bm25演算法,bm25演算法是常見的用來計算query和文章相關度的相似度的。其實這個演算法的原理很簡單,就是將需要計算的query分詞成w1,w2,…,wn,然後求出每一個詞和文章的相關度,最後將這些相關度進行累加,最終就可以的得到文字相似度計算