1. 程式人生 > >特徵選擇-卡方檢驗用於特徵選擇

特徵選擇-卡方檢驗用於特徵選擇

卡方分佈

若n個相互獨立的隨機變數X1X2Xn,均服從標準正態分佈(也稱獨立同分佈於標準正態分佈),則這n個隨機變數的平方和Q=ni=1X2i構成一個新的隨機變數,其分佈規律稱為卡方分佈或χ2分佈(chi-square distribution),其中引數n為自由度,記為Qχ2

卡方分佈

圖片引自百度百科

卡方分佈是由正態分佈構造而成的一個新的分佈,當自由度n很大時,χ2分佈近似為正態分佈。

均值:

E(χ2)=n
方差:D(χ2)=2n
性質:
  1. χ2分佈在第一象限內,卡方值都是正值,呈正偏態(右偏態),隨著引數 n 的增大,χ2 分佈趨近於正態分佈;卡方分佈密度曲線下的面積都是1。
  2. χ2分佈的均值與方差可以看出,隨著自由度n的增大,χ2分佈向正無窮方向延伸(因為均值n越來越大),分佈曲線也越來越低闊(因為方差2n越來越大)。
  3. 不同的自由度決定不同的卡方分佈,自由度越小,分佈越偏斜。
  4. χ2(n1)χ2(n2)互相獨立,則:χ2(n1)+χ2(n2)服從自由度為n1+n2χ2分佈。

    卡方分佈臨界值表:
    卡方分佈臨界值表

以上內容和圖片均引自百度百科:卡方分佈

後續在用卡方檢驗做特徵選擇的時候,會利用到自由度為1、α=0.05的臨界值3.84,後續再詳述。

假設檢驗

卡方檢驗屬於假設檢驗,我們先對假設檢驗的一些概念做些定義。以下內容均來自《概率論與數理統計(陳希孺)》第五章-假設檢驗。

功效函式:

設總體分佈包含若干個未知引數θ1θ2θkH0是關於這些引數的一個原假設,設有樣本X1X2Xn,而Φ是基於這些樣本而對H0所作的一個檢驗。則稱檢驗Φ的功效函式為:

βΦ(θ1,,θk)=Pθ1,,θk(Φ,H0)它是未知引數θ1,,θk的函式。

兩類錯誤

在檢驗一個假設H0時,有可能犯以下兩類錯誤之一:

  • 第一類錯誤:H0正確,但是被否定了
  • 第二類錯誤:H0不正確,但是被接受了

    犯第一類錯誤的概率:

    α1Φ(θ1,,θk)={βΦ(θ1,,θk),(theta1,,θk)H00,(theta1,,θk)H1犯第二類錯誤的概率:

    相關推薦

    特徵選擇-檢驗用於特徵選擇

    卡方分佈 若n個相互獨立的隨機變數X1、X2、…、Xn,均服從標準正態分佈(也稱獨立同分佈於標準正態分佈),則這n個隨機變數的平方和Q=∑ni=1X2i構成一個新的隨機變數,其分佈規律稱為卡方分佈或χ2分佈(chi-square distribution),其

    檢驗用於特徵選擇

    卡方檢驗是特徵選擇中常用的演算法之一。 (1)      卡方分佈(chi-square distribution): 定義:若k個獨立的隨機變數z1,z2,…,zk,並且符合標準正太分佈N(0,1), 則這k個隨機變數的平方和 為服從自由度為k的卡方分佈,記為:x~x2(

    特徵選擇——檢驗(使用Python sklearn進行實現)

    在看這篇文章之前,如果對卡方檢驗不熟悉,可以先參考:卡方檢驗 Python有包可以直接實現特徵選擇,也就是看自變數對因變數的相關性。今天我們先開看一下如何用卡方檢驗實現特徵選擇。 1. 首先import包和實驗資料: from sklearn.feature_selecti

    檢驗文字特徵選擇

    關於卡方檢驗,下面這篇blog介紹的比較詳細,仔細思索之後,對一些點做如下說明,個人理解: 1. 關於假設“詞t與類別c無關”。這個假設應該變更為“詞t不是對分類有區分度的特徵”,(c是一個類別,除了c之外的所有資料組成另一個類別,類似邏輯迴歸多分類的方法)。一個詞的卡方檢驗值高,並不能說明詞一定與t強相關,

    機器學習特徵選擇檢驗與互資訊

    by wangben  @ beijing 特徵選擇的主要目的有兩點: 1.      減少特徵數量提高訓練速度,這點對於一些複雜模型來說尤其重要 2.      減少noisefeature以提高模型在測試集上的準確性。一些噪音特徵會導致模型出現錯誤的泛化(genera

    檢驗和互信息

    其中 學習 learn 介紹 ear div 合計 應該 python實現 在機器學習中,特征選擇主要有兩個目的: 1. 減少特征數量,提高訓練速度 2. 減少噪聲特征從而提高模型在測試集上的準確率。一些噪聲特征會導致模型出現錯誤的泛化,容易產生overfittin

    數學知識點查漏補缺(分布與檢驗

    檢驗 element 影響 body protect 兩個 ram -m style 一、卡方分布 若k個獨立的隨機變量Z1,Z2,?,Zk,且符合標準正態分布N(0,1),則這k個隨機變量的平方和,為服從自由度為k的卡方分布。 卡方分布之所以經常被利用到,是因為對符合正態

    ch2. 交叉表做檢驗

    spss中交叉分析主要用來檢驗兩個變數之間是否存在關係,或者說是否獨立,其零假設為兩個變數之間沒有關係。在實際工作中,經常用交叉表來分析比例是否相等。例如分析不同的性別對不同的報紙的選擇有什麼不同。 spss交叉表分析方法與步驟:  1、在spss中開啟資料,然後依次開啟:analyz

    [bigdata-128] 檢驗是什麼

    先用一個例子解釋卡方。 一個硬幣,正面是字,反面是花。拋20次,有11次是字,9次是花。根據這個丟擲結果,可否假設拋一次硬幣出現字和花的概率都是50%?驗證這個假設,就是卡方檢驗。 期望次數:假如認為子和花出現概率都是50%丟擲的理論次數。本例中,拋20次,如果字和花出現的概率相同,那麼它們

    Python資料預處理之---統計學的t檢驗檢驗以及均值,中位數等

    Python資料預處理過程:利用統計學對資料進行檢驗,對連續屬性檢驗正態分佈,針對正態分佈屬性繼續使用t檢驗檢驗方差齊次性,針對非正態分佈使用Mann-Whitney檢驗。針對分類變數進行卡方檢驗(涉及三種卡方的檢驗:Pearson卡方,校準卡方,精準卡方)等。

    Python統計分析-檢驗

    卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非引數檢驗的範疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。 卡方檢驗的基本思想: 卡方檢驗是以χ2\chi^2

    白話“檢驗

    什麼是卡方檢驗 卡方檢驗是假設檢驗的一種,用於分析兩個類別變數的相關關係,是一種非引數假設檢驗,得出的結論無非就是相關或者不相關,所以有的教材上又叫“獨立性檢驗”,所以如果不是很清楚假設檢驗的朋友們,要好好複習一下假設檢驗了。提起假設檢驗,會扯出一堆東西,這裡我

    檢驗值轉換為P值

    卡方檢驗作為一種常見的假設檢驗,在統計學中的地位是顯而易見的,如果你還不太清楚可以參看這篇博文:卡方檢驗用於特徵選擇,寫的非常的淺顯易懂,如果你還想再擴充套件點卡方檢驗方面的知識,可以參看這篇博文卡方檢驗基礎,寫的也很有意思。前輩的功底都很深厚,小弟就就不再闡述卡方檢驗

    SPSS:T檢驗差分析、非參檢驗檢驗的使用要求和適用場景

    一、T檢驗 1.1 樣本均值比較T檢驗的使用前提 正態性;(單樣本、獨立樣本、配對樣本T檢驗都需要) 連續變數;(單樣本、獨立樣本、配對樣本T檢驗都需要) 獨立性;(獨立樣本T檢驗要求) 方差齊性;(獨立樣本T檢驗要求) 1.2 樣本均值比較T

    檢驗思想及其應用

    卡方檢驗是以χ2分佈為基礎的一種常用假設檢驗方法,它的無效假設H0是:觀察頻數與期望頻數沒有差別。   該檢驗的基本思想是:首先假設H0成立,基於此前提計算出χ2值,它表示觀察值與理論值之間的偏離

    python 檢驗原理及應用

    卡方檢驗,或稱x2檢驗。 無關性假設: 假設我們有一堆新聞或者評論,需要判斷內容中包含某個詞(比如6得很)是否與該條新聞的情感歸屬(比如正向)是否有關,我們只需要簡單統計就可以獲得這樣的一個四格表: 組別 屬於正向 不屬於正向 合計 不包含

    機器學習中的數學(8)——檢驗原理及應用

    卡方檢驗原理及應用 什麼是卡方檢驗 卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非引數檢驗的範疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。 無關

    檢驗 兩分類實現

    import jieba import numpy as np import xlrd import re import json # 資料載入 # jieba詞庫設定 #讀取文字,讀取其中1個 #統計包含a的單詞和不包含a的單詞 #統計主題 def chisquare(d

    分佈(Chi-squared Distribution)與檢驗(Chi-square Test)

    卡方分佈 概念: 具有k個自由度的卡方分佈是一個由k個獨立標準正態隨機變數的和所構成的分佈。卡方分佈經常用於我們常見的卡方檢驗中。卡方檢驗一方面可以用來衡量觀測分佈和理論分佈之間的擬合程度,另一方面也可以測量定性資料兩個分類標準間的獨立性。 定義: 如果,,...,是

    統計學常用概念:T檢驗、F檢驗檢驗、P值、自由度

    1,T檢驗和F檢驗的由來 一般而言,為了確定從樣本(sample)統計結果推論至總體時所犯錯的概率,我們會利用統計學家所開發的一些統計方法,進行統計檢定。 通過把所得到的統計檢定值,與統計學家建立了一些隨機變數的概率分佈(probability distribution)進