R語言卡方檢驗

阿新 • • 發佈：2019-02-04

卡方檢驗是一種確定兩個分類變數之間是否存在顯著相關性的統計方法。這兩個變數應該來自相同的人口，他們應該是類似 - 是/否，男/女，紅/綠等。

例如，我們可以建立一個觀察人們的冰淇淋購買模式的資料集，並嘗試將一個人的性別與他們喜歡的冰淇淋的味道相關聯。如果發現相關性，我們可以通過了解訪問的人的性別的數量來計劃適當的味道庫存。

語法

用於執行卡方檢驗的函式是chisq.test()。
在R語言中建立卡方檢驗的基本語法是 -

chisq.test(data)

以下是所使用的引數的描述 -

data是以包含觀察中變數的計數值的表的形式的資料。

例

我們將在“MASS”圖書館中獲取Cars93資料，該圖書館代表1993年不同型號汽車的銷售額。

library("MASS")
print(str(Cars93))

當我們執行上面的程式碼，它產生以下結果 -

'data.frame':   93 obs. of  27 variables: 
 $ Manufacturer      : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ... 
 $ Model             : Factor w/ 93 levels "100","190E","240",..: 49 56 9 1 6 24 54 74 73 35 ... 
 $ Type              : Factor w/ 6 
 levels "Compact","Large",..: 4 3 1 3 3 3 2 2 3 2 ... 
 $ Min.Price         : num  12.9 29.2 25.9 30.8 23.7 14.2 19.9 22.6 26.3 33 ... 
 $ Price             : num  15.9 33.9 29.1 37.7 30 15.7 20.8 23.7 26.3 34.7 ... 
 $ Max.Price         : num  18.8 38.7 32.3 44.6 36.2 17.3 21.7 24.9 26.3 36.3 ... 
 $ MPG.city          : int  25 
 18 20 19 22 22 19 16 19 16 ... 
 $ MPG.highway       : int  31 25 26 26 30 31 28 25 27 25 ... 
 $ AirBags           : Factor w/ 3 levels "Driver & Passenger",..: 3 1 2 1 2 2 2 2 2 2 ... 
 $ DriveTrain        : Factor w/ 3 levels "4WD","Front",..: 2 2 2 2 3 2 2 3 2 2 ... 
 $ Cylinders         : Factor w/ 6 levels "3","4","5","6",..: 2 4 4 4 2 2 4 4 4 5 ... 
 $ EngineSize        : num  1.8 3.2 2.8 2.8 3.5 2.2 3.8 5.7 3.8 4.9 ... 
 $ Horsepower        : int  140 200 172 172 208 110 170 180 170 200 ... 
 $ RPM               : int  6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ... 
 $ Rev.per.mile      : int  2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ... 
 $ Man.trans.avail   : Factor w/ 2 levels "No","Yes": 2 2 2 2 2 1 1 1 1 1 ... 
 $ Fuel.tank.capacity: num  13.2 18 16.9 21.1 21.1 16.4 18 23 18.8 18 ... 
 $ Passengers        : int  5 5 5 6 4 6 6 6 5 6 ... 
 $ Length            : int  177 195 180 193 186 189 200 216 198 206 ... 
 $ Wheelbase         : int  102 115 102 106 109 105 111 116 108 114 ... 
 $ Width             : int  68 71 67 70 69 69 74 78 73 73 ... 
 $ Turn.circle       : int  37 38 37 37 39 41 42 45 41 43 ... 
 $ Rear.seat.room    : num  26.5 30 28 31 27 28 30.5 30.5 26.5 35 ... 
 $ Luggage.room      : int  11 15 14 17 13 16 17 21 14 18 ... 
 $ Weight            : int  2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ... 
 $ Origin            : Factor w/ 2 levels "USA","non-USA": 2 2 2 2 2 1 1 1 1 1 ... 
 $ Make              : Factor w/ 93 levels "Acura Integra",..: 1 2 4 3 5 6 7 9 8 10 ...

上述結果表明資料集有很多因素變數，可以被認為是分類變數。對於我們的模型，我們將考慮變數“AirBags”和“Type”。在這裡，我們的目標是找出所售的汽車型別和安全氣囊型別之間的任何顯著的相關性。如果觀察到相關性，我們可以估計哪種型別的汽車可以更好地賣什麼型別的氣囊。

# Load the library.
library("MASS")

# Create a data frame from the main data set.
car.data <- data.frame(Cars93$AirBags, Cars93$Type)

# Create a table with the needed variables.
car.data = table(Cars93$AirBags, Cars93$Type) 
print(car.data)

# Perform the Chi-Square test.
print(chisq.test(car.data))

當我們執行上面的程式碼，它產生以下結果 -

                     Compact Large Midsize Small Sporty Van
  Driver & Passenger       2     4       7     0      3   0
  Driver only              9     7      11     5      8   3
  None                     5     0       4    16      3   6

        Pearson's Chi-squared test

data:  car.data
X-squared = 33.001, df = 10, p-value = 0.0002723

Warning message:
In chisq.test(car.data) : Chi-squared approximation may be incorrect

結論

結果顯示p值小於0.05，這表明字串相關。

R語言卡方檢驗

卡方檢驗是一種確定兩個分類變數之間是否存在顯著相關性的統計方法。這兩個變數應該來自相同的人口，他們應該是類似 - 是/否，男/女，紅/綠等。例如，我們可以建立一個觀察人們的冰淇淋購買模式的資料集，並嘗試將一個人的性別與他們喜歡的冰淇淋的味道相關聯。如果發

卡方檢驗和互信息

其中學習 learn 介紹 ear div 合計應該 python實現在機器學習中，特征選擇主要有兩個目的： 1. 減少特征數量，提高訓練速度 2. 減少噪聲特征從而提高模型在測試集上的準確率。一些噪聲特征會導致模型出現錯誤的泛化，容易產生overfittin

數學知識點查漏補缺（卡方分布與卡方檢驗）

檢驗 element 影響 body protect 兩個 ram -m style 一、卡方分布若k個獨立的隨機變量Z1,Z2,?,Zk，且符合標準正態分布N(0,1)，則這k個隨機變量的平方和，為服從自由度為k的卡方分布。卡方分布之所以經常被利用到，是因為對符合正態

R語言︱異常值檢驗、離群點分析、異常值處理

fit sta 指標篩選繪圖都是圖形 class 分組一、異常值檢驗異常值大概包括缺失值、離群值、重復值,數據不一致。 1、基本函數 summary可以顯示每個變量的缺失值數量. 2、缺失值檢驗關於缺失值的檢測應該包括：缺失值數量、缺失值比例、

ch2. 交叉表做卡方檢驗

spss中交叉分析主要用來檢驗兩個變數之間是否存在關係，或者說是否獨立，其零假設為兩個變數之間沒有關係。在實際工作中，經常用交叉表來分析比例是否相等。例如分析不同的性別對不同的報紙的選擇有什麼不同。 spss交叉表分析方法與步驟： 1、在spss中開啟資料，然後依次開啟：analyz

[bigdata-128] 卡方檢驗是什麼

先用一個例子解釋卡方。一個硬幣，正面是字，反面是花。拋20次，有11次是字，9次是花。根據這個丟擲結果，可否假設拋一次硬幣出現字和花的概率都是50%？驗證這個假設，就是卡方檢驗。期望次數：假如認為子和花出現概率都是50%丟擲的理論次數。本例中，拋20次，如果字和花出現的概率相同，那麼它們

Python資料預處理之---統計學的t檢驗，卡方檢驗以及均值，中位數等

Python資料預處理過程：利用統計學對資料進行檢驗，對連續屬性檢驗正態分佈，針對正態分佈屬性繼續使用t檢驗檢驗方差齊次性，針對非正態分佈使用Mann-Whitney檢驗。針對分類變數進行卡方檢驗（涉及三種卡方的檢驗：Pearson卡方，校準卡方，精準卡方）等。

Python統計分析-卡方檢驗

卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非引數檢驗的範疇，主要是比較兩個及兩個以上樣本率( 構成比）以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。卡方檢驗的基本思想：卡方檢驗是以χ2\chi^2

白話“卡方檢驗”

什麼是卡方檢驗卡方檢驗是假設檢驗的一種，用於分析兩個類別變數的相關關係，是一種非引數假設檢驗，得出的結論無非就是相關或者不相關，所以有的教材上又叫“獨立性檢驗”，所以如果不是很清楚假設檢驗的朋友們，要好好複習一下假設檢驗了。提起假設檢驗，會扯出一堆東西，這裡我

用R語言進行方差分析

R語言中與方差分析有關的包有car、gplots、HH、rrcov、multicomp、effects、MASS和mvoutlier。單因素方差分析 #運用multcomp包中的cholesterol資料 library(multcomp) attach(cholesterol) #檢視

特徵選擇——卡方檢驗(使用Python sklearn進行實現)

在看這篇文章之前，如果對卡方檢驗不熟悉，可以先參考：卡方檢驗 Python有包可以直接實現特徵選擇，也就是看自變數對因變數的相關性。今天我們先開看一下如何用卡方檢驗實現特徵選擇。 1. 首先import包和實驗資料： from sklearn.feature_selecti

卡方檢驗值轉換為P值

卡方檢驗作為一種常見的假設檢驗，在統計學中的地位是顯而易見的，如果你還不太清楚可以參看這篇博文:卡方檢驗用於特徵選擇，寫的非常的淺顯易懂，如果你還想再擴充套件點卡方檢驗方面的知識，可以參看這篇博文卡方檢驗基礎，寫的也很有意思。前輩的功底都很深厚，小弟就就不再闡述卡方檢驗

SPSS：T檢驗、方差分析、非參檢驗、卡方檢驗的使用要求和適用場景

一、T檢驗 1.1 樣本均值比較T檢驗的使用前提正態性；（單樣本、獨立樣本、配對樣本T檢驗都需要）連續變數；（單樣本、獨立樣本、配對樣本T檢驗都需要）獨立性；（獨立樣本T檢驗要求）方差齊性；（獨立樣本T檢驗要求） 1.2 樣本均值比較T

卡方檢驗思想及其應用

卡方檢驗是以χ2分佈為基礎的一種常用假設檢驗方法，它的無效假設H0是：觀察頻數與期望頻數沒有差別。該檢驗的基本思想是：首先假設H0成立，基於此前提計算出χ2值，它表示觀察值與理論值之間的偏離

機器學習特徵選擇之卡方檢驗與互資訊

by wangben @ beijing 特徵選擇的主要目的有兩點： 1. 減少特徵數量提高訓練速度，這點對於一些複雜模型來說尤其重要 2. 減少noisefeature以提高模型在測試集上的準確性。一些噪音特徵會導致模型出現錯誤的泛化（genera

python 卡方檢驗原理及應用

卡方檢驗，或稱x2檢驗。無關性假設：假設我們有一堆新聞或者評論，需要判斷內容中包含某個詞（比如6得很）是否與該條新聞的情感歸屬（比如正向）是否有關，我們只需要簡單統計就可以獲得這樣的一個四格表：組別屬於正向不屬於正向合計不包含

機器學習中的數學(8)——卡方檢驗原理及應用

卡方檢驗原理及應用什麼是卡方檢驗卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非引數檢驗的範疇，主要是比較兩個及兩個以上樣本率( 構成比）以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。無關

卡方檢驗文字特徵選擇

關於卡方檢驗，下面這篇blog介紹的比較詳細，仔細思索之後，對一些點做如下說明，個人理解： 1. 關於假設“詞t與類別c無關”。這個假設應該變更為“詞t不是對分類有區分度的特徵”，（c是一個類別，除了c之外的所有資料組成另一個類別，類似邏輯迴歸多分類的方法）。一個詞的卡方檢驗值高，並不能說明詞一定與t強相關，

卡方檢驗用於特徵選擇

卡方檢驗是特徵選擇中常用的演算法之一。（1）卡方分佈(chi-square distribution)：定義：若k個獨立的隨機變數z1,z2,…,zk,並且符合標準正太分佈N(0，1), 則這k個隨機變數的平方和為服從自由度為k的卡方分佈，記為：x~x2(

卡方檢驗兩分類實現

import jieba import numpy as np import xlrd import re import json # 資料載入 # jieba詞庫設定 #讀取文字，讀取其中1個 #統計包含a的單詞和不包含a的單詞 #統計主題 def chisquare(d

R語言 卡方檢驗

語法

例

結論

相關推薦

R語言卡方檢驗