R語言_非引數檢驗

阿新 • • 發佈：2019-02-16

皮爾森擬合優度卡方檢驗

該檢驗的主要目的是：
由樣本評估群體是否符合某種分佈情況。

假設H0：群體具有某分佈
備選假設H1：群體不具有改分佈
思路：將數軸分為m組，樣本資料會落入不同的組內。根據假設H0的分佈，我們可以確定各個組的預期個數，然後與各個組的實際個數一起構造統計量K。
結論：當n趨於無窮時，k收斂於m-1的卡方分佈。

這裡寫圖片描述

#如果是均勻分佈，則沒有明顯差異 。這裡組其實已經分好了，直接用 。
#H0：人數服從均勻分佈
x <- c(210,312,170,85,223)
n <- sum(x); m <- length(x)
p <- rep(1 
/m,m)
K <- sum((x-n*p)^2/(n*p)); K #計算出K值
[1] 136.49
p <- 1-pchisq(K,m-1); p #計算出p值,0拒絕假設

在R語言中 chisq.test()，可以完成擬合優度檢驗。預設就是檢驗是否為均勻分佈，如果是其他分佈，需要自己分組，並在引數p中指出。上面題目的解法

chisq.test(x)

其他例子如下：

#例：用這個函式檢驗其他分佈。 抽取31名學生的成績，檢驗是否為正態分佈。
#小於0.05,拒絕正態分佈的假說
x <- c(25,45,50,54,55,61,64,68,72,75,75,78,79 
,81,83,84,84,84,85,
       86,86,86,87,89,89,89,90,91,91,92,100)
A = table(cut(x,breaks=c(0,69,79,89,100))) #對樣本資料進行分組
A
p = pnorm(c(70,80,90,100),mean(x),sd(x)) #獲得理論分佈概率值
p = c(p[1],p[2]-p[1],p[3]-p[2],1-p[3])
p
chisq.test(A,p=p)

#例：大麥雜交後關於芒性的比例應該是 無芒：長芒：短芒=9:3:4 。 
#我們的實際觀測值是335：125：160 。請問觀測值是否符合預期？
p <- c(9 
/16,3/16,4/16)
x <- c(335,125,160)
chisq.test(x,p=p)

注意：
1. 分組的時候每組的頻數應該大於5。
2. 如果理論分佈依賴於多個未知引數，則先用樣本得到引數的估計值，然後構造統計量K。這個時候K的自由度減少未知引數的數量個數。

ks檢驗

該檢驗的目的是：
1. 對於單樣本，檢驗其是否符合某種分佈
2. 對於雙樣本，檢驗其是否屬於同一分佈

ks檢驗，理論上可以檢驗任何分佈。
ks檢驗，既可以做當樣本檢驗，也可以做雙樣本檢驗。

#單樣本檢驗
#記錄一臺裝置無故障工作時常，並從小到大排序
#420 500 920 1380 1510 1650 1760 2100 2300 2350。
#問這些時間是否服從lambda=1/1500的指數分佈？
x <- c(420,500,920,1380,1510,1650,1760,2100,2300,2350)
ks.test(x,"pexp",1/1500)

#雙樣本檢驗
#有兩個分佈，分別抽樣了一些資料，問他們是否服從相同的分佈。
X<-scan()
Y<-scan()
x = runif(100)
y = runif(100)
ks.test(x,y)

列聯表資料獨立性檢驗

chisq.test() 同樣可以做列聯表資料獨立性檢驗，只要將資料寫成矩陣的形式就可以了。
這裡寫圖片描述

#根據列聯表判斷吸菸與致癌是否有關係
#p值很小，拒絕無關係的假設，應該有關係
x = matrix(c(60,3,32,11),nrow=2)
chisq.test(x)

#如果一個單元格內的資料小於5，那麼pearson檢驗無效。
#此時應做Fisher精確檢驗
fisher.test(x)

此外，還有針對配對資料的McNemar檢驗

這裡寫圖片描述

符號檢驗

當我們以中位數將資料分為兩邊，一邊為正，一邊為負，那麼樣本出現在兩邊的概率應該都為1/2。因此，使用p=0.5的二項檢驗就可以做符號檢驗了。

#統計了66個城市的生活花費指數，北京的生活花費指數為99 。
#請問北京是否位於中位數以上。
x = c(66, 75, 78, 80, 81, 81, 82, 83, 83, 83, 83,
      84, 85, 85, 86, 86, 86, 86, 87, 87, 88 ,88,
      88, 88 ,88 ,89 ,89 ,89 ,89 ,90 ,90 ,91, 91,
      91, 91, 92, 93, 93, 96, 96, 96, 97, 99, 100,
      101 ,102, 103, 103, 104, 104, 104, 105, 106, 109, 109,
      110 ,110 ,110 ,111 ,113 ,115 ,116 ,117, 118, 155 ,192)
mean(x)
binom.test(sum(x>99),length(x),p=0.5,alternative = "less")

符號檢驗也可以用來檢驗兩個總體是否存在明顯差異。要是沒有差異，那麼兩者之差為正的概率為0.5。

#統計兩種飼料養豬的增重情況，判斷是否有差異
#其實用均值更好
#沒有明顯差異
y <- c(19,32,21,19,25,31,31,26,30,25,28,31,25,25)
x <- c(25,30,28,23,27,35,30,28,32,29,30,30,31,16)
binom.test(sum(x<y),length(x),p=0.5,alternative = "two.sided")  #並不推薦這麼檢驗

var.test(x,y) #方差相等
t.test(x,y,var.equal = T) #沒有顯著差異

這裡寫圖片描述

#p<0.1 接受備擇假設 認為有差異
binom.test(3,12,alternative = "less",conf.level = 0.9)

秩相關檢驗

在R語言中，rank()函式用來求秩，如果向量中有相同的資料，求出的秩可能不合我們的要求，對資料做微調即可

x <- c(1.2,0.8,-3.1,2,1.2)
rank(x)
x <- c(1.2,0.8,-3.1,2,1.2+1e-5)
rank(x)

利用秩可以做相關性檢驗。具體參考引數估計。
cor.test( method=”spearman,kendell”)

wilcoxon檢驗

符號檢驗只考慮了符號，沒有考慮要差異的大小。wilcoxon解決了這個問題。
假設，資料是連續分佈的，資料是關於中位數對稱的。

#單樣本檢測
#某電池廠商生產的電池中位數為140.
#現從新生產的電池中抽取20個測試。請問電池是否合格
x <- c(137,140,138.3,139,144.3,139.1,141.7,137.3,133.5,
       138.2,141.1,139.2,136.5,136.5,135.6,
       138,140.9,140.6,136.3,134.1)
wilcox.test(x,mu=140,alternative = "less",
            exact=F,correct=F,confi.int=T)
#配對雙樣本檢測。
#在農場中選擇了10塊農田，將每一塊農田分成2小塊，分別用不同的化肥種菜。
#請問化肥會不會提高蔬菜產量。
x <- c(459,367,303,392,310,342,421,446,430,412)
y <- c(414,306,321,443,281,301,353,391,405,390)
wilcox.test(x-y,alternative = "greater")
#非配對雙樣本檢測
#10名非鉛工人和10名鉛工人的血鉛值是否存在顯著差異
x <- c(24,26,29,34,43,58,63,72,87,101)
y <- c(82,87,97,121,164,208,213)
wilcox.test(x,y,alternative="less")

這裡寫圖片描述

x <- rep(1:4,c(62,41,14,11))
y <- rep(1:4,c(20,37,16,15))
wilcox.test(x,y)

參考資料

非引數檢驗

R語言_非引數檢驗

皮爾森擬合優度卡方檢驗該檢驗的主要目的是：由樣本評估群體是否符合某種分佈情況。假設H0：群體具有某分佈備選假設H1：群體不具有改分佈思路：將數軸分為m組，樣本資料會落入不同的組內。根據假設H0的分佈，我們可以確定各個組的預

[R語言統計]秩轉換的非引數檢驗

在R中，wilcox.test()函式可以用來做Wilcoxon秩和檢驗，也可以用於做Mann-Whitney U檢驗。當引數為單個樣本，或者是兩個樣本相減，或者是兩個引數，paired=F時，是Wilcoxon秩和檢驗。當paired = FALSE（獨立樣本）時，就是Mann-Whitney U檢

R語言與顯著性檢驗學習筆記

sdn view 是否通過相等 oar p值 nor pro 一、何為顯著性檢驗顯著性檢驗的思想十分的簡單，就是認為小概率事件不可能發生。雖然概率論中我們一直強調小概率事件必然發生，但顯著性檢驗還是相信了小概率事件在我做的這一次檢驗中沒有發生。

統計分析之引數檢驗與非引數檢驗、匹配樣本與獨立樣本、2樣本與K樣本介紹----附SPSS操作指南

最近幾天博主需要做一些計算生物學分析，重新溫習了一遍統計學的知識。由於博主此次使用的是非引數檢驗，將重點介紹非引數檢驗相關內容，仍然是深入淺出的風格，先放一些概念，再總結實際使用的技巧。寫在這裡，供大家參考學習。

SPSS-非引數檢驗

非引數檢驗（卡方（Chi-square）檢驗、二項分佈（Binomial）檢驗、單樣本K-S（Kolmogorov-Smirnov）檢驗、單樣本變數值隨機性檢驗（Runs Test）、兩獨立樣本非引數檢驗、多獨立樣本非引數檢驗、兩配對樣本非引數檢驗、多配對樣本非引數檢驗）引數檢驗：T檢驗、F檢驗等常用來估

SPSS中八類常用非引數檢驗之二二項分佈（Binomial）檢驗

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

R語言_資料篩選高血壓患者

R語言篩選高血壓前期的患者 // #工作目標:讀取csv檔案，並篩選出平均收縮壓120~139或舒張壓80~89的患者（根據2010年中國高血壓指南） > //#檢視R語言的工作環境（檔案儲存位置） > getwd() > non_hypertension_04 <

SPSS中八類常用非引數檢驗之三遊程檢驗

SPSS中八類常用非引數檢驗之四單樣本K-S檢驗

電腦科學採用訓練資料集，驗證資料集，測試資料集的方法為什麼不採用統計學中常用的假設檢驗呢？（引數檢驗和非引數檢驗）

如題所說，這個問題作為一個本科讀管理，碩士讀計算機卻旁修經濟學，博士在讀計算機的我來說感覺比較迷惑的。在管理學，經濟學，計算機這三門學科在解決優化問題的時候採用的方法大致相同，其核心都是統計學，管理學，電腦科學中採用的基礎方法，如線性迴歸，多元線性迴歸，廣義線性迴歸，決策樹，SVM,ID3,KNN等分類方法

R語言wilcoxon秩和檢驗及wilcoxon符號秩檢驗

說明 wilcoxon秩和及wilcoxon符號秩檢驗是對原假設的非引數檢驗，在不需要假設兩個樣本空間都為正態分佈的情況下，測試它們的分佈是否完全相同。操作 #利用mtcars資料 library(stats) data("mtcars") b

機器學習_非引數估計

【1】非引數估計與引數估計不同：未對函式形式作出假設，直接從訓練樣本中估計出密度，從訓練樣本估計某一點的概率。【2】最簡單的非引數估計：直方圖理解：直方圖如果達到細化，就是概率密度函式。 2.1 簡單理解一下公式：在x點發生的概率=（收集器區域內樣本數/總的樣本

Excel在統計分析中的應用—第九章—非引數檢驗-Mann-Whitney U檢驗

“Mann-Whitney U檢驗主要用於檢驗兩組樣本是否來自同一總體，也等價於判斷兩組樣本是否存在差異（例如，均值顯著不同則必然來自不同的總體）。Mann-Whitney U檢驗思想與Wilcoxo

Excel在統計分析中的應用—第九章—非引數檢驗-簡單符號檢驗

“簡單符號檢驗直接根據樣本差異的正負號進行檢驗，如果差異中正號的數目和負號的數目相差很大（超過臨界值）則應拒絕原假設，否則應接受原假設。簡單符號檢驗應用簡單且適用範圍較廣，但檢驗中失去的資訊較多。

R語言_函式的使用_rep

函式名稱：rep（）解釋：Replicate Elements of Vectors and Lists（複製向量和列表的元素）語法：rep(x,times,length.out)rep(x,each,length.out)下面我們分別對兩種形式進行說明：x：代表的是你要進行

Excel在統計分析中的應用—第九章—非引數檢驗-Wilcoxon帶符號等級檢驗

這一節有個還沒搞明白的問題:Tα=8是怎麼查出來的，留待日後解決吧。 “威爾科克森符號秩檢驗亦稱威爾科克倫代符號的等級檢驗（Wilcoxon帶符號等級檢驗），是由威爾科克森（F·Wilcoxon）於1945年提出的。該方法是在成對觀測資料的符號檢驗基礎上發展起來的，比傳統的

R語言：常用統計檢驗方法

轉自http://blog.sciencenet.cn/home.php?mod=space&uid=255662&do=blog&id=240107 正態總體均值的假設檢驗 t檢驗單個總體例一某種元件的壽命X（小時），服從正態分佈，N（mu,

非引數檢驗和卡方檢驗

卡方值的計算與意義　　χ2值表示觀察值與理論值之問的偏離程度。計算這種偏離程度的基本思路如下。　　(1)設A代表某個類別的觀察頻數，E代表基於H0計算出的期望頻數，A與E之差稱為殘差。　　(2)顯然，殘差可以表示某一個類別觀察值和理論值的偏離程度，但如果將殘差簡單相加以表示各類別觀察頻數與期

SPSS——非引數檢驗——2 Independent sample 兩個獨立樣本檢驗

簡介兩獨立樣本檢驗可以判斷兩個獨立的樣本是否來自相同分佈的總體。這種檢驗過程是通過分析兩個獨立樣本的均值、中位數、離散趨勢、偏度等描述性統計量之間的差異來實現的檢驗型別 Mann-Whi

R語言Copula的貝葉斯非引數估計

Copula可以完全表徵多個變數的依賴性。本文的目的是提供一種貝葉斯非引數方法來估計一個copula，我們通過混合一類引數copula來做到這一點。特別地，我們表明任何雙變數copula密度可以通過高斯copula密度函式的無限混合任意精確地近似。該模型可以通過馬爾可夫鏈蒙特

R語言_非引數檢驗

皮爾森擬合優度卡方檢驗

ks檢驗

列聯表資料獨立性檢驗

符號檢驗

秩相關檢驗

wilcoxon檢驗

參考資料

相關推薦