R 資料正態分佈檢驗

阿新 • • 發佈：2018-12-05

使用R檢測資料是否符合正態分佈（正態分佈檢驗）

R語言正態檢驗; R語言QQ圖; R語言概率密度曲線比較法;

詳細的方法介紹在網上已經有很多了，推薦這篇

概括得來講，主要分為4(or 5)種方法：

概率密度曲線比較法
Q-Q圖法
經驗法則
夏皮羅-威爾克（Shapiro-Wilk）檢驗法，適用於50 < n < 100 時的正態性檢驗

SPSS 規定:當樣本含量3 ≤n ≤5000 時,結果以Shapiro - Wilk (W 檢驗) 為準,當樣本含量n > 5000 結果以Kolmogorov - Smirnov 為準。而SAS 規定:當樣本含量n ≤2000 時,結果以Shapiro - Wilk (W 檢驗) 為準,規定當樣本含量n >2000 時,結果以Kolmogorov - Smirnov (D 檢驗) 為準，所以我在這裡也提一下 R語言中的 Kolmogorov-Smirnov 檢驗

ks.test(x, y, ...,        alternative = c("two.sided" 
, "less", "greater"),            exact = NULL)R語言中ks.test有四個引數，第一個引數x為觀測值向量，第二個引數y為第二觀測值向量或者累計分佈函式或者一個真正的累積分佈函式如pnorm，只對連續CDF有效。第三個引數為指明是單側檢驗還是雙側檢驗，exact引數為NULL或者一個邏輯值，表明是否需要計算精確的P值。
   
    1
    2
    3
    4
    5
    6
    7

我使用R編寫了一個示例函式，同時使用了概率密度曲線比較法、Q-Q圖法和夏皮羅-威爾克（Shapiro-Wilk）檢驗法。

至於經驗法則，我不是很推薦，很玄這東西。

不廢話，上碼子

#input.data應為矩陣normal_test<- function(input.data,alpha=0.05,picplot=TRUE){  if(picplot==TRUE){#畫圖形    dev.new()#新建視窗畫圖    par(mfrow=c(2,1))    #Q-Q圖法    qqnorm(input.data,main="qq圖")    qqline(input.data)    #概率密度曲線比較法    hist(input.data,freq=F,main="直方圖和密度估計曲線")        #如果畫出的圖缺少尖端部分則使用下面這句程式碼        #hist(input.data,freq=F,main="直方圖和密度估計曲線",ylim = c(0,0.5))#使用合適的值來避免紅藍線缺少尖端部分，這裡根據已經跑出來的影象我得出0.5    lines(density(input.data),col="blue") #密度估計曲線    x<-seq(min(input.data),max(input.data),0.0001)        #使用seq(),若取0.0000001太密集跑大一點的資料就容易宕機，建議0.0001    lines(x,dnorm(x,mean(input.data),sd(input.data)),col="red")         #正態分佈曲線，思想是根據求每個x應該對應的標準正態y值，然後將x與求出的y放在一起做出所求資料如果按照正態分佈應該是怎樣的，並於實際密度曲線（藍線）對比   }#sd標準差 mean平均值  #夏皮羅-威爾克（Shapiro-Wilk）檢驗法【資料不能過大，範圍為3~5000，假如有一個300*300的矩陣那麼這個方法執行函式時作廢】  shapiro_result<- shapiro.test(input.data)  if(shapiro_result$p.value>alpha){    print(paste("success:服從正態分佈,p.value=",shapiro_result$p.value,">",alpha))      }else{    print(paste("error:不服從正態分佈,p.value=",shapiro_result$p.value,"<=",alpha))  }  shapiro_result}
   
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30

使用的時候將以上程式碼執行後資料區會得到一個名為normal_test的函式，這時就可以呼叫它了。但之前我們先對要檢驗的資料進行預處理：

mydata<- read.table("xxxxxx.tsv", header=TRUE,sep="\t")#資料讀入因人而異，我的是tsv檔案(tab分隔)，且帶表頭mydata<-as.matrix(mydata)#需要轉換為矩陣
   
    1
    2

至於呼叫函式

normal_test(mydata)
   
    1

即可

附上一個符合正態分佈資料畫出的圖

可以看到紅藍線擬合完美，qq圖顯示點集中在對角線上

符合正態圖片

再來一個不符合的圖

可以看到紅藍線差別大，qq圖顯示點並不集中在對角線上

不符合正態圖片

visitor tracker
訪客追蹤外掛

再分享一下我老師大神的人工智慧教程吧。零基礎！通俗易懂！風趣幽默！希望你也加入到我們人工智慧的隊伍中來！http://www.captainbed.net

R 資料正態分佈檢驗

使用R檢測資料是

R的正態分佈函式

rnorm(n, mean = 0, sd = 1)##有三個引數 n 為產生隨機值個數（長度），mean 是平均數， sd 是標準差。使用該函式的時候後，一般要賦予它 3個值. rnorm（）函式會隨機正態分佈，然後隨機抽樣或者取值 n 次， >rnorm（5，0,1）以N（0,1）

R語言實戰--隨機產生服從不同分佈函式的資料（正態分佈，泊松分佈等），並將資料寫入資料框儲存到硬碟

隨機產生服從不同分佈的資料均勻分佈——runif（） > x1=round(runif(100,min=80,max=100)) > x1 [1] 93 100 98 98 92 98 98 89 90 98 100 89

R中三種檢驗正態分佈的方式

一、畫出密度函式與正態分佈密度圖比較： library(MASS) mu<- c(0,0,0) Sigma<- matrix(c(1,0.5,0.25,0.5,1,0.5, 0.25,0.5,1),3,3) M<- mvrnorm(1000,

R語言：生成正態分佈資料生成--rnorm,dnorm,pnorm,qnorm

norm是正態分佈，前面加r表示生成隨機正態分佈的序列，其中rnorm(10)表示產生10個數；給定正太分佈的均值和方差， Density(d), distribution function§, quantile function(q) and random® generation

R語言與資料模型(3)-正態分佈

> x<-c(11,22,34,53,12,45,55,37,43,23,9) > dnorm(x,mean=mean(x),sd=sd(x)) [1] 0.011476566 0.020361888 0.023388233 0.010303998 0.

【114】Python小例子：numpy.random.randn生成符合正態分佈的資料，並畫出正態分佈的鐘曲線。

自己學習python 隨手寫的一個小例子。先利用 numpy.random.randn生成符合正態分佈的資料，然後再給這些資料畫正態分佈的曲線圖。 import numpy as np impor

【Scikit-learn】【模型預處理-2-資料整理】資料標準化調整：把資料調整為標準正態分佈

1.標準正態分佈概念詳細的概念可以www.baidu.com，或者看以前寫的文章。標準正態分佈又稱為u分佈，是以0為均數、以1為標準差的正態分佈，記為N（0，1）。如下圖，綠色綠色就代表了標準正態分佈：2.資料標準化調整2.1簡介許多機器學習演算法在具有不同範圍特徵的資料中呈

檢驗樣本是否服從正態分佈，處理偏態分佈

在資料分析中如果某個資料服從正態分佈的話，我們可以利用正態分佈的性質做出很多有意義的分析，例如t-檢驗。。如何檢驗樣本是否服從正態分佈？可以使用Q-Q圖來進行檢驗，Q-Q圖是一個散點圖，點(x,

MATLAB解決正態分佈資料的大致方法

當我們有了一個矩陣，如何判斷矩陣裡面的元素是否滿足正態分佈，以及如何繪製圖像和求引數。我根據自己最近使用matlab的一些體會，將大致方法寫下。 1、矩陣元素轉化成行向量 reshape()函式 ex

使用K-S檢驗一個數列是否服從正態分佈、兩個數列是否服從相同的分佈

假設檢驗的基本思想：若對總體的某個假設是真實的，那麼不利於或者不能支援這一假設的事件A在一次試驗中是幾乎不可能發生的。如果事件A真的發生了，則有理由懷疑這一假設的真實性，從而拒絕該假設。實質分析：假設檢驗實質上是對原假設是否正確進行檢驗

股票收益率正態分佈性檢驗

##匯入資料 data2 = pd.read_csv ('data2.csv', encoding='gbk', index_col='Dates') data2.index=[dt.datetime.strptime(x,'%Y/%m/%d') for x in data2

從np.random.normal()到正態分佈的擬合

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

統計分析之：正態性檢驗——SPSS操作指南

在進行統計分析時，研究者們經常遇到不能確定總體分佈的情況，SPSS的正態性檢驗可以幫助解決這一問題。先來看一下什麼是正態性檢驗。利用觀測資料判斷總體是否服從正態分佈的檢驗稱為正態性檢

截斷正態分佈 Truncated normal distribution

非引數正態性檢驗

前面兩節介紹了採用Q-Q圖和偏度與峰度來對採集樣本進行正態性檢驗，本節介紹非引數性的正態性檢驗，非引數性的正態性檢驗演算法思想大致相同，演算法思想步驟為：首先假設條件H0成立，然後計算採集樣本的統計量，最後在已知統計量分佈的情況下比較統計量與顯著性水平α的大小，根據比較結果判斷是否拒絕檢驗假設H

正態分佈，銳利分佈，萊斯分佈 matlab擬合原始碼

如果你得到一堆數，你想知道它們的大致分佈，該怎麼辦呢？kedensity命令可以幫助你解決這個問題。命令如下： [f,xi]=ksdensity(x) plot(xi,f) 其中，f是估計的密度值，而xi是一個輔助引數，用來決定畫出圖形的取值區間，簡言之，xi大致涵蓋了x的取值區間。

正態分佈的理解

一、概念概念：正態分佈，又稱高斯分佈。其特徵為中間高兩邊低左右對稱。特性： 1）集中性：曲線的最高峰位於正中央，且位置為均數所在的位置。 2）對稱性：正態分佈曲線以均數所在的位置為中心左右對稱且曲線兩段無線趨近於橫軸。 3）均勻變動性：正態分佈曲線以均數所在的位置為中心均勻向左右兩側

課堂練習--計算陣列的最大值，最小值，平均值，標準差，中位數；numpy.random模組提供了產生各種分佈隨機數的陣列；正態分佈；Matplotlib

#計算陣列的最大值，最小值，平均值，標準差，中位數 import numpy as np a=np.array([1, 4, 2, 5, 3, 7, 9, 0]) print(a) a1=np.max(a) #最大值 print(a1) a2=np.min(a) #最小值 print(a2) a3

R 資料正態分佈檢驗

使用R檢測資料是否符合正態分佈（正態分佈檢驗）

詳細的方法介紹在網上已經有很多了，推薦這篇

相關推薦