偏度與峰度的正態性分佈判斷

阿新 • • 發佈：2018-11-08

當我們應用統計方法對資料進行分析時，會發現許多分析方法如T檢驗、方差分析、相關分析以及線性迴歸等等，都要求資料服從正態分佈或近似正態分佈，正態分佈在機器學習的重要性後期會講述。上一篇文章用Q-Q圖來驗證資料集是否符合正態分佈，本文首先介紹了偏度與峰度的定義，然後用偏度與峰度檢測資料集是否符合正態分佈，最後分析該檢測演算法的適用條件以及SPSS的結果分析。

1、 偏度與峰度

（1）偏度（Skewness）

偏度衡量隨機變數概率分佈的不對稱性，是相對於平均值不對稱程度的度量，通過對偏度係數的測量，我們能夠判定資料分佈的不對稱程度以及方向。

具體來說，對於隨機變數X，我們定義偏度為其的三階標準中心距:

對於樣本的偏度，我們一般記為SK，我們可以基於矩估計，得到有：

偏度的衡量是相對於正態分佈來說，正態分佈的偏度為0，即若資料分佈是對稱的，偏度為0。若偏度大於0，則分佈右偏，即分佈有一條長尾在右；若偏度小於0，則分佈為左偏，即分佈有一條長尾在左（如下圖）；同時偏度的絕對值越大，說明分佈的偏移程度越嚴重。

【注意】資料分佈的左偏或右偏，指的是數值拖尾的方向，而不是峰的位置。

（2）峰度（Kurtosis）

峰度，是研究資料分佈陡峭或平滑的統計量，通過對峰度係數的測量，我們能夠判定資料相對於正態分佈而言是更陡峭還是平緩。比如正態分佈的峰度為0，均勻分佈的峰度為-1.2（平緩），指數分佈的峰度為6（陡峭）。

峰度，定義為四階中心距除以方差的平方減3。

若峰度≈0，分佈的峰態服從正態分佈；

若峰度>0，分佈的峰態陡峭（高尖）；

若峰度<0，分佈的峰態平緩（矮胖）；

2、正態性檢驗

利用變數的偏度和峰度進行正態性檢驗時，可以分別計算偏度和峰度的Z評分（Z-score）。

偏度Z-score = 偏度值 ÷偏度值的標準差

峰度Z-score = 峰度值 ÷峰度值的標準差

在α=0.05的檢驗水平下，偏度Z-score和峰度Z-score是否滿足假設條件所限制的變數範圍，若都滿足則可認為服從正態分佈，若一個不滿足則認為不服從正態分佈。

3、正態性檢驗的適用條件

樣本的增加會減小偏度值和峰度值的標準差，相應的Z-score會變大，最終會拒絕條件假設，會給正確判斷樣本資料的正態性情況造成一定的干擾。因此，當樣本量小於100時，用偏度和峰度來判斷樣本的正態分佈性比較合理。

4、 SPSS結果分析

峰度Z-score = 5.166/0.425 > Z(α)，α=0.05；因此該特徵不符合正態分佈。

參考：

https://www.sohu.com/a/125526669_609133

https://www.sohu.com/a/140979052_489312

偏度與峰度的正態性分佈判斷

偏度與峰度的正態性分佈判斷

偏度與峰度（附python程式碼）

機器學習數學|偏度與峰度及其python實現

數理統計15：擬合優度檢驗(2)，列聯表，正態性檢驗

數據特征分析：4.正態分布與正態性體驗

statistic—偏度，峰度，卡方分佈，t分佈，f分佈

多階矩在影象中的含義（方差，偏度，峰度）

統計分析：偏度和峰度

python模擬概率論中偏度和峰度計算

數據的偏度和峰度

概率論與數理統計——正態分布

統計分析之：正態性檢驗——SPSS操作指南

非引數正態性檢驗

均攤時間複雜度與複雜度震盪

殘差的正態性檢驗

【概率與統計】正態分佈(Normal Distribution)

[資料結構]Graph之入度與出度計算

如何檢驗資料樣本的正態性？

正態性檢驗SPSS

基於C++的多態性動態判斷函數

偏度與峰度的正態性分佈判斷

相關推薦