偏度與峰度的正態性分佈判斷
當我們應用統計方法對資料進行分析時,會發現許多分析方法如T檢驗、方差分析、相關分析以及線性迴歸等等,都要求資料服從正態分佈或近似正態分佈,正態分佈在機器學習的重要性後期會講述。上一篇文章用Q-Q圖來驗證資料集是否符合正態分佈,本文首先介紹了偏度與峰度的定義,然後用偏度與峰度檢測資料集是否符合正態分佈,最後分析該檢測演算法的適用條件以及SPSS的結果分析。
1、 偏度與峰度
(1) 偏度(Skewness)
偏度衡量隨機變數概率分佈的不對稱性,是相對於平均值不對稱程度的度量,通過對偏度係數的測量,我們能夠判定資料分佈的不對稱程度以及方向。
具體來說,對於隨機變數X,我們定義偏度為其的三階標準中心距:
對於樣本的偏度,我們一般記為SK,我們可以基於矩估計,得到有:
偏度的衡量是相對於正態分佈來說,正態分佈的偏度為0,即若資料分佈是對稱的,偏度為0。若偏度大於0,則分佈右偏,即分佈有一條長尾在右;若偏度小於0,則分佈為左偏,即分佈有一條長尾在左(如下圖);同時偏度的絕對值越大,說明分佈的偏移程度越嚴重。
【注意】資料分佈的左偏或右偏,指的是數值拖尾的方向,而不是峰的位置。
(2) 峰度(Kurtosis)
峰度,是研究資料分佈陡峭或平滑的統計量,通過對峰度係數的測量,我們能夠判定資料相對於正態分佈而言是更陡峭還是平緩。比如正態分佈的峰度為0,均勻分佈的峰度為-1.2(平緩),指數分佈的峰度為6(陡峭)。
峰度,定義為四階中心距除以方差的平方減3。
若峰度≈0,分佈的峰態服從正態分佈;
若峰度>0,分佈的峰態陡峭(高尖);
若峰度<0,分佈的峰態平緩(矮胖);
2、 正態性檢驗
利用變數的偏度和峰度進行正態性檢驗時,可以分別計算偏度和峰度的Z評分(Z-score)。
偏度Z-score = 偏度值 ÷偏度值的標準差
峰度Z-score = 峰度值 ÷峰度值的標準差
在α=0.05的檢驗水平下,偏度Z-score和峰度Z-score是否滿足假設條件所限制的變數範圍,若都滿足則可認為服從正態分佈,若一個不滿足則認為不服從正態分佈。
3、 正態性檢驗的適用條件
樣本的增加會減小偏度值和峰度值的標準差,相應的Z-score會變大,最終會拒絕條件假設,會給正確判斷樣本資料的正態性情況造成一定的干擾。因此,當樣本量小於100時,用偏度和峰度來判斷樣本的正態分佈性比較合理。
4、 SPSS結果分析
峰度Z-score = 5.166/0.425 > Z(α),α=0.05;因此該特徵不符合正態分佈。
參考:
https://www.sohu.com/a/125526669_609133
https://www.sohu.com/a/140979052_489312