資料的偏度skew和峰度kurtosis

阿新 • • 發佈：2022-04-07

偏度和峰度是資料處理中常用的用來分析資料分佈程度的指標，Pandas中提供了這兩個函式。

skew 偏度

偏度（skew），是統計資料分佈偏斜方向和程度的度量，是統計資料分佈非對稱程度的數字特徵。偏度(Skewness)亦稱偏態、偏態係數。表徵概率分佈密度曲線相對於平均值不對稱程度的特徵數。直觀看來就是密度函式曲線尾部的相對長度。公式如下：

上式中：
μ為均值，σ為標準差，E為期望運算元，μ3為第三中心矩，κt為t階累積量。
下圖體現了相對於正態分佈的偏度正負值：

Pandas使用示例：

# importing pandas as pd
import pandas as pd
  
# Creating the dataframe 
df = pd.read_csv("nba.csv")
  
# skewness along the index axis
df.skew(axis = 0, skipna = True)

# use on df.groupby
df.groupby(['group'])["feature"].skew()

kurtosis 峰度

峰度（peakedness;kurtosis）又稱峰態係數。表徵概率密度分佈曲線在平均值處峰值高低的特徵數。直觀看來，峰度反映了峰部的尖度。樣本的峰度是和正態分佈相比較而言統計量，如果峰度大於三，峰的形狀比較尖，比正態分佈峰要陡峭。反之亦然。

其中μ4為第四中心矩，σ為標準差。文獻中用了幾個字母來表示峰度。最常見的選擇是κ，只要明確表示它不指向累積量就可以。其他選擇包括γ2，類似於偏斜度的符號，儘管有時這被保留為多餘的峰度。

Pandas使用示例：

# importing pandas as pd
import pandas as pd
  
# Creating the dataframe 
df = pd.read_csv("nba.csv")
  
# skewness along the index axis
df.kurtosis(axis = 0, skipna = True)

# use on df.groupby
df.groupby(['group'])["feature"].apply(pd.DataFrame.kurt)

資料的偏度skew和峰度kurtosis

skew 偏度

kurtosis 峰度

資料的偏度skew和峰度kurtosis

檢視變數詳情（分佈指標（偏度和峰度）、稀疏性、缺失形、相關性）

Python Sympy計算梯度、散度和旋度的例項

python-OpenCV 實現將陣列轉換成灰度圖和彩圖

使用Python和百度語音識別生成視訊字幕的實現

【Nginx】實現負載均衡、限流、快取、黑白名單和灰度釋出，這是最全的一篇了！

實現負載均衡、限流、快取、黑白名單和灰度釋出，這是最全的一篇了！

資料結構與演算法 - 時空複雜度分析

hexo+yilia新增百度統計和Google統計

最長公共子序列圖解、演算法實現和複雜度分析

C#深度複製和淺度複製

汙點和容忍度

k8s 汙點和容忍度

由資料範圍反推演算法複雜度以及演算法內容（轉載）

已拿阿里，美團和百度offer，年薪70W，年輕人還是得多學習啊

Python呼叫百度地圖和高德地圖API批量獲取國內城市地址經緯度座標

時間複雜度與空間複雜度-(小灰和大黃)

提高系統穩定性-灰度策略和容錯

php 度分秒和小數轉化

Java類和物件02及初步認識時間複雜度與空間複雜度【Mac+JDK8】

資料的偏度skew和峰度kurtosis

skew 偏度

kurtosis 峰度

相關推薦