Python主要資料探索函式(學習筆記)
阿新 • • 發佈:2021-02-05
技術標籤:Python資料分析與挖掘
1. 基本統計特徵函式
統計特徵函式:用於計算資料的均值、方差、標準數、分位數、相關係數、協方差等,這些統計特徵可以反映出資料的整體分佈。
pandas主要統計特徵函式
1)sum():計算資料樣本的總和。
D.sum() # 表示按列計算資料樣本的總和,樣本D可以為DataFrame或者Series
2)mean():計算資料樣本的算術平均值。
D.mean() # 表示按列計算樣本D的算數平均值,樣本D可以為DataFrame或者Series
3)var():計算資料樣本的方差。
D.var() # 表示計算資料樣本的方差,樣本D可以為DataFrame或者Series
4)std():計算資料樣本的標準差。
D.std() # 表示計算資料樣本的標準差,樣本D可以為DataFrame或者Series
5)corr():計算資料的Spearman(Pearson)相關係數矩陣。
D.corr(method='pearson') # 樣本D可以為DataFrame,返回相關係數矩陣。
# method為計算方法,支援Pearson(預設)、Kendall、Spearman。
S1.correct(S2,method='pearson') # s1,s2均為Series,用於計算兩個Series之間的相關係數。
6)cov():計算資料樣本的協方差矩陣。
D.cov() # 樣本D可以為DataFrame,返回協方差矩陣
S1.cov(S2) # s1,s2均為Series,用於計算兩個Series之間的協方差。
7)skew():樣本值的偏度(三階矩)。
D.skew() # 計算樣本D的偏度(三階),樣本D可以為DataFrame或者Series
8)kurt():計算資料樣本的峰度(四階矩陣)
D.kurt() # 計算樣本D的峰度(四階),樣本D可以為DataFrame或者Series
9)describe():直接給出樣本資料的一些基本的統計量,包括均值、標準差、最大值、最小值、分位數等。
D.describe() # 括號內可以有引數,例如percentiles=[0.2,0.4,0.6,0.8],
# 則計算的不是預設的1/4,1/2,3/4分位數
2. 拓展統計特徵函式
3. 統計繪圖函式
python的主要繪相簿是Matplotlib,繪圖通常是Matplotlib和pandas結合使用。
繪圖前要先載入一些程式碼:
import matplotlib.pyplot as plt # 匯入繪相簿
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用來正常顯示中文標籤
plt.rcParams['axes.unicode_minus'] = False # 用來正常顯示負號
plt.figure(figsize = (7, 5)) # 建立影象區域,指定比例
繪圖完成後用plt.show()命令來顯示繪圖結果。
1)plot():繪製線性二維圖,折線圖。
plt.plot(x,y,s) # 繪製y對於x的二維影象。
# 字串s指定繪圖時的型別,樣式和顏色。
# 例如:'b'為藍色,'r'為紅色,'g'為綠色,'o'為圓圈,'+'為加號標記,'-'為實線,'--'為虛線。
D.plot(kind='box') # 使用DataFrame或Series物件內建的方法繪圖,預設以Index為橫座標。
# 通過kind指定繪圖型別,支援line(線)、bar(條形)、barh(水平條形)、hist(直方圖)、box(箱型圖)、kde(密度圖)、area、pie(餅圖)
2)pie():繪製餅圖。
plt.pie(size) # size是一個列表,記錄各個扇形的面積比例。
3)hist():繪製二維條形直方圖,可顯示資料的分佈情形。
plt.hist(x,y) #x是待繪製直方圖的一維陣列。y可以是整數,表示均分為y組,也可是列表,各個數字為分組的邊界點。
4)boxplot():繪製樣本資料的箱型圖。
D.boxplot() #D為DataFrame
D.plot(kind='box') #D為DataFrame或者Series
#兩種方法都行
5)plot(logx=True)/plot(logy=True):繪製x或y軸的對數函式。
D.plot(logx=True)
D.plot(logy=True)
# D為DataFrame或者Series
6)plot(yerr=error):繪製誤差條形圖。
D.plot(yerr=error) # 在y軸方向畫出誤差棒圖。
# D為DataFrame或者Series,代表著均值資料列,而error則是誤差列。
# 若設定xerr=error,則在x軸方向畫出誤差棒圖。