1. 程式人生 > 其它 >Python主要資料探索函式(學習筆記)

Python主要資料探索函式(學習筆記)

技術標籤:Python資料分析與挖掘

1. 基本統計特徵函式

統計特徵函式:用於計算資料的均值、方差、標準數、分位數、相關係數、協方差等,這些統計特徵可以反映出資料的整體分佈。

pandas主要統計特徵函式

1)sum():計算資料樣本的總和。

D.sum()			# 表示按列計算資料樣本的總和,樣本D可以為DataFrame或者Series

2)mean():計算資料樣本的算術平均值。

D.mean()		# 表示按列計算樣本D的算數平均值,樣本D可以為DataFrame或者Series

3)var():計算資料樣本的方差。

D.var()			# 表示計算資料樣本的方差,樣本D可以為DataFrame或者Series

4)std():計算資料樣本的標準差。

D.std()			# 表示計算資料樣本的標準差,樣本D可以為DataFrame或者Series

5)corr():計算資料的Spearman(Pearson)相關係數矩陣。

D.corr(method='pearson')		# 樣本D可以為DataFrame,返回相關係數矩陣。
# method為計算方法,支援Pearson(預設)、Kendall、Spearman。		
						
S1.correct(S2,method='pearson'# s1,s2均為Series,用於計算兩個Series之間的相關係數。

6)cov():計算資料樣本的協方差矩陣。

D.cov()			# 樣本D可以為DataFrame,返回協方差矩陣
S1.cov(S2)		# s1,s2均為Series,用於計算兩個Series之間的協方差。

7)skew():樣本值的偏度(三階矩)。

D.skew()		# 計算樣本D的偏度(三階),樣本D可以為DataFrame或者Series

8)kurt():計算資料樣本的峰度(四階矩陣)

D.kurt()		# 計算樣本D的峰度(四階),樣本D可以為DataFrame或者Series

9)describe():直接給出樣本資料的一些基本的統計量,包括均值、標準差、最大值、最小值、分位數等。

D.describe()	# 括號內可以有引數,例如percentiles=[0.2,0.4,0.6,0.8],
# 則計算的不是預設的1/4,1/2,3/4分位數

2. 拓展統計特徵函式

pandas累計統計特徵函式pandas累計統計特徵函式
在這裡插入圖片描述

3. 統計繪圖函式

python的主要繪相簿是Matplotlib,繪圖通常是Matplotlib和pandas結合使用。
在這裡插入圖片描述
繪圖前要先載入一些程式碼:

import matplotlib.pyplot as plt  # 匯入繪相簿
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用來正常顯示中文標籤
plt.rcParams['axes.unicode_minus'] = False  # 用來正常顯示負號
plt.figure(figsize = (7, 5))  # 建立影象區域,指定比例

繪圖完成後用plt.show()命令來顯示繪圖結果。

1)plot():繪製線性二維圖,折線圖。

plt.plot(x,y,s)			# 繪製y對於x的二維影象。
# 字串s指定繪圖時的型別,樣式和顏色。
# 例如:'b'為藍色,'r'為紅色,'g'為綠色,'o'為圓圈,'+'為加號標記,'-'為實線,'--'為虛線。
D.plot(kind='box')	# 使用DataFrame或Series物件內建的方法繪圖,預設以Index為橫座標。
# 通過kind指定繪圖型別,支援line(線)、bar(條形)、barh(水平條形)、hist(直方圖)、box(箱型圖)、kde(密度圖)、area、pie(餅圖)

2)pie():繪製餅圖。

plt.pie(size)		# size是一個列表,記錄各個扇形的面積比例。

3)hist():繪製二維條形直方圖,可顯示資料的分佈情形。

plt.hist(x,y)		#x是待繪製直方圖的一維陣列。y可以是整數,表示均分為y組,也可是列表,各個數字為分組的邊界點。

4)boxplot():繪製樣本資料的箱型圖。

D.boxplot()			#D為DataFrame
D.plot(kind='box')		#D為DataFrame或者Series
#兩種方法都行

5)plot(logx=True)/plot(logy=True):繪製x或y軸的對數函式。

D.plot(logx=True)
D.plot(logy=True)
# D為DataFrame或者Series

6)plot(yerr=error):繪製誤差條形圖。

D.plot(yerr=error)		# 在y軸方向畫出誤差棒圖。
# D為DataFrame或者Series,代表著均值資料列,而error則是誤差列。
# 若設定xerr=error,則在x軸方向畫出誤差棒圖。