1. 程式人生 > >Pandas與Matplotlib在統計分析中的應用

Pandas與Matplotlib在統計分析中的應用

上節講到資料分析和挖掘需要的庫,其中最主要的是Pandas,Matplotlib。
Pandas:主要是對資料分析,計算和統計,如求平均值,方差等。
Matplotlib:主要結合Pandas生成影象。兩者往往結合使用的。

Pandas:
這裡寫圖片描述
上圖中針對的是物件為DataFrame或者Series
對於DataFrameSeries區別,參考一下官網說明就知道該資料結構了。
迴歸到上圖的使用方法
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
解釋:
讀取excel裡面的資料,然後生成data資料。然後過濾一下資料,這個過濾可有可無,然後直接使用data.describe()即可。因為物件data是DataFrame格式。
如果使用其他方法,data.sum(),data.var()即可得出,如下
這裡寫圖片描述

這裡只是給出其他統計方式,如果還需要其他資料,如極差,四分位數間距這些,需要計算得出。這裡可以這樣:
這裡寫圖片描述
解釋:
statistics是為data.describe(),不能直接是data。

statistics.loc['aa'] = statistics.loc['75%']-statistics.loc['25%'] #四分位數間距
  • 1
  • 1

statistics.loc[‘aa’]是可以自定義名稱的。也就是我們常說的新增統計資料。

Pandas累積統計特徵函式
這裡寫圖片描述
用法:
這裡寫圖片描述
結果:
這裡寫圖片描述
這裡是統計2行的和,因為和我設定window=2相關的。你會發現第一個數是NaN的,因為第一行不夠2行,無法累加。

Matplotlib作圖:
這裡寫圖片描述

在作圖之前,基本上都要做一些設定:
import matplotlib.pyplot as plt #匯入影象庫
plt.rcParams[‘font.sans-serif’] = [‘SimHei’] #用來正常顯示中文標籤
plt.rcParams[‘axes.unicode_minus’] = False #用來正常顯示負號
plt.figure(figsize=(7,5)) #建立影象,建立影象區域,figsize=(7,5)指定比例
預設比例可以為:plt.figure()

如果結合Pandas使用,用法
data.plot(kind=’bar’)
kind引數作用指定作圖型別,line(線),bar(條形),barh、hist(直方圖),box(箱線圖),kde(密度圖),area、pie(餅圖)、scatter(散點圖)
data為DataFrame或Series。
基本上Pandas,Matplotlib兩者結合作圖都是這種方法。


例子:
這裡寫圖片描述
這裡寫圖片描述
這個是通過excel資料生成圖形。
如果是餅圖
這裡寫圖片描述

如果Matplotlib要單獨使用,用法和上述又不一樣了。