1. 程式人生 > 程式設計 >Python統計學一資料的概括性度量詳解

Python統計學一資料的概括性度量詳解

一、資料的概括性度量

1、統計學概括:

統計學是應用數學的一個分支,主要通過利用概率論建立數學模型,收集所觀察系統的資料,進行量化的分析、總結,並進而進行推斷和預測,為相關決策提供依據和參考。統計學主要又分為描述統計學和推斷統計學。給定一組資料,統計學可以摘要並且描述這份資料,這個用法稱作為描述統計學。另外,觀察者以資料的形態建立出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及母體,這種用法被稱做推論統計學。

2、資料的概括性度量:

1)集中趨勢的度量:

眾數:眾數(Mode),是一組資料中出現次數最多的數值,叫眾數,有時眾數在一組數中有好幾個。用M表示。

中位數:中位數(Median)是指將資料按大小順序排列起來,形成一個數列,居於數列中間位置的那個資料。中位數用Me表示。計算公式:

Python統計學一資料的概括性度量詳解

四分位數:四分位數(Quartile)把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。QL=下四分位數,即第25百分位數( n / 4);QU=上四分位數,即第75百分位數( 3n / 4)。

平均數:算術平均數(arithmetic mean)算術平均數是指資料中各觀測值的總和除以觀測值個數所得的商,簡稱平均數或均數。

2)離散趨勢的度量:

四分位差:四分位差(quartile deviation),也稱為內距或四分間距(inter-quartile range),它是上四分位數(QU,即位於75%)與下四分位數(QL,即位於25%)的差。

極差:全距(Range),又稱極差,是用來表示統計資料中的變異量數(measures of variation),其最大值與最小值之間的差距

方差:方差(variance)(樣本方差)是各個資料分別與其平均數之差的平方的和的平均數,通常以σ2表示,方差的計算公式為:

Python統計學一資料的概括性度量詳解

標準差:標準差 (Standard Deviation),也稱均方差(Mean square error), Python統計學一資料的概括性度量詳解

離散係數:離散係數又稱變異係數,CV(Coefficient of Variance)表示。CV(Coefficient of Variance):標準差與均值的比值。離散係數越小,資料的離散程度就越小,反之,亦然。

3)偏度與峰度的度量:

偏態係數:偏度(Skewness)亦稱偏態、偏態係數,偏度是統計資料分佈偏斜方向和程度的度量,是統計資料分佈非對稱程度的數字特徵。Sk>0時,分佈呈正偏態(右偏),Sk<0時,分佈呈負偏態(左偏)。

峰態係數:(Kurtosis)峰度係數是用來反映頻數分佈曲線頂端尖峭或扁平程度的指標。在正態分佈情況下,峰度係數值是3。>3的峰度係數說明觀察量更集中,有比正態分佈更短的尾部;<3的峰度係數說明觀測量不那麼集中,有比正態分佈更長的尾部,類似於矩形的均勻分佈。峰度係數的標準誤用來判斷分佈的正態性。峰度係數與其標準誤的比值用來檢驗正態性。如果該比值絕對值大於2,將拒絕正態性。

3、Python程式碼實現:

<span style="font-family:Microsoft YaHei;font-size:12px;">#以下程式碼基於Python3.5環境編寫
import numpy as np
import stats as sts
scores = [31,24,23,25,14,13,12,32,34,43,41,21,26,42,44,52,35,28,17,34]
#集中趨勢的度量
print('求和:',np.sum(scores))
print('個數:',len(scores))
print('平均值:',np.mean(scores))
print('中位數:',np.median(scores))
print('眾數:',sts.mode(scores))
print('上四分位數',sts.quantile(scores,p=0.25))
print('下四分位數',p=0.75))
#離散趨勢的度量
print('最大值:',np.max(scores))
print('最小值:',np.min(scores))
print('極差:',np.max(scores)-np.min(scores))
print('四分位差',p=0.75)-sts.quantile(scores,p=0.25))
print('標準差:',np.std(scores))
print('方差:',np.var(scores))
print('離散係數:',np.std(scores)/np.mean(scores))
#偏度與峰度的度量
print('偏度:',sts.skewness(scores))
print('峰度:',sts.kurtosis(scores))</span>

以上這篇Python統計學一資料的概括性度量詳解就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支援我們。