1. 程式人生 > >描述統計學:極差、方差、標準差

描述統計學:極差、方差、標準差

變異程度的度量(離散程度的度量)

交貨時間的變異性造成按時完成生產任務的不確定性

極差

極差=最大值-最小值

最簡單的變異程度的度量

但很少單獨用來度量變異程度。僅有兩個觀測值,異受極端值的影響

四分位數間距

能夠克服極端值的影響,因為四分位數是中間的50%資料的極差.

方差

是用所有資料對變異程度所做的一種度量。

對於樣本平均數的離差=

對於總體平均數的離差=

總體方差

樣本方差

樣本方差是總體方差的點估計,平均數的離差之和永遠為0。

例子:

第一組的雞的斤數分別是 2.5,3,3.5
第二組的雞的斤數分別是 1,3,5

很顯然我們能看出第一組雞看起來重量的差別不大,第二組雞的差別就很大,因為雞本身重量並不大,相差兩斤的話一下子就能看出來
可是我們發現這兩組雞重量的平均數是一樣的,但是這兩組雞卻有明顯的差別,這是平均數就不能體現二者的差別,所以我們引入了方差的概念

方差越大,說明資料的差別越大。反應了一組資料的穩定性。

標準差

方差的平方根

樣本標準差:

總體標準差

標準差更容易與平均數等其他統計量進行比較,這是由於它們的單位與原始資料是相同的。

標準差係數

(標準差/平均數)*100%

在變數的標準差和平均數都不相同時,比較它們的變異程度,標準差係數是一個有用的統計量。

練習

  1. 考慮資料值為10,20,12,17和16的一個樣本,計算方差和標準差。
new_list = [10,20,12,17,16]
data = Series(new_list)
# 方差
data.var()
3.125
# 標準差
data.std()
1.7677669529663689

gai

new_list = [182,168,184,190,170,174]
data = Series(new_list)
# 方差
data.var()
75.2
# 標準差
data.std()
8.67179335547152
# 平均數
data.mean()
178.0
# 極差
data.max()-data.min()
22
# 標準差係數
(data.std()/data.mean())*100%
4.87%

gai

# 平均數
car.mean()
38.0
# 標準差
car.std()
9.848857801796104
# 方差
car.var()
97.0

雖讓東西部的租車費用的平均數相同,但是標準差東部的數值遠遠大於西部的,可見東部的各個城市間的租車費用差異性比較大,離散度較高,西部的各個城市間的租車費用相對來說差別不大,比較穩定。

gai

dawson = [11,10,9,10,11,11,10,11,10,10]
clark = [8,10,13,7,10,11,10,7,15,12]
shop = pd.DataFrame([dawson,clark],index=['dawson','clark'])
shopT = shop.T
shopT

    dawson  clark
0   11  8
1   10  10
2   9   13
3   10  7
4   11  10
5   11  11
6   10  10
7   11  7
8   10  15
9   10  12

diff_vale = shopT.max()-shopT.min()
diff_vale
# 極差
dawson    2
clark     8

s = shopT.std()
s
# 標準差
dawson    0.674949
clark     2.584140

由兩家的極差和標準差可見,穩定性dawson遠遠高於clark。

gai

Bonita_2005 = [74,78,79,77,75,73,75,77]
Bonita_2006 = [71,70,75,77,85,80,71,79]
golf_person = pd.DataFrame([Bonita_2005,Bonita_2006],index = [2005,2006])
# 平均數
golf_person.mean(axis=1)
2005    76.0
2006    76.0
# 標準差
golf_person.std(axis=1)
2005    2.070197
2006    5.264436

golf_person.T.describe()
        2005            2006
count   8.000000    8.000000
mean    76.000000   76.000000
std 2.070197    5.264436
min 73.000000   70.000000
25% 74.750000   71.000000
50% 76.000000   76.000000
75% 77.250000   79.250000
max 79.000000   85.000000

雖然平均數是相同的,但是看的出來,2006年的比賽,心態並不穩定,但是最大值和最小值的差值從2005的6,2006年的15反映出該運動員的水平是得到了提高的。