描述統計學:極差、方差、標準差
阿新 • • 發佈:2018-11-07
變異程度的度量(離散程度的度量)
交貨時間的變異性造成按時完成生產任務的不確定性
極差
極差=最大值-最小值
最簡單的變異程度的度量
但很少單獨用來度量變異程度。僅有兩個觀測值,異受極端值的影響
四分位數間距
能夠克服極端值的影響,因為四分位數是中間的50%資料的極差.
方差
是用所有資料對變異程度所做的一種度量。
總體方差
樣本方差
樣本方差是總體方差的點估計,平均數的離差之和永遠為0。
例子:
第一組的雞的斤數分別是 2.5,3,3.5
第二組的雞的斤數分別是 1,3,5
很顯然我們能看出第一組雞看起來重量的差別不大,第二組雞的差別就很大,因為雞本身重量並不大,相差兩斤的話一下子就能看出來
可是我們發現這兩組雞重量的平均數是一樣的,但是這兩組雞卻有明顯的差別,這是平均數就不能體現二者的差別,所以我們引入了方差的概念
方差越大,說明資料的差別越大。反應了一組資料的穩定性。
標準差
方差的平方根
樣本標準差:
總體標準差
標準差更容易與平均數等其他統計量進行比較,這是由於它們的單位與原始資料是相同的。
標準差係數
(標準差/平均數)*100%
在變數的標準差和平均數都不相同時,比較它們的變異程度,標準差係數是一個有用的統計量。
練習
- 考慮資料值為10,20,12,17和16的一個樣本,計算方差和標準差。
new_list = [10,20,12,17,16] data = Series(new_list) # 方差 data.var() 3.125 # 標準差 data.std() 1.7677669529663689
new_list = [182,168,184,190,170,174]
data = Series(new_list)
# 方差
data.var()
75.2
# 標準差
data.std()
8.67179335547152
# 平均數
data.mean()
178.0
# 極差
data.max()-data.min()
22
# 標準差係數
(data.std()/data.mean())*100%
4.87%
# 平均數
car.mean()
38.0
# 標準差
car.std()
9.848857801796104
# 方差
car.var()
97.0
雖讓東西部的租車費用的平均數相同,但是標準差東部的數值遠遠大於西部的,可見東部的各個城市間的租車費用差異性比較大,離散度較高,西部的各個城市間的租車費用相對來說差別不大,比較穩定。
dawson = [11,10,9,10,11,11,10,11,10,10]
clark = [8,10,13,7,10,11,10,7,15,12]
shop = pd.DataFrame([dawson,clark],index=['dawson','clark'])
shopT = shop.T
shopT
dawson clark
0 11 8
1 10 10
2 9 13
3 10 7
4 11 10
5 11 11
6 10 10
7 11 7
8 10 15
9 10 12
diff_vale = shopT.max()-shopT.min()
diff_vale
# 極差
dawson 2
clark 8
s = shopT.std()
s
# 標準差
dawson 0.674949
clark 2.584140
由兩家的極差和標準差可見,穩定性dawson遠遠高於clark。
Bonita_2005 = [74,78,79,77,75,73,75,77]
Bonita_2006 = [71,70,75,77,85,80,71,79]
golf_person = pd.DataFrame([Bonita_2005,Bonita_2006],index = [2005,2006])
# 平均數
golf_person.mean(axis=1)
2005 76.0
2006 76.0
# 標準差
golf_person.std(axis=1)
2005 2.070197
2006 5.264436
golf_person.T.describe()
2005 2006
count 8.000000 8.000000
mean 76.000000 76.000000
std 2.070197 5.264436
min 73.000000 70.000000
25% 74.750000 71.000000
50% 76.000000 76.000000
75% 77.250000 79.250000
max 79.000000 85.000000
雖然平均數是相同的,但是看的出來,2006年的比賽,心態並不穩定,但是最大值和最小值的差值從2005的6,2006年的15反映出該運動員的水平是得到了提高的。