1. 程式人生 > 其它 >標準差和方差

標準差和方差

標準差

標準差是數值分散的測量。

標準差的符號是σ(希臘語字母 西格馬,英語 sigma)

公式很簡單:方差平方根。那麼…… "方差是什麼?"

方差

方差的定義是:

離平均的平方距離的平均。

按照以下的步驟來計算方差:

例子

你和朋友們量度了狗狗的身高(毫米):

身高(到肩膀)是:600mm、470mm、170mm、430mm 和 300mm。

求平均、方差和標準差。

第一步是求平均:

答案:

平均 = 600 + 470 + 170 + 430 + 3005 = 19705 = 394

平均身高是 394 mm。我們畫在圖上:

接著求每條狗和平均的距離:

要計算方差,求每個距離的平方,然後求平均:

方差是21,704

標準差是方差的平方根:

標準差
σ = √21,704
= 147.32……
=147(到最近的毫米)

標準差很有用。 我們現在可以顯示哪個高度是在離平均一個標準差(147mm)之內:

標準差是一個甄別數值是正常與否的"標準"。

羅德維拉犬高的狗,臘腸犬矮的狗……但不要告訴它們!

可是……如果資料是樣本資料

以上例子的資料是物件總體的資料(我們的物件就是那 5條狗)。

但如果資料是個樣本(只是物件總體的一部分),計算便會有點改變!

如果你有 "N"個數值,而這些數值是:

  • 物件總體:在求方差時除以N(如上)
  • 樣本:在求方差時除以N-1

其他的計算步驟不變,包括計算平均在內。

例子:如果我們的 5條狗只是更多狗裡的的一個樣本,我們便要除以4,而不是除以 5:

樣本方差 = 108,520 /4=27,130 樣本標準差 = √27,130 =164(到最近的毫米)

想象這是對樣本資料的 "修補"。

公式

這是在標準差公式網頁裡的兩個公式(你可以去看看來了解更多):


"物件總體標準差":

"樣本標準差":

乍看很複雜,但其實只是在計算樣本方差時,有個重要的改變:
以除以N-1

來代替除以N

*腳註:為什麼要求差的平方

如果我們只把和平均的差加起來……負值和正值便會互相抵消:

4 + 4 − 4 − 44=0

這不行。我們可以用絕對值嗎?

|4| + |4| + |−4| + |−4|4=4 + 4 + 4 + 44=4

不錯(這叫平均差),但看看這個例子:

|7| + |1| + |−6| + |−2|4=7 + 1 + 6 + 24=4

糟了!資料比較分散,但結果還是 4。

我們來試試求每個差的平方(最後才取平方根):

√(42+ 42+ 42+ 424)=√(644)=4
√(72+ 12+ 62+ 224)=√(904)=4.74...

好極了!當資料比較分散時,標準差也比較大……正是我們想要的。

其實這個方法和兩點之間的距離都是基於同一個原理,不過應用不同而已。

同時,用代數來處理平方和平方根比處理絕對值要容易很多,標準差也比較容易被應用在其他數學領域。

作者:Sweettesting —— 半醉半醒半浮生

出處:http://www.cnblogs.com/Sweettesting/

本文版權歸作者和部落格園共有,歡迎轉載,但未經作者同意必須保留此段宣告,且在文章頁面明顯位置給出原文連線,否則保留追究法律責任的權利。