徹底理解樣本方差為何除以n-1
設樣本均值為,樣本方差為,總體均值為,總體方差為,那麼樣本方差有如下公式:
很多人可能都會有疑問,為什麼要除以n-1,而不是n,但是翻閱資料,發現很多都是交代到,如果除以n,對樣本方差的估計不是無偏估計,比總體方差要小,要想是無偏估計就要調小分母,所以除以n-1,那麼問題來了,為什麼不是除以n-2、n-3等等。所以在這裡徹底總結一下,首先交代一下無偏估計。
無偏估計
以例子來說明,假如你想知道一所大學裡學生的平均身高是多少,一個大學好幾萬人,全部統計有點不現實,但是你可以先隨機挑選100個人,統計他們的身高,然後計算出他們的平均值,記為。如果你只是把作為整體的身高平均值,誤差肯定很大,因為你再隨機挑選出100個人,身高平均值很可能就跟剛才計算的不同,為了使得統計結果更加精確,你需要多抽取幾次,然後分別計算出他們的平均值,分別記為:
介紹無偏估計的意義就是,我們計算的樣本方差,希望它是總體方差的一個無偏估計,那麼假如我們的樣本方差是如下形式:
那麼,我們根據無偏估計的定義可得:
由上式可以看出如果除以n,那麼樣本方差比總體方差的值偏小,那麼該怎麼修正,使得樣本方差式總體方差的無偏估計呢?我們接著上式繼續化簡:
到這裡得到如下式子,看到了什麼?該怎修正似乎有點眉目。
如果讓我們假設的樣本方差乘以,即修正成如下形式,是不是可以得到樣本方差是總體方差的無偏估計呢?
則:
因此修正之後的樣本方差的期望是總體方差的一個無偏估計,這就是為什麼分母為何要除以n-1。