[統計學理論基礎] 方差 & 協方差 & 標準差
阿新 • • 發佈:2019-01-31
統計裡最基本的概念就是樣本的均值
、方差
和標準差
。
通過一個含有n個樣本的集合,依次給出這些概念的公式描述。
- 均值描述的是樣本集合的中間點,它告訴我們的資訊是很有限的,
- 標準差描述的則是樣本集合的各個樣本點到均值的距離之平均。
以這兩個集合為例,[0,8,12,20]和[8,9,11,12],兩個集合的均值都是10,但顯然兩個集合差別是很大的,計算兩者的標準差,前者是8.3,後者是1.8,顯然後者較為集中,故其標準差小一些,標準差描述的就是這種“散佈度”。
之所以除以n-1而不是除以n,是因為這樣能使我們以較小的樣本集更好的逼近總體的標準差,即統計上所謂的“無偏估計”。 - 方差是標準差的平方。
方差的定義
方差在統計描述和概率分佈中各有不同的定義,並有不同的公式。
在統計描述中,方差用來計算每一個變數(觀察值)與總體均數之間的差異。為避免出現離均差總和為零,離均差平方和受樣本含量的影響,統計學採用平均離均差平方和來描述變數的變異程度。
總體方差
計算公式:
為總體方差, X為變數, 為總體均值, N為總體例數。實際工作中,總體均數難以得到時,應用樣本統計量代替總體引數,經校正後,
樣本方差
計算公式:
S^2= ∑(X- ) ^2 / (n-1)
S^2為樣本方差,X為變數, 為樣本均值,n為樣本例數。
協方差的必要性
上面幾個統計量看似已經描述的差不多了,但我們應該注意到,標準差和方差一般是用來描述一維資料的,但現實生活我們常常遇到含有多維資料的資料集,最簡單的大家上學時免不了要統計多個學科的考試成績。
協方差的定義
協方差就是這樣一種用來度量兩個隨機變數關係的統計量,我們可以仿照方差
的定義:
度量各個維度偏離其均值的程度,協方差
可以這麼來定義:
協方差的意義
- 如果結果為正值,則說明兩者是正相關的(從協方差可以引出“相關係數”的定義)
- 結果為負值就說明負相關的
- 結果為0,也是就是統計上說的“相互獨立”。
協方差的性質
從協方差的定義上我們也可以看出一些顯而易見的性質,如: