1. 程式人生 > >[統計學理論基礎] 方差 & 協方差 & 標準差

[統計學理論基礎] 方差 & 協方差 & 標準差

統計裡最基本的概念就是樣本的均值方差標準差
通過一個含有n個樣本的集合,依次給出這些概念的公式描述。
這裡寫圖片描述

  • 均值描述的是樣本集合的中間點,它告訴我們的資訊是很有限的,
  • 標準差描述的則是樣本集合的各個樣本點到均值的距離之平均。
    以這兩個集合為例,[0,8,12,20]和[8,9,11,12],兩個集合的均值都是10,但顯然兩個集合差別是很大的,計算兩者的標準差,前者是8.3,後者是1.8,顯然後者較為集中,故其標準差小一些,標準差描述的就是這種“散佈度”。
    之所以除以n-1而不是除以n,是因為這樣能使我們以較小的樣本集更好的逼近總體的標準差,即統計上所謂的“無偏估計”。
  • 方差是標準差的平方。

方差的定義

方差在統計描述和概率分佈中各有不同的定義,並有不同的公式。

  1. 在統計描述中,方差用來計算每一個變數(觀察值)與總體均數之間的差異。為避免出現離均差總和為零,離均差平方和受樣本含量的影響,統計學採用平均離均差平方和來描述變數的變異程度。總體方差計算公式:
    這裡寫圖片描述
    這裡寫圖片描述 為總體方差, X為變數, 這裡寫圖片描述 為總體均值, N為總體例數。

  2. 實際工作中,總體均數難以得到時,應用樣本統計量代替總體引數,經校正後,樣本方差計算公式:
    S^2= ∑(X- 這裡寫圖片描述 ) ^2 / (n-1)
    S^2為樣本方差,X為變數, 這裡寫圖片描述 為樣本均值,n為樣本例數。

協方差的必要性

上面幾個統計量看似已經描述的差不多了,但我們應該注意到,標準差和方差一般是用來描述一維資料的,但現實生活我們常常遇到含有多維資料的資料集,最簡單的大家上學時免不了要統計多個學科的考試成績。

協方差的定義

協方差就是這樣一種用來度量兩個隨機變數關係的統計量,我們可以仿照方差的定義:
這裡寫圖片描述

度量各個維度偏離其均值的程度,協方差可以這麼來定義:
這裡寫圖片描述

協方差的意義

  • 如果結果為正值,則說明兩者是正相關的(從協方差可以引出“相關係數”的定義)
  • 結果為負值就說明負相關的
  • 結果為0,也是就是統計上說的“相互獨立”。

協方差的性質

從協方差的定義上我們也可以看出一些顯而易見的性質,如:
這裡寫圖片描述