1. 程式人生 > >從多個角度來理解協方差(covariance)

從多個角度來理解協方差(covariance)

起源:協方差自然是由方差衍生而來的,方差反應的是一個變數(一維)的離散程度,到二維了,我們可以對每個維度求其離散程度,但我們還想知道更多。我們想知道兩個維度(變數)之間的關係,直觀的舉例就是身高和體重(青少年),我們採集到的資料裡面有一種固有的性質,那就是身高越高的樣本似乎總有著更大的體重,那我們如何衡量這種關係呢,單獨求兩個方差是不行的。

 

因此協方差應運而生,它的公式也與方差極度同源,方差是每個樣本減去均值的平方後去平均(n-1),協方差就把平方的2拆成1+1,就是x減去x的平均,乘以,y減去y的平均,最後對整體取平均。

 

這個公式似乎有點難以直觀理解,先別管,先說結論。

該公式的另一種寫法:

 

 

協方差的效果是:協方差的值如果為正值,則說明兩者是正相關的 (數值越大,相關性越強),結果為負值就說明負相關的,如果為0,也是就是統計上說的“相互獨立”。

 

再來說原理,如何直觀的理解這個協方差公式能達到這種效果呢?

網上有篇文章講得十分好,以下轉載:

終於明白協方差的意義了

如果正相關,這個計算公式,每個樣本對(Xi, Yi), 每個求和項大部分都是正數,即兩個同方向偏離各自均值,而不同時偏離的也有,但是少,這樣當樣本多時,總和結果為正。下面這個圖就很直觀。下面轉載自:http://blog.csdn.net/wuhzossibility/article/details/8087863

在概率論中,兩個隨機變數 X 與 Y 之間相互關係,大致有下列3種情況:

 

當 X, Y 的聯合分佈像上圖那樣時,我們可以看出,大致上有: X 越大  Y 也越大, X 越小  Y 也越小,這種情況,我們稱為“正相關”。

 

 


當X, Y 的聯合分佈像上圖那樣時,我們可以看出,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,這種情況,我們稱為“負相關”。

 


當X, Y  的聯合分佈像上圖那樣時,我們可以看出:既不是X  越大Y 也越大,也不是 X 越大 Y 反而越小,這種情況我們稱為“不相關”。

 


怎樣將這3種相關情況,用一個簡單的數字表達出來呢?

在圖中的區域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;

在圖中的區域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;

在圖中的區域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;

在圖中的區域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。

當X 與Y 正相關時,它們的(聯合)分佈大部分在區域(1)和(3)中,小部分在區域(2)和(4)中,所以平均來說,有E(X-EX)(Y-EY)>0 。(可以從一維 x~N(μ,σ)的大部分的分佈(-3σ-3σ)99.7%的區間取值來理解,當符合條件的X和Y區域都在這(1)(3)區間,X-EX和Y-EY的數值同大於0和小於0的居多,其乘積大於0(是一個三維立體型吧,會根據概率密度p(x)來決定該區域數值,),且其對應數值相乘(X-EX)(Y-EY)越大偏離越大)

當 X與 Y負相關時,它們的分佈大部分在區域(2)和(4)中,小部分在區域(1)和(3)中,所以平均來說,有(X-EX)(Y-EY)<0 。

當 X與 Y不相關時,它們在區域(1)和(3)中的分佈,與在區域(2)和(4)中的分佈幾乎一樣多,所以平均來說,有(X-EX)(Y-EY)=0 。

所以,我們可以定義一個表示X, Y 相互關係的數字特徵,也就是協方差
cov(X, Y) = E(X-EX)(Y-EY)。
當 cov(X, Y)>0時,表明 X與Y 正相關;

當 cov(X, Y)<0時,表明X與Y負相關;

當 cov(X, Y)=0時,表明X與Y不相關。

這就是協方差的意義。

 

另外補充:

1. 求特徵協方差矩陣,如果資料是3維,那麼協方差矩陣是

 

這裡只有x和y,求解得

 

對角線上分別是x和y的方差,非對角線上是協方差。協方差大於0表示x和y若有一個增,另一個也增;小於0表示一個增,一個減;協方差為0時,兩者獨立。協方差絕對值越大,兩者對彼此的影響越大,反之越小。
---------------------
作者:goodshot
來源:CSDN
原文:https://blog.csdn.net/GoodShot/article/details/79940438
版權宣告:本文為博主原創文章,轉載請附上博文連結!