從多個角度來理解協方差(covariance)
起源:協方差自然是由方差衍生而來的,方差反應的是一個變數(一維)的離散程度,到二維了,我們可以對每個維度求其離散程度,但我們還想知道更多。我們想知道兩個維度(變數)之間的關係,直觀的舉例就是身高和體重(青少年),我們採集到的資料裡面有一種固有的性質,那就是身高越高的樣本似乎總有著更大的體重,那我們如何衡量這種關係呢,單獨求兩個方差是不行的。
因此協方差應運而生,它的公式也與方差極度同源,方差是每個樣本減去均值的平方後去平均(n-1),協方差就把平方的2拆成1+1,就是x減去x的平均,乘以,y減去y的平均,最後對整體取平均。
這個公式似乎有點難以直觀理解,先別管,先說結論。
該公式的另一種寫法:
協方差的效果是:協方差的值如果為正值,則說明兩者是正相關的 (數值越大,相關性越強),結果為負值就說明負相關的,如果為0,也是就是統計上說的“相互獨立”。
再來說原理,如何直觀的理解這個協方差公式能達到這種效果呢?
網上有篇文章講得十分好,以下轉載:
如果正相關,這個計算公式,每個樣本對(Xi, Yi), 每個求和項大部分都是正數,即兩個同方向偏離各自均值,而不同時偏離的也有,但是少,這樣當樣本多時,總和結果為正。下面這個圖就很直觀。下面轉載自:http://blog.csdn.net/wuhzossibility/article/details/8087863
在概率論中,兩個隨機變數 X 與 Y 之間相互關係,大致有下列3種情況:
當 X, Y 的聯合分佈像上圖那樣時,我們可以看出,大致上有: X 越大 Y 也越大, X 越小 Y 也越小,這種情況,我們稱為“正相關”。
當X, Y 的聯合分佈像上圖那樣時,我們可以看出,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,這種情況,我們稱為“負相關”。
當X, Y 的聯合分佈像上圖那樣時,我們可以看出:既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,這種情況我們稱為“不相關”。
怎樣將這3種相關情況,用一個簡單的數字表達出來呢?
在圖中的區域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;
在圖中的區域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;
在圖中的區域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;
在圖中的區域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。
當X 與Y 正相關時,它們的(聯合)分佈大部分在區域(1)和(3)中,小部分在區域(2)和(4)中,所以平均來說,有E(X-EX)(Y-EY)>0 。(可以從一維 x~N(μ,σ)的大部分的分佈(-3σ-3σ)99.7%的區間取值來理解,當符合條件的X和Y區域都在這(1)(3)區間,X-EX和Y-EY的數值同大於0和小於0的居多,其乘積大於0(是一個三維立體型吧,會根據概率密度p(x)來決定該區域數值,),且其對應數值相乘(X-EX)(Y-EY)越大偏離越大)
當 X與 Y負相關時,它們的分佈大部分在區域(2)和(4)中,小部分在區域(1)和(3)中,所以平均來說,有(X-EX)(Y-EY)<0 。
當 X與 Y不相關時,它們在區域(1)和(3)中的分佈,與在區域(2)和(4)中的分佈幾乎一樣多,所以平均來說,有(X-EX)(Y-EY)=0 。
所以,我們可以定義一個表示X, Y 相互關係的數字特徵,也就是協方差
cov(X, Y) = E(X-EX)(Y-EY)。
當 cov(X, Y)>0時,表明 X與Y 正相關;
當 cov(X, Y)<0時,表明X與Y負相關;
當 cov(X, Y)=0時,表明X與Y不相關。
這就是協方差的意義。
另外補充:
1. 求特徵協方差矩陣,如果資料是3維,那麼協方差矩陣是
這裡只有x和y,求解得
對角線上分別是x和y的方差,非對角線上是協方差。協方差大於0表示x和y若有一個增,另一個也增;小於0表示一個增,一個減;協方差為0時,兩者獨立。協方差絕對值越大,兩者對彼此的影響越大,反之越小。
---------------------
作者:goodshot
來源:CSDN
原文:https://blog.csdn.net/GoodShot/article/details/79940438
版權宣告:本文為博主原創文章,轉載請附上博文連結!