1. 程式人生 > >高斯分佈補充知識

高斯分佈補充知識

PRML第二章啃到高斯分佈的時候就開始不知所云了,看了這篇BlogPRML Chapter 2.3 The Gaussian Distribution之後,覺得講的很清晰,可惜作者沒有寫完,於是轉過去看了“Methods of Multivariate Analysis ”的第三章。這裡是對這些基礎知識點的一個記錄,用來日後複習。

單變數和雙變數

單變數的均值和方差

變數y的n個觀察量y 1 ,y 2 ,y 3 ,...,y n  ,那麼樣本均值:

y ¯ =1n i=1 n y i  
樣本均值y ¯  永遠不會等於變數y的總體均值μ ,儘管隨著樣本數量的增加y ¯  會無限接近μ
 
y ¯  μ 的無偏估計量,因為E(y ¯ )=μ,var(y ¯ )=σ 2 n 
樣本方差:s 2 = n i=1 (y i y ¯ )n1 
同理s 2  是總體方差σ 2  的無偏估計量

雙變數的協方差和相關性

協方差

協方差表示兩個變數之間的關係,下圖中是一些身高和體重的樣本資料
這裡寫圖片描述
如果把樣本用下邊的圖表示出來,可以發現當身高高於平均值的時候往往體重也會高於平均值,這兩者之間可能存在一些相關
兩個隨機變數x和y之間的關係:

E(x+y)=E(x)+E(y) 
E(xy)=E(x)E(y)xy 
如果變數x和y的聯合概率密度可以表示為p
(x,y)=p(x)p(y)
 
那麼變數x和y相互獨立,二者相互獨立也就是彼此不會相互影響
如果x和y相互獨立,那麼二者的協方差σ xy =0 ;反之,如果x,y的協方差σ xy =0 則不能說明二者相互獨立
σ xy =E(xy)μ x μ y =E(x)E(y)μ x μ y μ x μ y =μ x μ y μ x μ y =0 
樣本協方差:
s xy = n i=1 (x i x ¯ )(y i y ¯ )n1 
s xy = n i=1 x i y i nx ¯ y ¯ n1 
s xy  永遠也不會等於σ xy  ,前者是後者的無偏估計量
樣本協方差矩陣只衡量二者之間的線性關係

兩組樣本的樣本協方差為0表示這兩組樣本正交

相關性

從上邊可以看出,如果把變數x和y的樣本同時乘以一個係數,那麼二者的協方差也會發生變化,由此可以看出協方差與尺度相關,於是引入總體相關性:

ρ=corr(x,y)=σ xy σ x σ y =