1. 程式人生 > >歐氏距離與馬氏距離

歐氏距離與馬氏距離

《應用多元統計分析》何曉群 第五章

歐式距離的定義:

歐氏距離通常攜帶有量綱,因此量綱的影響會對距離的計算結果產生很大影響。

比如如果攜帶單位的話,兩對座標點是

A(0,5),B(10,0)

C(0,10),D(1,0)

如果同度量的話,比如都是cm,AB距離為\sqrt{5^2+10^2}=\sqrt{125},CD之間的距離為\sqrt{10^2+1^2}=\sqrt{101},AB的距離比CD長

但是用非同度量,比如橫軸座標用cm,縱軸座標用mm的話,此時縱軸座標就多了一個數量級。而歐式距離體現不出來,此時計算的公式為AB=\sqrt{50^2+10^2}=\sqrt{2600 },CD的距離為\sqrt{100^2+1^2}=\sqrt{10001}.反而CD的更長了。

馬氏距離的定義

為什麼就沒有權重的影響了呢。為了給出座標的合理權數(意思是加一個權重,使得樣本的量綱影響消失),用座標標準離差去除以每個座標,得到的標準化座標,距離為

d(P,Q)=\sqrt{\sum\frac{ (p_{i}-q_{i})^2}{S_{i}}}

這樣, 由於方差也攜帶有量綱,且上面的減號的平方也攜帶平方的量綱,兩個一除就可以抵消了。這樣就消除了量綱的影響。

其中,如果設定a_{i}S_{i}的倒數,就可以寫成

d(P,Q)=\sqrt{\sum a_{i}(p_{i}-q_{i})^2}}=[(X-Y)^{'}A(X-Y)]^{1/2}

其中A為P與Q的協方差矩陣的逆。此時就定義了馬氏距離