1. 程式人生 > >相似度/距離方法總結

相似度/距離方法總結

假設兩個向量\vec{x} = \left \{ x_{1}, x_{2}, .....,x_{n} \right \}, \vec{y} = \left \{ y_{1}, y_{2}, .....,y_{n} \right \}

歐式距離:

                                                  \sqrt{(x_{1} - y_{1})^2 + (x_{2} - y_{2})^2 + ....+(x_{n} - y_{n})^2}

P正規化:

p = 1, 1正規化:

                                                       \left | x_{1} - y_{1} \right | + \left | x_{2} - y_{2} \right | + ....+ \left | x_{n} - y_{n} \right |

p = 2, 2正規化(等於歐氏距離):

                                                     \sqrt{(x_{1} - y_{1})^2 + (x_{2} - y_{2})^2 + ....+(x_{n} - y_{n})^2}

p = +\infty:

                                    \left [ |x_{1} - y_{1}|^{p} + |x_{2} - y_{2}|^{p} +.....+ |x_{n} - y_{n}|^{p} \right ]^{\frac{1}{p}}

  = |x_{k} - y_{k}| (前面裡面最大的一項)

上面總稱閔可夫斯基距離                         dist(\vec{x}, \vec{y}) = (\sum_{1}^{n}|x_{i} - y_{i}|^p)^\frac{1}{p}

傑卡德相似係數:

                                                             J(A, B) = \frac{|A\cap B|}{|A\cup B|}

餘弦相似度:

                                                                \cos \theta = \frac{\vec{x}\cdot \vec{y}}{|\vec{x}| \cdot |\vec{y}| }

等於1時,方向相同,最相似,等於0時,方向垂直,-1時,方向相反,最不相似。

皮爾遜相關係數:

不認為x, y是兩個n維的向量,而是兩個隨機變數,分別取樣出n個值\left \{ x_{1}, x_{2}, .....,x_{n} \right \}, \left \{ y_{1}, y_{2}, .....,y_{n} \right \},則可以計算出x的均值\mu _{x}, 標準差\sigma _{x},   y的均值\mu _{y}, 標準差\sigma _{y}.      x, y 的協方差記作cov(x, y), 則皮爾遜係數計算如下:

                                \rho_{x,y} = \frac{cov(x,y)}{\sigma_{x} \cdot \sigma_{y} }=\frac{ \frac{1}{n-1} \sum_{1}^{n} (x_{i} - \mu _{x}) \cdot (y_{i} - \mu _{y}) }{ \sqrt{ \frac{1}{n-1} \sum_{1}^{n} (x_{i} - \mu _{x})^2 } \cdot \sqrt{ \frac{1}{n-1} \sum_{1}^{n} (y_{i} - \mu _{y})^2 } }

                                                              = \frac{ \sum_{1}^{n} (x_{i} - \mu _{x}) \cdot (y_{i} - \mu _{y}) }{ \sqrt{\sum_{1}^{n} (x_{i} - \mu _{x})^2 } \cdot \sqrt{ \sum_{1}^{n} (y_{i} - \mu _{y})^2 } }

它的取值範圍為[-1, 1], 值越大,越相關。

特殊情況下,當\mu _{x} = 0, \mu _{y} = 0時,退化成了餘弦相似度。

相對熵(K-L距離)

它是衡量兩個分佈的距離。

                                                    D(p||q) = \sum_{x}^{ } p(x)log\frac{p(x)}{q(x)}

不具有對稱性。非負。 分佈完全相同時,相對熵為0, 分佈差別越大,相對熵越大。