相似度/距離方法總結
假設兩個向量
歐式距離:
P正規化:
p = 1, 1正規化:
p = 2, 2正規化(等於歐氏距離):
p = :
上面總稱閔可夫斯基距離
傑卡德相似係數:
餘弦相似度:
等於1時,方向相同,最相似,等於0時,方向垂直,-1時,方向相反,最不相似。
皮爾遜相關係數:
不認為x, y是兩個n維的向量,而是兩個隨機變數,分別取樣出n個值,則可以計算出x的均值, 標準差, y的均值, 標準差. x, y 的協方差記作, 則皮爾遜係數計算如下:
=
它的取值範圍為[-1, 1], 值越大,越相關。
特殊情況下,當 = 0, = 0時,退化成了餘弦相似度。
相對熵(K-L距離)
它是衡量兩個分佈的距離。
不具有對稱性。非負。 分佈完全相同時,相對熵為0, 分佈差別越大,相對熵越大。