機器學習相似度度量

在機器學習中，無論是分類問題、聚類問題或降維問題，經常需要度量不同樣本之間的相似性。不過如何友好地表徵不同樣本之前的相似性？通常採用的方法就是計算樣本間的“距離”。

距離計算方法有很多，對於實際遇到的問題到底採用什麼樣的方法來計算距離是很講究的，因為相似性度量的好壞很多時候直接關係到原始問題的求解結果。為了加深大家對各個距離方法的理解，本文就對常用的相似性度量策略作一個總結，希望對各位後續處理機器學習問題有所幫助。

歐式距離

歐氏距離是一個通常採用的距離定義，指在n維空間中兩個點之間的真實距離，或者向量的自然長度（即該點到原點的距離）。兩個n維向量x1=(x11,x12,…,x1n)與 x

2=(x21,x22,…,x2n)間的歐氏距離為

d(x1,x2)=∑i=1n(x1i−x2i)2‾‾‾‾‾‾‾‾‾‾‾‾‾‾⎷.

曼哈頓距離

曼哈頓距離是由十九世紀的赫爾曼·閔可夫斯基所創的詞彙，是一種使用在幾何度量空間的幾何學用語，用以標明兩個點在標準座標系上的絕對軸距總和。兩個n維向量x1=(x11,x12,…,x1n)與 x2=(x21,x22,…,x2n)間的曼哈頓距離為

d(x1,x2)=∑i=1n|x1i−x2i|. 這裡寫圖片描述

切比雪夫距離

二個點之間的切比雪夫距離定義是其各座標數值差絕對值的最大值。因此兩個n維向量x1=(x11,x12,…,x1n)與 x2=

(x21,x22,…,x2n)間的切比雪夫距離為

d(x1,x2)=maxi(|x1i−x2i|),
等價於
d(x1,x2)=limk→∞(∑i=1n(x1i−x2i)k)1/k.

閔氏距離

閔氏距離是以俄裔德國數學家閔可夫斯基命名的，它代表的不是一種距離，而是一組距離的定義。兩個n維向量x1=(x11,x12,…,x1n)與 x2=(x21,x22,…,x2n)間的閔氏距離為

d(x1,x2)