【機器學習】聚類

1. 距離計算

當對一些沒有 Label 的資料進行分類的時候，需要滿足一些的基本性質：

非負性： $d i s t (x_{i}, x_{j}) \geq 0$ ；
同一性： $d i s t (x_{i}, x_{j}) = 0$ ，當且僅當 $x_{i} = x_{j}$ ；
對稱性： $d i s t (x_{i}, x_{j}) = d i s t (x_{j}, x_{i})$ ；
直遞性： $d i s t (x_{i}, x_{j}) = d i s t (x_{j}, x_{k}) + d i s t (x_{k}, x_{j})$ ；

給定樣本 $x_{i} = (x_{i 1}; x_{i 2}; . . ., x_{i n})$

) 與

x_{j} = (x_{j 1}; x_{j 2}; . . .; x_{j n})

，最常用的是 “閔可夫斯基距離”(Minkowski distance)

d i s t_{m k} (x_{i}, x_{j}) = {(\sum_{u = 1}^{n} | x_{i u} - x_{j u} |^{p})}^{\frac{1}{p}}

對於

p \geq 1

，顯然滿足上面的四條距離度量的基本性質。

$p = 2$ 時，閔可夫斯基距離轉換為歐氏距離（Euclidean distance)

d i s t_{e d} (x_{i}, x_{j}) = | | x_{i} - x_{j} | |_{2} = \sqrt{\sum_{u = 1}^{n} | x_{i u} - x_{j u} |^{2}}

p = 1

時，閔可夫斯基距離轉換為曼哈頓距離（Manhattan distance）

d i s t_{m a n} (x_{i}, x_{j}) = | | x_{i} - x_{j} | |_{1} = \sum_{u = 1}^{n} | x_{i u} - x_{j u} |