1. 程式人生 > >機器學習筆記13-降維

機器學習筆記13-降維

機器學習筆記13-降維

  1. 低維嵌入
    在高維情形下資料樣本會出現稀疏、距離計算困難等問題,稱為“維數災難”,緩解維數災難的一個重要途徑是降維,即通過數學變換將原始高維屬性空間轉變為一個低維子空間,在這個子空間中樣本密度大幅提高,距離計算也變得更為容易。若要求原始空間中樣本之間的距離在低維空間中得以保持,即得到“多維縮放”(MDS)這一經典的降維方法。
    MDS演算法
    假定m個樣本在原始空間的距離矩陣為 D

    R m × m D \in {R^{m \times m}} ,其第i行第j列的元素 d
    i s t i j dist_{ij}
    為樣本 x i x_i x j x_j 的距離。我們的目標是獲得樣本在 d d' 維空間的表示 Z R d × m Z \in {R^{d' \times m}} d d d' \le d ,且任意兩個樣本在 d d' 維空間中的歐式距離等於原始空間中的距離,即 z i z j = d i s t i j \left\| {{z_i} - {z_j}} \right\| = dis{t_{ij}} 。令 B = Z T Z R m × m B = {Z^T}Z \in {R^{m \times m}} ,其中 B B 為降維後樣本的內積矩陣, b i j = z i T z j b_{ij}=z_i^Tz_j ,有
    d i s t i j 2 = z i 2 + z j 2 2 z i T z j = b i i + b j j 2 b i j dist_{ij}^2 = {\left\| {{z_i}} \right\|^2} + {\left\| {{z_j}} \right\|^2} - 2z_i^T{z_j} = {b_{ii}} + {b_{jj}} - 2{b_{ij}} 令降維後的樣本 Z Z 被中心化,即 i = 1 m z i = 0 \sum\limits_{i = 1}^m {{z_i} = 0} ,可得
    b i j = 1 2 ( d i s t i j 2 d i s t i 2 d i s t j 2 + d i s t 2 ) {b_{ij}} = - \frac{1}{2}(dist_{ij}^2 - dist_{i \cdot }^2 - dist_{ \cdot j}^2 + dist_{ \cdot \cdot }^2) 其中, d i s t i 2 = 1 m j = 1 m d i s t i j 2 dist_{i \cdot }^2 = \frac{1}{m}\sum\limits_{j = 1}^m {dist_{ij}^2} d i s t j 2 = 1 m i = 1 m d i s t i j 2 dist_{ \cdot j}^2 = \frac{1}{m}\sum\limits_{i = 1}^m {dist_{ij}^2} d i s t 2 = 1 m 2 i = 1 m j = 1 m d i s t i j 2 dist_{ \cdot \cdot }^2 = \frac{1}{{{m^2}}}\sum\limits_{i = 1}^m {\sum\limits_{j = 1}^m {dist_{ij}^2} }