1. 程式人生 > >資料降維(一)基礎篇

資料降維(一)基礎篇

文章目錄

降維簡介

降維或嵌入式指將原始的高維資料對映到低維空間.

實質的想法:高度冗餘的資料通常是可以被壓縮的,即高維複雜的資料其內在的維度可能比較小,或與任務相關的維度比較小.

降維方法

  • 維度選擇
    選擇已有維度的一個子集
  • 維度抽取
    通過組合已有的維度構建新的維度
    對映:原始空間 f : R d R
    d f:R^d \rightarrow R^{d'}
    ,為了實際價值,我們要求 d
    d d'\ll d
    .

維度選擇

  • Pros
    簡單,流行,具有較好的泛華效能(不止近似距離).
  • Cons
    沒有精度保證,差的例子上錯誤很大(重尾分佈),稀疏資料上大多數是0.
  • 手工移除特徵
    • 冗餘的(multicollinearity/VIFs)
    • 不相關(文字挖掘中的停用詞)
    • 質量差的特徵(值得缺失比例超過50%)
  • 監督方法
  1. 為每個特徵打分:
    • 訓練或交叉驗證單特徵分類器
    • 估計每個特徵與分類label得互資訊
    • χ 2 \chi^2 統計量度量每個特徵和類別之間的獨立性
  2. 搜尋有用的特徵子集
    • 前向
      • 從零個特徵開始
      • 一遍式或迭代式地選擇
    • 後向
      • 從所有特徵開始
      • 一遍式或迭代式地選擇

維度抽取

基礎知識

矩陣和矩陣的乘法本質上式在做線性變換.

一個 m × n m\times n 實值矩陣 A A 對應一個線性變換 R n R m R^n\rightarrow R^m ,映射向量 x R n x\in R^n 到結果向量 A x R m Ax \in R^m .

特徵分解

矩陣分解是將一個矩陣分解為幾個矩陣的乘法.

高維矩陣的低秩近似.

輸入:方陣 A m × m A_{m\times m}
特徵向量和特徵值
A v = λ v Av=\lambda v
v v 是矩陣的特徵向量, λ \lambda 是對應的特徵值, v T v = I v^Tv=I
A = V Σ V 1 A = V\Sigma V^{-1}
V V 是矩陣的特徵向量, S i g m a Sigma 是由特徵值組成的對角陣

奇異值分解

輸入:矩陣 A m × n A_{m\times n}

SVD
A = i = 1 r σ i u i v i T = U Σ V T A = \sum_{i=1}^r\sigma_iu_iv_i^T = U\Sigma V^T
Σ = [ θ 0 0 0 0 0 0 θ r ] \Sigma = \Bigg[ \begin{matrix} \theta&0&0\\ 0 & \ddots &0\\ 0 & 0 & \theta_r \end{matrix} \Bigg]
Σ \Sigma 中的各項 θ \theta 為奇異值

u i u_i v i T v_i^T :奇異值 θ i \theta_i 對應的向量

U T U = I , V T V = I U^TU=I, V^TV = I U U V V 是正交矩陣

特徵值或奇異值的物理意義

  • 統計角度: 方差
  • 物理角度: 能量

奇異值向量的含義

U ( V ) U(V) 的每行、列代表一個方向

列與列、行與行之間相互正交

如果我們將 Σ \Sigma 中的奇異值降序排列,並且 U ( V ) U(V) u i ( v i T ) u_i(v_i^T) 也相應調整

  • u 1 u_1 :最大能量的方向
  • u 2 u_2 :和 u 1 u_1 正交的能量最大的方向
  • u 3 u_3 :和 u 1 u_1 u 2 u_2 正交的能量最大的方向

方法

常用的資料降維方法如下

線性方法

  • PCA主成分分析
  • LDA線性判別分析
  • MDS多維縮放

非線性方法

區域性嵌入

  • 區域性線性嵌入LLE

全域性嵌入

  • 等距離特徵對映ISOMAP
  • 核方法KPCA
  • 拉普拉斯特徵對映LE
  • 自編碼器
  • TSNE