資料降維(一)基礎篇
阿新 • • 發佈:2018-12-27
文章目錄
降維簡介
降維或嵌入式指將原始的高維資料對映到低維空間.
實質的想法:高度冗餘的資料通常是可以被壓縮的,即高維複雜的資料其內在的維度可能比較小,或與任務相關的維度比較小.
降維方法
- 維度選擇
選擇已有維度的一個子集 - 維度抽取
通過組合已有的維度構建新的維度
對映:原始空間 ,為了實際價值,我們要求 .
維度選擇
- Pros
簡單,流行,具有較好的泛華效能(不止近似距離). - Cons
沒有精度保證,差的例子上錯誤很大(重尾分佈),稀疏資料上大多數是0. - 手工移除特徵
- 冗餘的(multicollinearity/VIFs)
- 不相關(文字挖掘中的停用詞)
- 質量差的特徵(值得缺失比例超過50%)
- 監督方法
- 為每個特徵打分:
- 訓練或交叉驗證單特徵分類器
- 估計每個特徵與分類label得互資訊
- 用 統計量度量每個特徵和類別之間的獨立性
- 搜尋有用的特徵子集
- 前向
- 從零個特徵開始
- 一遍式或迭代式地選擇
- 後向
- 從所有特徵開始
- 一遍式或迭代式地選擇
- 前向
維度抽取
基礎知識
矩陣和矩陣的乘法本質上式在做線性變換.
一個 實值矩陣 對應一個線性變換 ,映射向量 到結果向量 .
特徵分解
矩陣分解是將一個矩陣分解為幾個矩陣的乘法.
高維矩陣的低秩近似.
輸入:方陣
特徵向量和特徵值
是矩陣的特徵向量,
是對應的特徵值,
是矩陣的特徵向量,
是由特徵值組成的對角陣
奇異值分解
輸入:矩陣
SVD
中的各項
為奇異值
、 :奇異值 對應的向量
: 和 是正交矩陣
特徵值或奇異值的物理意義
- 統計角度: 方差
- 物理角度: 能量
奇異值向量的含義
的每行、列代表一個方向
列與列、行與行之間相互正交
如果我們將 中的奇異值降序排列,並且 中 也相應調整
- :最大能量的方向
- :和 正交的能量最大的方向
- :和 、 正交的能量最大的方向
方法
常用的資料降維方法如下
線性方法
- PCA主成分分析
- LDA線性判別分析
- MDS多維縮放
非線性方法
區域性嵌入
- 區域性線性嵌入LLE
全域性嵌入
- 等距離特徵對映ISOMAP
- 核方法KPCA
- 拉普拉斯特徵對映LE
- 自編碼器
- TSNE