1. 程式人生 > >機器學習:PCA(高維數據映射為低維數據 封裝&調用)

機器學習:PCA(高維數據映射為低維數據 封裝&調用)

pca 圖片 數據 的區別 機器學習 png 復數 img 空間

# 每個主成分向量的長度與數據集的特征數一樣

# 主成分分析法的本質:將數據集從一個坐標系轉換到另一個坐標系,原坐標系有 n 個維度(n 中特征),則轉換的新坐標系也有 n 個維度,每個主成分表示一個維度,只是對於轉換後的坐標系,只取前 k 個維度(也就是前 k 個主成分),此 k 個維度相對於數據集更加重要,形成矩陣 Wk

技術分享圖片

# 將 n 維特征空間轉換為 k 維(此為降維的過程):

  原則:將 n 維的樣本數據轉換為 k 維的數據

  操作:將數據集 X 的一個 n 維樣本,與矩陣 Wk 相乘,得到一個 k 維數據;

# 將 n 維數據集 X 降維為 k 維數據 Xk:X . WkT

= Xk

技術分享圖片

# 將降維後的 k 維數據 Xk 恢復到 n 維數據 Xm :Xk . Wk = Xm

  # 註:恢復後的數據集 X 已經不是原始的數據集了,因為在前期降維的過程回丟失原始數據集的信息,恢復數據集時,丟失的信息無法恢復;

# Xm 與原始數據 X 的區別:

機器學習:PCA(高維數據映射為低維數據 封裝&調用)