正交變換之PCA原理
正交變換的牛逼的之處
能量和關係不變(長度和角度)
嗯哼哼 所以正交變換能用來做什麼呢
降維
what
怎麼降維
嗯哼哼
先來看看其對角化後組成的方陣由特徵值構成的
而特徵值是代表其只是進行伸縮變換
因此我們可以將特徵值進行排序 而忽略小的特徵值對其伸縮的影響
就是我們說的降維
嗯哼 這是損失了一定資料 稱為有失真壓縮
第二種是無失真壓縮
我們知道空間變換就是選擇不同的基而在新基下,資料有新的座標表示
而我們可以通過將一些矩陣乘法的物理意義
嗯哼 形成新的座標 而變換的實際意義就是在舊座標在新座標下的投影(內積)
個也就是說我們 可以變換到比較少的基 即比較少維數的空間去
其中行的個數表示基的個數 也就是我們從n個維數變成m個維數
接下來就是如何選擇新基的問題
我們的目的 資料變換到新空間間後 還是可以區分 也就是還是可以轉換的到原來的空間 也就是可逆
而新空間的座標就是在梅每個基方向上的投影 我們的目的是使其不同的點投影的座標也不一樣
從而引入方差使得其投影夠儘可能的分散
如果我們還是單純只選擇方差最大的方向,很明顯,這個方向與第一個方向應該是“幾乎重合在一起”,顯然這樣的維度是沒有用的,因此,應該有其他約束條件。因此我們引入協方差
嗯哼 顯示其他基的和第一個基的線性相關性,嗯哼 當協方差等於0的時候就是說可逆的
其中a表示其均值,b表示其均值,而分母是n-1是因為最大似然估計的結果
我們要做的在此之前將資料均值化為0
當我們不是樣本的時候
假設我們的原來資料的座標由兩個欄位
嗯哼 我們要對其進行降維
我們要寫出其協方差矩陣會發現一個amazing的事
其與其轉置相乘就是我們的協方差矩陣
我們要使協方差為0 也就是對角化
也就是說 我們要使其可逆
嗯哼 我們說的矩陣對角化
而方差就是對應我們的特徵值
嗯哼
首先明確目標 是新基的座標協方差矩陣對角化
我們通過原始資料可以得出原始資料的協方差矩陣設為C
而Y = PA 其中A是原始資料組成的矩陣
P是新基座標組成變換矩陣
我們求新座標的協方差矩陣D
嗯哼
協方差矩陣C是一個是對稱矩陣
哈哈
發現什麼沒
也就是說要對角化 P一定是正交矩陣 可以看我前兩篇的內容
令
我們可以得到
也就是說我們求出了P矩陣
而方差對應這我們的特徵值
嗯哼 方差特別小 說明啥 說明區分度太小可以去除 損失一些資料
所以可以設定一個閾值使其降維更大
排序後去前K列 而K通過閾值來選擇
這就是PCA
嗯哼哼
PCA致命弱點 樣本資料要全面
一旦樣本資料片面 就無法降維 也就是說比較適合進行圖片的壓縮 而資料的挖掘中 資料壓縮降維中有很大 的侷限性
參考知乎大神
https://www.zhihu.com/collection/230485656