1. 程式人生 > >正交變換之PCA原理

正交變換之PCA原理

正交變換的牛逼的之處  

能量和關係不變(長度和角度)

嗯哼哼  所以正交變換能用來做什麼呢

降維

what

怎麼降維

嗯哼哼 

先來看看其對角化後組成的方陣由特徵值構成的

而特徵值是代表其只是進行伸縮變換

因此我們可以將特徵值進行排序 而忽略小的特徵值對其伸縮的影響

就是我們說的降維

嗯哼 這是損失了一定資料 稱為有失真壓縮

第二種是無失真壓縮

我們知道空間變換就是選擇不同的基而在新基下,資料有新的座標表示

而我們可以通過將一些矩陣乘法的物理意義


嗯哼 形成新的座標 而變換的實際意義就是在舊座標在新座標下的投影(內積)

個也就是說我們 可以變換到比較少的基 即比較少維數的空間去

 

其中行的個數表示基的個數  也就是我們從n個維數變成m個維數

接下來就是如何選擇新基的問題

我們的目的 資料變換到新空間間後 還是可以區分 也就是還是可以轉換的到原來的空間 也就是可逆

而新空間的座標就是在梅每個基方向上的投影  我們的目的是使其不同的點投影的座標也不一樣

從而引入方差使得其投影夠儘可能的分散


如果我們還是單純只選擇方差最大的方向,很明顯,這個方向與第一個方向應該是“幾乎重合在一起”,顯然這樣的維度是沒有用的,因此,應該有其他約束條件。因此我們引入協方差

嗯哼 顯示其他基的和第一個基的線性相關性,嗯哼 當協方差等於0的時候就是說可逆的


其中a表示其均值,b表示其均值,而分母是n-1是因為最大似然估計的結果

我們要做的在此之前將資料均值化為0

當我們不是樣本的時候


假設我們的原來資料的座標由兩個欄位


嗯哼 我們要對其進行降維

我們要寫出其協方差矩陣會發現一個amazing的事


其與其轉置相乘就是我們的協方差矩陣

我們要使協方差為0 也就是對角化

也就是說 我們要使其可逆

嗯哼  我們說的矩陣對角化

而方差就是對應我們的特徵值

嗯哼 

首先明確目標 是新基的座標協方差矩陣對角化

我們通過原始資料可以得出原始資料的協方差矩陣設為C

而Y = PA 其中A是原始資料組成的矩陣

P是新基座標組成變換矩陣

我們求新座標的協方差矩陣D 


嗯哼

協方差矩陣C是一個是對稱矩陣

哈哈 

發現什麼沒

也就是說要對角化 P一定是正交矩陣 可以看我前兩篇的內容


我們可以得到


也就是說我們求出了P矩陣

而方差對應這我們的特徵值

嗯哼 方差特別小 說明啥  說明區分度太小可以去除 損失一些資料

所以可以設定一個閾值使其降維更大

排序後去前K列 而K通過閾值來選擇

這就是PCA

嗯哼哼

PCA致命弱點  樣本資料要全面

一旦樣本資料片面  就無法降維  也就是說比較適合進行圖片的壓縮 而資料的挖掘中 資料壓縮降維中有很大 的侷限性

參考知乎大神

https://www.zhihu.com/collection/230485656