1. 程式人生 > >第5章-維度歸約

第5章-維度歸約

原文參考
https://onlinecourses.science.psu.edu/stat857/node/11
http://www.doc88.com/p-315762247283.html
http://wenku.baidu.com/link?url=OrBkfJFwZ_l8soN6CRE2B1KAI-988Z0wrzG_K59W39l7ycRTNd6xeH6hFUnRugEywPz1TUsvclcjpeiS8JLJsnd97GrQdHeG4r70BtSTIsS
https://www.cs.nyu.edu/~roweis/papers/llejmlr.pdf
http://arxiv.org/pdf/cs/0212008v1.pdf


多元統計分析
等…


本章主要學習目標:

在第4章中,我們瞭解了壓縮變數的演算法,接下來我們熟悉一下高維資料的降維方法。

傳統的降維方法包括PCA、LDA,流行學習算包括LLE、ISOMAP、LE、LTSA,如下圖:

7.1主成分分析PCA

首先我們定義,輸入矩陣X是n*p維的。行代表樣本,列代表變數。且X是中心化的,每一列去掉均值。

7.1.1 奇異值分解(SVD)

由現行代數的定理可知,如果一個矩陣A是對稱矩陣,那麼其一定可以正交對角化。即,存在一個正交矩陣P和一個對角矩陣D使得
A=PDP1=PDPT


那麼,A不是對稱矩陣的時候呢?
這時就引出了奇異值分解,且任何矩陣都能進行奇異值分解。

假設A是m*n維矩陣,那麼 ATA 一定是對稱的,可正交對角化。假設v是 ATA 的單位正交基構成的特徵向量、λ是對應的特徵值,則有:
ATAv=λv
||Av||2=vTATAv=vTλv=λ(v)
||Av||=||Av||2=λ=σ


定義 σ=λ 為矩陣A的奇異值,且奇異值是向量Av的長度。

我們令向量 u=Av||Av||=Avσ
則我們得到,Av=σu

同理,對於n×p 輸入矩陣X,可以分解為 X=UDVT

7.1.2 主成分

主成分分析是線性降維的主要方法:

樣本X的協方差矩陣,為
S=XTX/N
(註明:因為X已經進行了中心化的處理,所以協方差矩陣可以如上式表示)

如果對 XTX 進行奇異值變換,得
XTX=VDUTUDVT=VD2VT

向量v稱為X的(principal component directions)主成分方向座標基(v已經單位化),如果將X投影到該座標基上面,就得到了對應的主成分分量。

綜上,我們容易得出 zj=Xjvj=ujdj
uj xj 的行向量沿著 vj 向量方向上投影得到的,投影的尺度通過 dj 來控制.

所以,

  • X的主成分為 zj=ujdjj=1,...,p
  • 主成分應該是按照其方差由大到小排序的,根據下面公式可知,按照奇異值的大小排序即得可得到我們想要的排序.
    var(z)=1N(z0)2
    var(z)=1N(ud)2=1NdTuTud=d2N
    (因為已經中心化,所以均值為零)

7.1.3 主成分迴歸-principal components regression (PCR).

前面我們講的PCA,是一種無監督學習方法,而PCR就是主成分與線性迴歸的結合,假設提取了M個主成分 z1,...,zm ,然後求

y=β1z1+...+...+βmzm

有時候,PCR的效果並不一定比第6章講的方法要好,只不過PCA是一個很好的降維方法,在PCA的基礎上衍生出來的PCR也是對高維樣進行迴歸的一個重要的參考方向。

7.1.4 偏最小二乘迴歸-partial least squares (PLS).

偏最小二乘迴歸結合了多元線性迴歸、主成分分析以及典型相關分析。

偏最小二乘迴歸與主成分迴歸的不同之處在於,主成分迴歸產生的權重矩陣反映的是預測變數X之間的協方差,而偏最小二乘迴歸產生的權重矩陣反映的是預測變數X與響應變數Y之間的協方差。

之所以分解矩陣變為X與Y的協方差矩陣,是因為,主成分分析中,會忽略掉那些可能對Y起決定性作用的、但是與其他變數相關性又很小的變數。且主成分只能很好的解釋了X,但是並不能保證一定與Y有關。相對的,PLS中分解得到的成分(潛變數),是抽取了與Y相關的X的主要資訊。這點上,使得PLS可能比PCR得到更準確的迴歸。

(1) 典型相關分析

典型相關分析(Canonical Correlation Analysis),是考察一組X變數和一組Y變數(兩個及以上Y變數)之間的線性關係的方法。

1936年,Hotelling提出典型相關分析。考慮兩組變數的線性組合, 並研究它們之間的相關係數p(T,U).在所有的線性組合中, 找一對相關係數最大的線性組合, 用這個組合的單相關係數來表示兩組變數的相關性, 叫做兩組變數的典型相關係數, 而這兩個線性組合叫做一對典型變數。在兩組多變數的情形下, 需要用若干對典型變數才能完全反映出它們之間的相關性。下一步, 再在兩組變數的與t1,u1不相關的線性組合中, 找一對相關係數最大的線性組合, 它就是第二對典型變數, 而且p(t2,u2)就是第二個典型相關係數。這樣下去, 可以得到若干對典型變數, 從而提取出兩組變數間的全部資訊。

令,典型變數可被表示為如下形式:
t=a1x1+...+amxm;
u=b1x1+...+bnxn;

然後,我們可以求解t,u的相關係數: Cor(t,u)
最後,用線性規劃的方法求解使得Cor(t,u)最大的引數a和b。

(2) 典型相關的思想下,如何求解PLS:

假設要對,因變數 Y=Y1,...,Yp
自變數 X=X1,...,Xm ,的樣本物件進行建模。

PLS的做法是:

首先,在自變數集中提取第一成分 T1
T1=w11X1+...+w1mXm
同時,也在因變數集中提取第一成分

相關推薦

5-維度

原文參考 https://onlinecourses.science.psu.edu/stat857/node/11 http://www.doc88.com/p-315762247283.html http://wenku.baidu.com/link?url=OrBkfJFwZ_l

HTML 5 Div+CSS布局技術

lock css布局 logs wid cnblogs splay mage div+css布局 9.png HTML 第5章 Div+CSS布局技術

裴禮文數學分析中的典型問題與方法5級數練習

函數 定義 var 5.1 blog ots 數學分析 整數 問題 參考解答見: http://www.cnblogs.com/zhangzujin/p/3527416.html 5.1.1 設 $k,i,j$ 都是自然數, 且 $k=i+j$, 試求級數

5 IP地址和子網劃分(2)_IP地址分類和NAT技術

sts 端口 主機數 int 2.3 主機ip 主機 和源 找到 3. IP地址的分類 (1)五類IP地址 (2)數軸表示法 4. 保留地址 (1)網段的地址:主機ID全0。如192.168.100.0/24,其中的192.168.10.0指的是網段。 (2)廣播地

5 IP地址和子網劃分(4)_超網合並網段

8.0 str ges 分析 需求 由於 子類 log spa 7. 超網合並網段 7.1 合並網段 (1)子網劃分是將一個網絡的主機位當網絡位,來劃分出多個子網。而多個網段合並成一個大網段,合並後的網段稱為超網。 (2)需求分析   某企業有一個網段,該網段有200臺計算

Python基礎教程之5 條件, 循環和其它語句

like eba cti python基礎 word 沒有 positive while循環 pytho Python 2.7.5 (default, May 15 2013, 22:43:36) [MSC v.1500 32 bit (Intel)] on win32

轉載--編寫高質量代碼:改善Java程序的151個建議(5:數組和集合___建議65~69)

ceo next foreach遍歷 通過 當前 prev 支持 變量 信息 閱讀目錄 建議65:避開基本類型數組轉換列表陷阱 建議66:asList方法產生的List的對象不可更改 建議67:不同的列表選擇不同的遍歷算法 建議68:頻繁插入和刪除時使用LinkLis

《.NET 設計規範》 5 :成員設計

支持 派生 精度 tex 邏輯 最好 功能 一個 覆蓋 《.NET 設計規範》第 5 章:成員設計 5.1 成員設計的通用規範   要盡量用描述性的參數名來說明在較短的重載中使用的默認值。   避免在重載中隨意地改變參數的名字。如果兩個重載中的某個參數表示相同的輸入,

5 css3文本

其他 ber news ear login ice 不換行 enter -s word-spacing與letter-spacing的區別 word-spacing定義單詞與單詞之間的距離,對中文無效;letter-spacing定義字母與字母之間的距離 text-over

《Effective Java》5 泛型

增加 規範 註釋 line 元素 eric 有關 img shu 第23條:請不要在新代碼中使用原生態類型 聲明中具有一個或者多個類型參數( type parameter)的類或者接口,就是泛型(generic)類或者接口。 每種泛型定義一組參數化的類型(paramet

Django5: auth補充之用戶註冊,密碼找回

war def title 必須 elb errors res random 綁定 自定義以郵箱和密碼登錄用戶 1. 重載authenticate() from django.contrib.auth.backends import ModelBackend from dj

【Linux學習筆記】5 VIM工具

linux centos vim 5.1vim介紹vim是vi的升級版,帶有顏色顯示,先安裝包yum install -y vim-enhancedvim分為三種模式:一般模式、編輯模式、命令模式。 5.2vim顏色顯示和移動光標相同的文件信息在不同目錄下顯示顏色會有差異。相同內容,不同文件名,

嵌入式 入門篇 - 5 STM32新建工程及配置

為什麽 .net .cn 預編譯 點擊 自定義 new 文件拷貝 。。 5.1 新建文件 5.1.1 新建文件夾 在 STM32-Template 文件夾下,我們新建四個文件夾,分別為DIF、Doc、Listing、Output、User。其中DIF中包含兩個文件夾CMSI

5 文件操作

code 序列 line 覆蓋 文件路徑 for color lines OS 打開文件 open(文件路徑,訪問模式,encoding=編碼方式) :只能打開已存在的文件,否則報錯 訪問模式:   r :只讀(默認)   w :只寫(覆蓋)     ~ 打開一個已經存在的

《Think Python》5學習筆記

ssi toc turn nal rec source CA 執行c -c 備忘:parameter 指的是形參,argument 指的是實參。 [TOC] 5.1 整除和取模(Floor division and modulus) 在 Python 3 中,/ 符號對

機器學習中的概率模型和概率密度估計方法及VAE生成式模型詳解之九(5 總結)

ces mark TP 生成 機器 分享 png ffffff images ? ?機器學習中的概率模型和概率密度估計方法及VAE生成式模型詳解之九(第5章 總結)

C++ Primer Plus六版編程練習---5 循環和關系表達式

AI ++ str eas prim OS ase AS stream 1、 #include <iostream> int main() { int startNum = 0; int endNum = 0; std::cout &

《Python從小白到大牛》5 Python編碼規範

spec 數列 微信 types optional 的人 斷開 包含 其他人 俗話說:“沒有規矩不成方圓”。編程工作往往都是一個團隊協同進行,因而一致的編碼規範非常有必要,這樣寫成的代碼便於團隊中的其他人員閱讀,也便於編寫者自己以後閱讀。 提示關於本書的Python編碼規

5 變量的更多內容

var 定義 枚舉類 ase 隱式轉換 就是 dna foreach ima 1 類型轉換 1)隱式轉換:隱式轉換不需要做任何工作,也不需要另外編寫代碼。       var1 = var2; 這就是隱式轉換。 2)顯式轉換:明確要求編譯器把一種數據類型轉換為另一種數

尚矽谷大數據技術之Linux5網絡配置和系統管理操作5.7克隆虛擬機

tro 分享 數據 time 克隆 sys font pic get 5.7 克隆虛擬機 1)關閉要被克隆的虛擬機 2)找到克隆選項 3)歡迎頁面 4)克隆虛擬機 5)設置創建完整克隆 6)設置克隆的虛擬機名稱和存儲位置 7)等待正在克隆 8)點擊關閉,完成克