【機器學習-斯坦福】因子分析（Factor Analysis）

阿新 • • 發佈：2018-12-29

1 問題

之前我們考慮的訓練資料中樣例的個數m都遠遠大於其特徵個數n，這樣不管是進行迴歸、聚類等都沒有太大的問題。然而當訓練樣例個數m太小，甚至m<<n的時候，使用梯度下降法進行迴歸時，如果初值不同，得到的引數結果會有很大偏差（因為方程數小於引數個數）。另外，如果使用多元高斯分佈(Multivariate Gaussian distribution)對資料進行擬合時，也會有問題。讓我們來演算一下，看看會有什麼問題：

多元高斯分佈的引數估計公式如下：

分別是求mean和協方差的公式，表示樣例，共有m個，每個樣例n個特徵，因此是n維向量，

是n*n協方差矩陣。

當m<<n時，我們會發現是奇異陣（），也就是說不存在，沒辦法擬合出多元高斯分佈了，確切的說是我們估計不出來。

如果我們仍然想用多元高斯分佈來估計樣本，那怎麼辦呢？

2 限制協方差矩陣

當沒有足夠的資料去估計時，那麼只能對模型引數進行一定假設，之前我們想估計出完全的（矩陣中的全部元素），現在我們假設就是對角陣（各特徵間相互獨立），那麼我們只需要計算每個特徵的方差即可，最後的只有對角線上的元素不為0

回想我們之前討論過的二維多元高斯分佈的幾何特性，在平面上的投影是個橢圓，中心點由決定，橢圓的形狀由決定。

如果變成對角陣，就意味著橢圓的兩個軸都和座標軸平行了。

如果我們想對進一步限制的話，可以假設對角線上的元素都是等值的。

其中

也就是上一步對角線上元素的均值，反映到二維高斯分佈圖上就是橢圓變成圓。

當我們要估計出完整的時，我們需要m>=n+1才能保證在最大似然估計下得出的是非奇異的。然而在上面的任何一種假設限定條件下，只要m>=2都可以估計出限定的。

這樣做的缺點也是顯然易見的，我們認為特徵間獨立，這個假設太強。接下來，我們給出一種稱為因子分析的方法，使用更多的引數來分析特徵間的關係，並且不需要計算一個完整的

。

3 邊緣和條件高斯分佈

在討論因子分析之前，先看看多元高斯分佈中，條件和邊緣高斯分佈的求法。這個在後面因子分析的EM推導中有用。

假設x是有兩個隨機向量組成（可以看作是將之前的分成了兩部分）

其中，，那麼。假設x服從多元高斯分佈，其中

其中，，那麼，，由於協方差矩陣是對稱陣，因此。

整體看來和聯合分佈符合多元高斯分佈。

那麼只知道聯合分佈的情況下，如何求得的邊緣分佈呢？從上面的和可以看出，

,，下面我們驗證第二個結果

由此可見，多元高斯分佈的邊緣分佈仍然是多元高斯分佈。也就是說。

上面Cov(x)裡面有趣的是，這個與之前計算協方差的效果不同。之前的協方差矩陣都是針對一個隨機變數（多維向量）來說的，而評價的是兩個隨機向量之間的關係。比如={身高，體重}，={性別，收入}，那麼求的是身高與身高，身高與體重，體重與體重的協方差。而求的是身高與性別，身高與收入，體重與性別，體重與收入的協方差，看起來與之前的大不一樣，比較詭異的求法。

上面求的是邊緣分佈，讓我們考慮一下條件分佈的問題，也就是的問題。根據多元高斯分佈的定義，。

且

這是我們接下來計算時需要的公式，這兩個公式直接給出，沒有推導過程。如果想了解具體的推導過程，可以參見Chuong B. Do寫的《Gaussian processes》。

4 因子分析例子

下面通過一個簡單例子，來引出因子分析背後的思想。

因子分析的實質是認為m個n維特徵的訓練樣例的產生過程如下：

1、首先在一個k維的空間中按照多元高斯分佈生成m個（k維向量），即

2、然後存在一個變換矩陣，將對映到n維空間中，即

因為的均值是0，對映後仍然是0。

3、然後將加上一個均值（n維），即

對應的意義是將變換後的（n維向量）移動到樣本的中心點。

4、由於真實樣例與上述模型生成的有誤差，因此我們繼續加上誤差（n維向量），

而且符合多元高斯分佈，即

5、最後的結果認為是真實的訓練樣例的生成公式

讓我們使用一種直觀方法來解釋上述過程：

假設我們有m=5個2維的樣本點（兩個特徵），如下：

那麼按照因子分析的理解，樣本點的生成過程如下：

1、我們首先認為在1維空間（這裡k=1），存在著按正態分佈生成的m個點，如下

均值為0，方差為1。

2、然後使用某個將一維的z對映到2維，圖形表示如下：

3、之後加上，即將所有點的橫座標移動，縱座標移動，將直線移到一個位置，使得直線過點，原始左邊軸的原點現在為（紅色點）。

然而，樣本點不可能這麼規則，在模型上會有一定偏差，因此我們需要將上步生成的點做一些擾動（誤差），擾動。

4、加入擾動後，我們得到黑色樣本如下：

5、其中由於z和的均值都為0，因此也是原始樣本點（黑色點）的均值。

由以上的直觀分析，我們知道了因子分析其實就是認為高維樣本點實際上是由低維樣本點經過高斯分佈、線性變換、誤差擾動生成的，因此高維資料可以使用低維來表示。

5 因子分析模型

上面的過程是從隱含隨機變數z經過變換和誤差擾動來得到觀測到的樣本點。其中z被稱為因子，是低維的。

我們將式子再列一遍如下：

其中誤差和z是獨立的。

下面使用的因子分析表示方法是矩陣表示法，在參考資料中給出了一些其他的表示方法，如果不明白矩陣表示法，可以參考其他資料。

矩陣表示法認為z和x聯合符合多元高斯分佈，如下

求之前需要求E[x]

我們已知E[z]=0，因此

下一步是計算，

其中

接著求

這個過程中利用了z和獨立假設（）。並將看作已知變數。

接著求

然後得出聯合分佈的最終形式

從上式中可以看出x的邊緣分佈

【機器學習-斯坦福】因子分析（Factor Analysis）

1 問題之前我們考慮的訓練資料中樣例的個數m都遠遠大於其特徵個數n，這樣不管是進行迴歸、聚類等都沒有太大的問題。然而當訓練樣例個數m太小，甚至m<<n的時候，使用梯度下降法進行迴歸時，如果初值不同，得到的引數結果會有很大偏差（因為方程數小於引數個

因子分析（Factor Analysis）

1 問題之前我們考慮的訓練資料中樣例的個數m都遠遠大於其特徵個數n，這樣不管是進行迴歸、聚類等都沒有太大的問題。然而當訓練樣例個數m太小，甚至m<<n的時候，使用梯度下降法

【機器學習-斯坦福】學習筆記14 主成分分析（Principal components analysis）-最大方差解釋

在這一篇之前的內容是《Factor Analysis》，由於非常理論，打算學完整個課程後再寫。在寫這篇之前，我閱讀了PCA、SVD和LDA。這幾個模型相近，卻都有自己的特點。本篇打算先介紹PCA，至於他們之間的關係，只能是邊學邊體會了。PCA以前也叫做Principal

【機器學習-斯坦福】學習筆記4 ——牛頓方法;指數分佈族; 廣義線性模型（GLM）

牛頓方法本次課程大綱： 1、牛頓方法：對Logistic模型進行擬合 2、指數分佈族 3、廣義線性模型（GLM）：聯絡Logistic迴歸和最小二乘模型複習： Logistic迴歸：分類演算法假設給定x以為引數的y=1和y=0的概率：

【機器學習-斯坦福】學習筆記21——增強學習（Reinforcement Learning and Control）

在之前的討論中，我們總是給定一個樣本x，然後給或者不給label y。之後對樣本進行擬合、分類、聚類或者降維等操作。然而對於很多序列決策或者控制問題，很難有這麼規則的樣本。比如，四足機器人的控制問題，剛開始都不知道應該讓其動那條腿，在移動過程中，也不知道怎麼讓機器人自動找

【機器學習-斯坦福】學習筆記5

生成學習演算法本次課程大綱： 1、生成學習演算法 2、高斯判別分析（GDA，Gaussian Discriminant Analysis） - 高斯分佈（簡要） - 對比生成學習演算法&判別學習演算法（簡要） 3、樸素

【深度學習筆記】優化演算法（ Optimization Algorithm）

本文依舊是吳恩達《深度學習工程師》課程的筆記整理與拓展。一、優化演算法的目的與挑戰優化演算法主要是用來加快神經網路的訓練速度，使得目標函式快速收斂。優化問題面臨的挑戰有病態解、鞍點、梯度爆炸與梯度消失……具體可見參考文獻【1】241頁到249頁。

因子分析（factor analysis)

因子分析（Factor Analysis) 首先從原理上說，主成分分析是試圖尋找原有自變數的一個線性組合。這個組合方差要大，那麼攜帶的資訊也就多，也就是相當於把原始資料的主要成分給拿了出來。而因子分析，是從假設出發，它是假設所有的自變數x出現的原因是因為背後存在一個潛變數f,即因

【機器學習筆記】自組織映射網絡（SOM）

非線性每一個可能合作空間找到節點視覺網格什麽是自組織映射？一個特別有趣的無監督系統是基於競爭性學習，其中輸出神經元之間競爭激活，結果是在任意時間只有一個神經元被激活。這個激活的神經元被稱為勝者神經元（winner-takes-all neuron）。這種

【深度學習】一文讀懂機器學習常用損失函數（Loss Function）

back and 們的 wiki 導出歐氏距離 classes 自變量關於最近太忙已經好久沒有寫博客了，今天整理分享一篇關於損失函數的文章吧，以前對損失函數的理解不夠深入，沒有真正理解每個損失函數的特點以及應用範圍，如果文中有任何錯誤，請各位朋友指教，謝謝~

【機器學習演算法】基於R語言的多元線性迴歸分析

多元線性迴歸的適用條件：（1）自變數對應變數的變化具有顯著影響（2）自變數與應變數間的線性相關必須是真實的，而非形式上的（3）自變數之間需有一定的互斥性（4）應具有完整的統計資料訓練資料：csv格式，含有19維特徵資料下載地址：http://pan.baidu

【機器學習演算法】：提升樹（Boosting tree）

提升樹是以分類樹和迴歸樹為基本分類器的提升方法。提升樹被認為是統計學習中效能最好的方法之一。Boosting方法其實本質上採用的是加法模型（基函式的線性組合）與前向分佈演算法。以決策樹為基函式的Boosting方法被稱為提升樹（Boosting tree）。對分

Go學習之go-ethereum【以太坊】原始碼分析（一）

關於Go語言環境的安裝與配置，我在《入門篇》進行了詳細講解，有需要的朋友可以前往閱讀，本文進入當下比較火熱的區塊鏈專案 - 以太坊（go-ethereum）進行原始碼解讀。本文內容純屬個人見解，有錯誤理解或者不足之處還請見諒，歡迎一起交流學習。 - 環境準備 -

【機器學習實戰】第6章支援向量機（Support Vector Machine / SVM）

第6章支援向量機 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>

【機器學習 Opencv】Opencv之Bag of Word模型（一）

上圖是一張新圖對映到詞典時得到的直方圖，可以看出，這張圖片相對於圖2的情況而言，更接近類別1，所以通過分類器，理想的狀態時判斷為1。但是我們都知道，理想狀態出現的可能性太小，所以BOW難免會有出錯的時候，通過閱讀幾篇論文，發現BOW的識別率大概在60%-80%之間，當然了一方面是資料量巨大的問題

【機器學習實戰】11.使用Apriori演算法進行關聯分析——python3程式

之前費心費力寫了一篇，結果沒有儲存。這一篇主要放上書本上的程式分析及執行結果。關聯分析主要分為：頻繁項集生成和關聯規則生成1.頻繁項集生成——Apriori演算法程式碼：def createC1(dataSet): ''' 構建大小為1的所有候

【機器學習實戰】第10章 K-Means（K-均值）聚類演算法

第 10章K-Means（K-均值）聚類演算法 K-Means 演算法聚類是一種無監督的學習, 它將相似的物件歸到一個簇中, 將不相似物件歸到不同簇中. 相似這一概念取決於所選擇的相似度計算方法. K-Means 是發現給定資料集的 K 個簇的聚類演算法, 之

【機器學習實戰】5.Logistic迴歸（1）

程式：# -*- coding: utf-8 -*- """ Created on Wed Mar 14 14:15:43 2018 @author: ### """ import numpy as np import matplotlib.pyplot as plt d

【機器學習筆記】第二章：模型評估與選擇

機器學習 ini ppi 第二章 err cap ner rate rac 2.1 經驗誤差與過擬合 1. error rate/accuracy 2. error: training error/empirical error, generalization error

【機器學習實戰】第13章利用 PCA 來簡化數據

light nan 文本 com axis 均值 ... cati 二維空間第13章利用 PCA 來簡化數據降維技術場景我們正通過電視觀看體育比賽，在電視的顯示器上有一個球。顯示器大概包含了100萬像素點，而球則可能是由較少的像素點組成，例如說一千個像素