1. 程式人生 > >降維與度量學習

降維與度量學習

  • 度量學習指距離度量學習,是通過特徵變換得到特徵子空間,通過使用度量學習,讓類似的目標距離更近,不同的目標距離更遠.
  • 也就是說,度量學習需要得到目標的某些核心特徵(特點)。比如區分兩個人,2隻眼睛1個鼻子-這是共性,柳葉彎眉櫻桃口-這是特點。
  • 度量學習分為兩種,一種是基於監督學習的,另外一種是基於非監督學習的。

1.KNN

有監督學習

工作機制

給定測試樣本,基於某種距離度量找出訓練集中與其最靠近的k個訓練樣本,然後基於這k個“鄰居”的資訊進行預測。
(分類中用投票法,迴歸中用平均法,還可以基於距離遠近進行加權投票或平均。)

注意:KNN沒有顯示的訓練過程,它是“懶惰學習

”的代表,它在訓練階段只是把資料儲存下來,訓練時間開銷為0,等收到測試樣本後進行處理。

錯誤率

KNN錯誤率的上下界在1-2倍貝葉斯決策方法的錯誤率範圍內
以最近鄰分類器(K=1)在二分類問題為例:
c = a r g

m a x c Y P ( c
x ) c^*=argmax_{c \in \mathcal Y}P(c|x) 表示貝葉斯最優分類器的結果。給定測試樣本x,若其最近鄰樣本為z,則1NN出錯的概率為x與z類標不同的概率:
P ( e r r ) = 1 c Y P ( c x ) P ( c z ) 1 c Y P 2 ( c x ) 1 P 2 ( c x ) = ( 1 + P ( c x ) ) ( 1 P ( c x ) ) 2 ( 1 P ( c x ) ) P(err)=1-\sum_{c \in \mathcal Y}P(c|x)P(c|z)\approx 1-\sum_{c \in \mathcal Y}P^2(c|x)\le1-P^2(c^*|x)=(1+P(c^*|x))(1-P(c^*|x))\le2(1-P(c^*|x))

2.主成分分析

無監督學習
主成分分析通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。

模型表示

設投影矩陣為W,樣本點 x i x_i 在新空間超平面上的投影是 W T x i W^Tx_i 。我們希望所有樣本點的投影能夠儘可能地分開,所以目標是使得投影后樣本點的方差最大化
max W t r ( W T X X T W ) \max_W\quad tr(W^TXX^TW) s . t . W T W = I s.t.\quad W^TW=I

模型求解

等式條件下求解最優問題用拉格朗日乘子法,得:
X X T w i = λ i w i XX^Tw_i=\lambda_iw_i
於是,只需要對協方差矩陣 X X T XX^T 進行特徵值分解,將特徵值降序排序,前d個特徵值所對應的特徵向量即為投影矩陣W。

3.因子分析

模型表示

在這裡插入圖片描述
在這裡插入圖片描述

變數意義

  • 因子載荷 a i j a_{ij} :反映了第i 個變數在第j個公共因子上的相對重要性。
  • 變數 X i X_i 的共同度 j = 1 m a i j 2 \sum_{j=1}^m a_{ij}^2 :是 X i X_i 方差的主要部分,共同度越大說明公共因子包含 X i X_i 的變異資訊越多。
  • 公共因子 F j F_j 對X的方差貢獻 i = 1 p a i j 2 \sum_{i=1}^p a_{ij}^2 :方差貢獻越大,則該公共因子越重要。

計算步驟

第一步:將原始資料標準化。
第二步:建立變數的相關係數R。
第三步:求R 的特徵根及其相應的單位特徵向量。
第四步:對因子載荷矩陣施行最大正交旋轉。
第五步:計算因子得分。