1. 程式人生 > >降維1

降維1

“種一棵樹最好的時間是十年前,其次是現在”

1 維數災難

在KNN中,存在一個預設的重要假設,即認為任意測試樣本 x x 附近任意小的 δ \delta 距離範圍內總能找到一個訓練樣本,這就要求訓練樣本的密度必須足夠大。但在實際應用中,這個條件其實上很難滿足,假設 δ

\delta = 0.001,僅考慮單個屬性,則需要有1000個樣本點平均分佈在歸一化後的屬性取值範圍內,此時最近鄰分類器的錯誤率不會超過貝葉斯最優分類器錯誤率的兩倍。但若屬性維數為20,則需要 1000 20 = 1 0
60 {1000}^{20} = 10^{60}
個樣本,這在現實中基本上是無法實現的。

事實上,在高維情形下出現的樣本資料稀疏、距離計算困難等問題,是所有機器學習方法共同面臨的嚴重障礙,被稱為“維數災難”。

2 降維

解決“維數災難”的一個重要途徑是“降維”,即通過某種數學變換將原始高維屬性空間轉變為一個低維“子空間”,在這個子空間中樣本密度大幅提高,距離計算也變得更為容易。

降維有什麼好處?一是提升計算效率,二是減少對樣本量的依賴,避免在樣本量有限的情況下進行過度訓練造成的過擬合。

為什麼能夠進行降維?這是因為在很多時候,人們觀測或者收集到的資料樣本雖然是高維的,但與學習任務密切相關的也許只是某個低維分佈,即高維空間中的一個低維嵌入。這就為降維的實現提供了理論上的可行性。

2.1 線性降維

一般來說,欲獲得低維子空間,最簡單的是對原始高維空間進行線性變換,給定d維空間中的m個樣本 X R d × m X \in R^{d \times m} ,變換之後得到 d d d^{'} \leq d 維空間中的樣本 Z = W T X Z = W^TX W R d × d W \in R^{d \times d^{'}} 為變換矩陣, Z R d × m Z \in R^{d^{'} \times m} 為樣本在新空間中的表達。

變換矩陣W可以看作是 d d^{'} 個d維基向量, z i = W T x i z_i = W^Tx_i 是原始第 i i 個樣本與這 d d^{'} 個基向量分別做內積得到的 d d^{'} 維屬性向量。新空間中的屬性是原空間中屬性的線性組合。換言之, z i z_i 是原始向量 x i x_i 對映到新座標系 { w 1 , w 2 ,   , w d } \{w_1,w_2,\cdots,w_{d^{'}}\} 後得到的新的座標向量。若 w i w_i w j ( i j ) w_j(i \neq j) 正交,則新座標系為正交座標系,此時W為正交變換。

基於線性變化來進行降維的方法稱之為線性降維方法,都符合 Z = W T X Z = W^TX 的形式,不同之處是對低維子空間的性質有不同的要求,相當於對W施加了不同的約束。

對降維效果進行評估,通常是比較降維前後學習器的效能,若效能有所提升則認為降維起到了效果。若將維數降到了二維或三維,則可通過視覺化技術來直觀地判斷降維效果。

2.1.1 多維縮放

多維縮放(Multiple Dimensional Scaling,MDS),要求原始空間中樣本間的距離在低維空間得以保持。

假定原始 m m d d 維樣本的距離矩陣為 D R m × m D \in R^{m \times m} ,其第 i i 行第 j j 列的元素 d i s t i j dist_{ij} 表示樣本 x i x_i x j x_j 之間的距離。我們的目的是獲得 m m 個樣本在 d d^{'} 維空間中的表示 Z R d × m d d Z \in R^{d^{'} \times m},d^{'} \leq d ,且任意兩個樣本之間的距離與原始空間中的距離保持一致,即 z i z j = d i s t i j ||z_i - z_j|| = dist_{ij}

降維後的樣本 Z Z 的內積矩陣為 B = Z T Z R m × m B = Z^TZ \in R^{m \times m} b i j = z i T z j b_{ij} = z_i^Tz_j 。因為
(1) d i s t i j 2 = z i 2 + z j 2 2 z i T z j = b i i + b j j 2 b i j dist_{ij}^2 = ||z_i||^2 + ||z_j||^2 - 2z_i^Tz_j \\ = b_{ii} + b_{jj} - 2b_{ij} \tag{1}

相關推薦

1

“種一棵樹最好的時間是十年前,其次是現在” 1 維數災難 在KNN中,存在一個預設的重要假設,即認為任意測試樣本 x x

[吳恩達機器學習筆記]141-2的應用資料壓縮與資料視覺化

14.降維 覺得有用的話,歡迎一起討論相互學習~Follow Me 14.1動機一:資料壓縮 降維 也是一種無監督學習的方法,降維並不需要使用資料的標籤。 降維 的其中一個目的是 資料壓

視覺化MNIST:關於的探討(1)

眾所周知,我們人類在二維和三維上能夠理性的進行思考,通過努力,我們可以從第四維來思考。但是機器學習經常要求我們使用成千上萬個維度——或者數萬,或者數百萬!即使是非常簡單的事情,當你在非常高的維度上做的時候,也會變得難以理解。 這時,就需要一些工具的輔助

資料探勘學習------------------1-資料準備-4-主成分分析(PCA)維和相關係數

1.4資料降維 在分析多個變數時發現它們中有一定的相關性。有一種方法將多個變數綜合成少數幾個相互無關的代表性變數來代替原來的變數,這就是資料降維,可以考慮主成分分析法。 1)、主成分分析法(PCA) 1、基本思想 (1)如果將選取的第一個線性組合即第一個綜合變數記為F

Spark MLlib 1.6 --

降維是在計算過程中減少計算量,降低計算複雜度的方法。把特徵向量中可以乎略的部分或噪音部分剔除,也可以是保持特徵向量主要特徵的前提下對向量維度進行壓縮。Spark.mllib 支援行矩陣類(rowmatrix class)的維度降低方法。 6.1 奇異值分解 ---

【機器學習算法-python實現】PCA 主成分分析、

pre gre text iss 主成分分析 int 找到 nts 導入 1.背景 PCA(Principal Component Analysis),PAC的作用主要是減少數據集的維度,然後挑選出基本的特征。 PCA的主要思想是移動坐標軸,找

PCAdemo

效果 cti 代碼 push jpg per ims whitening get PCA(Principal Components Analysis)主成分分析法是一種常用的減小數據維度的算法。 能力有限在這裏就不做過多的數學分析了,具體原理可參見http://uf

scikit-learn:4. 數據集預處理(clean數據、reduce、expand增、generate特征提取)

ova trac ict mea res additive track oval mmc 本文參考:http://scikit-learn.org/stable/data_transforms.html 本篇主要講數據預處理,包含四部分: 數據清洗、數據

特征-PCA的數學原理

可用 高維數據 方法 是什麽 維數 http 工作 訪客 數據挖掘   PCA(Principal Component Analysis)是一種常用的數據分析方法。PCA通過線性變換將原始數據變換為一組各維度線性無關的表示,可用於提取數據的主要特征分量,常用於高維數據的降維

sklearn pca

noise .text learn mac crc sigma 參考 clas nts PCA降維 一.原理 這篇文章總結的不錯PCA的數學原理。 PCA主成分分析是將原始數據以線性形式映射到維度互不相關的子空間。主要就是尋找方差最大的不相關維度。數據的最大方差給出了數據的

Python 自動化運1-拷貝

python列表淺拷貝:定義:對象淺拷貝,創建了一個類型跟原對象一樣,其內容是原對象的引用。例如:a = [100, [200, 300]]b = a[:]print b[100, [200, 300]]b[1][1] = 400print b[100, [200, 400]]print a輸出:[100,

ML: 算法-LDA

交叉檢驗 問題 1.5 red app score 交叉 fish 錯誤 判別分析(discriminant analysis)是一種分類技術。它通過一個已知類別的“訓練樣本”來建立判別準則,並通過預測變量來為未知類別的數據進行分類。判別分析的方法大體上有三類,

關於機器學習中數據的相關方法

機器學習 降維 svd 字典學習前言 在之前一些文章的討論中,通過一些例子我們可以發現(主要是關於決策樹或隨機森林的相關內容)其實並不是樣本的所有屬性可能都是那麽得重要,只要不是同等重要,特別是在分類問題上可能可以去除一些屬性或特征(一般決策樹需要進行剪枝,其實剪枝的原因就在於此)依然能夠得到較好的結果(盡

雙十一手機大戰花開兩朵:榮耀的攻擊和小米的回光返照

榮耀 小米 文丨朱翊攪動國人神經的2017“雙十一”電商促銷大節,終於在淩晨時分迎來閉幕。參與大促的各商家紛紛展示了不錯的銷售成績。在智能手機領域,榮耀不出意外地摘取了京東+天貓累計銷量及銷售額的雙料冠軍,總銷售額超40.2億元,成為名副其實的銷售之王。更值得一提的是,在今年雙11當日,京東平臺榮耀手

技術

ref 查找 過程 body 科學 因此 規律 factor 穩定 1.1 降維的必要性 1. 多重共線性--預測變量之間相互關聯。多重共線性會導致解空間的不穩定,從而可能導致結果的不連貫。 2. 高維空間本身具有稀疏性。一維正態分布有68%的值落於正負標準差之間,而在十維

這款分布式配置中心,會是微服務的打擊利器嗎?

一行 也有 而是 拉取 那一刻 解決 為我 服務集群 多維度 本文來自1月18日數人雲資深工程師在IT大咖說平臺的線上直播分享。 今天主要探討這幾方面: 一、配置中心的定位 二、雲化的微服務對於配置中心的要求 三、微服務配置原則 四、數人雲分布式配置中心整體架構 應DevO

Day10-2 日常運 1

分配內存 命令 tshark 保存 -a 技術 ccf master nload ww查看當前系統狀態[root@slx-01 ~]# w11:23:02 up 1:51, 1 user, load average: 0.00, 0.01, 0.04當前時間 開機時

機器學習 - 特征篩選與

技術分享 eve table for posit none linear osi proc 特征決定了最優效果的上限,算法與模型只是讓效果更逼近這個上限,所以特征工程與選擇什麽樣的特征很重要! 以下是一些特征篩選與降維技巧 # -*- coding:utf-8

【資料收集】PCA

post hive ron str AD span clas htm logs 重點整理: PCA(Principal Components Analysis)即主成分分析,是圖像處理中經常用到的降維方法 1、原始數據: 假定數據是二維的 x=[2.5, 0.5, 2.2,

算法中的線性判別方法LDA

降維算法 數據分析 線性判別分析(Linear?Discriminant?Analysis,?LDA),有時也稱Fisher線性判別(Fisher?Linear?Discriminant?,FLD),?這種算法是Ronald?Fisher?於?1936年發明的,是模式識別的經典算法。在1996年由Be