SVD
$A = \sum_{i=1}^r\sigma_iu_iv_i^T = U\Sigma V^T$
$\Sigma = \Bigg[ \begin{matrix} \theta&0&0\\ 0 & \ddots &0\\ 0 & 0 & \theta_r \end{matrix} \Bigg]$
$\Sigma$ 中的各項 $\theta$ 為奇異值

$u_i$ 、 $v_i^T$ ：奇異值 $\theta_i$ 對應的向量

$U^TU=I, V^TV = I$ ： $U$ 和 $V$ 是正交矩陣

特徵值或奇異值的物理意義

統計角度：方差
物理角度：能量

奇異值向量的含義

$U(V)$ 的每行、列代表一個方向

列與列、行與行之間相互正交

如果我們將 $\Sigma$ 中的奇異值降序排列，並且 $U(V)$ 中 $u_i(v_i^T)$ 也相應調整

$u_1$ ：最大能量的方向
$u_2$ ：和 $u_1$ 正交的能量最大的方向
$u_3$ ：和 $u_1$ 、 $u_2$ 正交的能量最大的方向

方法

常用的資料降維方法如下

線性方法

PCA主成分分析
LDA線性判別分析
MDS多維縮放

非線性方法

區域性嵌入

區域性線性嵌入LLE

全域性嵌入

等距離特徵對映ISOMAP
核方法KPCA
拉普拉斯特徵對映LE
自編碼器
TSNE

資料降維(一)基礎篇

文章目錄降維簡介降維方法維度選擇維度抽取基礎知識特徵分解奇異值分解特徵值或奇異值的物理意義奇異值向量的含義方法

詮釋資料降維演算法：一文講盡t-分佈鄰域嵌入演算法(t-SNE)如何有效利用

摘要： t-分佈領域嵌入演算法(t-SNE, t-distributed Stochastic Neighbor Embedding )是目前一個非常流行的對高維度資料進行降維的演算法, 由Laurens van der Maaten和 Geoffrey Hinton於20

用pandas清洗資料具體步驟（基礎篇一）

引言資料清洗是一項複雜且繁瑣(kubi)的工作，同時也是整個資料分析過程中最為重要的環節。但在實際的工作中一個分析專案70%左右的時間花在清洗資料上面。資料清洗的目的有兩個，第一是通過清洗讓資料可用。第二是讓資料變的更適合進行後續的分析工作。換句話說就是有”髒”

Python 自動化運維3-基礎篇

pythonPython語言之Print輸出方法Print 輸出方法： ‘-‘ 表示左對齊 ‘+‘ 表示正號 ‘0‘ 表示用0填充 ‘f‘ 前指定一個最小寬度 ‘.‘ 指定小數點後的精度格式:% [flag][width][.precision]typecode 方法1： 1.num = 7.9 print

【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA

【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA (本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 主成分分析（Principal Component Analysis, PCA)可以

資料降維（Dimension Reduction）

1. 什麼是降維？降維指的是將高維資料維度降低，新的低維資料的特點是：噪聲減少，資料量減少計算減少，更能表示資料的特點。 2. 降維的分類？特徵提取（feature extraction）：將原始高緯度特徵空間通過某種數學變換轉換成低緯度空間，此過程會改變特徵的物理意義。特徵選

Android Fragment使用(一) 基礎篇溫故知新

Fragment使用的基本知識點總結, 包括Fragment的新增, 引數傳遞和通訊, 生命週期和各種操作. Fragment使用基礎 Fragment新增方法一: 佈局裡的標籤識別符號: tag, id, 如果都沒有, container的id將會被使用. 方法二: 動態新增

Linux防火牆--iptables(一)基礎篇

一.iptables 簡介 iptables防火牆是由Netfilter專案開發的，iptables提供了全面的協議狀態跟蹤、資料包的應用層檢查、速率限制、指定策略過濾等。而iptables使用Netfilter框架進行過濾。Netfilter本身不

機器學習——資料降維

特徵選擇選擇特徵就是單純地從提取到的所有特徵種選擇部分特徵作為訓練集特徵，特徵在選擇前和選擇後可以改變值，也不改變值，但是選擇後的特徵維度肯定比選擇前小，畢竟我們只選擇了其中的一部分特徵。主要方法（三大武器）：Filter（過濾器）：VarianceThreshold

python資料預處理：資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都需要對資料做降維處理。資料降維有兩種方式：特徵選擇，維度轉換特徵選擇

服務框架dubbo(一):基礎篇

學習博文：https://www.imooc.com/t/6300745 dubbo是一個分散式服務框架，致力於提供高效能透明化RPC遠端呼叫方案，提供SOA服務治理解決方案。由於dubbo各個分層都是很多擴充套件，註冊中心有redis、zookeeper選項

資料降維(Dimensionality reduction)

資料降維(Dimensionality reduction) 應用範圍無監督學習圖片壓縮(需要的時候在還原回來) 資料壓縮資料視覺化資料壓縮(Data Compression) 將高維的資料轉變為低維的資料, 這樣我們儲存資料的矩陣的列就減少了, 那麼我們需要儲存的

特徵工程-資料降維

特徵工程 1、資料降維 2、特徵提取 3、特徵選擇一、資料降維一、特徵工程特徵工程是一個很大的概念，實在找不到合適的詞，語句來描述特徵工程。為了直觀的學習特徵工程，還是從特徵工程處理的流程來窺視特徵工程為何物？

Python 6-1.內建資料結構之list(基礎篇)

-常見內建資料結構- list 列表 set 集合 dict 字典 tuple 元祖-本章大綱- list(列表): 一組由順序的資料的組合建立列表有值列表無值列表（空列表

機器學習-3.資料特徵預處理與資料降維

特徵預處理定義：通過特定的統計方法（數學方法）將資料轉換成演算法要求的資料。處理方法數值型資料：標準縮放（1.歸一化，2.標準化）；缺失值。類別型資料：one-hot編碼。時間型別：時間的切分。預處理API：sklear

降維(一) PCA

為什麼需要降維？ \qquad如果我們希望模型的精度比較高，或者說泛化誤差率較小，那麼我們希樣本的取樣密度足夠大（密取樣），即在任意樣本xxx附近任意小的δ\deltaδ距離範圍內總能找到一個樣本。 \qquad假設所有樣本在其屬性上歸一化，對於δ=0.001\

D001.5 Docker搭建大資料叢集環境（基礎篇）

0x00 教程內容 0x01 Docker的安裝 1. 2. 3. 0x02 Docker的簡單操作 1. 2. 3. 0x03 Docker資料卷 Docker的資料卷與Centos的

神經網路中embedding層作用——本質就是word2vec，資料降維，同時可以很方便計算同義詞（各個word之間的距離），底層實現是2-gram（詞頻）+神經網路

Embedding tflearn.layers.embedding_ops.embedding (incoming, input_dim, output_dim, validate_indices=False, weights_init='truncated_norm

機器學習實戰（Machine Learning in Action）學習筆記————10.奇異值分解(SVD)原理、基於協同過濾的推薦引擎、資料降維

關鍵字：SVD、奇異值分解、降維、基於協同過濾的推薦引擎作者：米倉山下時間：2018-11-3機器學習實戰（Machine Learning in Action,@author: Peter Harrington）原始碼下載地址：https://www.manning.com/books/machine-le

[Keras深度學習淺嘗]實戰五·使用DNN自編碼器實現聚類操作資料降維

[Keras深度學習淺嘗]實戰五·使用DNN自編碼器實現聚類操作資料降維程式碼部分 # TensorFlow and tf.keras import tensorflow as tf from tensorflow import keras # Helper libraries

資料降維(一)基礎篇

文章目錄

降維簡介

降維方法

維度選擇

維度抽取

基礎知識

特徵分解

奇異值分解